- · 《智库时代》栏目设置[06/28]
- · 《智库时代》收稿方向[06/28]
- · 《智库时代》投稿方式[06/28]
- · 《智库时代》征稿要求[06/28]
- · 《智库时代》刊物宗旨[06/28]
基于的多维度智库相互影响力评估(2)
作者:网站采编关键词:
摘要:1.1 内影响力评估 为评估文章对智库内部文章产生的影响力,本文采用TextRank算法[12]挖掘智库文章的关键词数据,构建文章的特征向量。TextRank算法以Page
1.1 内影响力评估
为评估文章对智库内部文章产生的影响力,本文采用TextRank算法[12]挖掘智库文章的关键词数据,构建文章的特征向量。TextRank算法以PageRank链接分析理论为基础,对文章词语的重要程度迭代计算,只需要文档本身即可实现词语重要程度的计算,是目前无监督关键词挖掘的主流方法,简洁并高效。本文在分析智库文章中,涉及大量的文本关键词提取,计算量较大且精确度要求高,故使用TextRank算法进行文章关键词提取。
挖掘到文章特征关键词后,组建文章特征向量,并依据特征向量计算某篇文章与该篇文章发表后的所有文章之间的相似度,相似度越大,说明两篇文章内容越相似,即发表时间在前的文章对发表时间在后的文章影响越大。同时,考虑到由于文章的影响力会随着时间的推移逐渐减弱,在评估影响力时引入了时间衰减因子。
为实现文章间相似度的计算,本文首先基于TextRank算法对文章进行特征提取。该算法通过将文本分割成若干组成单元(如单词、句子)并建立图模型,利用局部词汇之间关系(共现窗口)迭代传播图模型的各个节点权重,直至收敛,最后对关键词进行排序,得到最重要的n个单词。TextRank利用单篇文档本身包含的文本信息即可实现关键词提取、文本摘要的提取,该算法广泛应用于实际的文本挖掘中。
假设当前文章Pi,基于TextRank算法对Pi进行处理,可得到由n个关键词构成的特征向量Vi。对于文章Pi、Pj,采用欧式距离计算文章Pi与Pj间的相似度,即
其中,Vi表示当前文章Pi的特征向量,Vj表示在文章Pij对应的特征向量。
假设文章间影响关系为rij,若rij=1,则表示两篇文章有影响关系;若rij=0,则表示两篇文章无影响关系。影响关系rij的判定公式如下:
其中,Th表示影响阈值,当文章Pi与Pj的相似度SIM(Pi,Pj)高于影响阈值Th时,说明两篇文章所表达的内容相似,文章间存在影响与被影响关系。
判断Pi与其发表之后的所有文章间的影响关系,统计得出Pi的总影响量,即
其中,rij表示Pi与其发表之后的Pj的影响关系,i 智库文章同样存在着多层影响关系,类似于学术研究领域的引文网络,文章影响关系示例如图1所示,文章Pi可影响文章Pj的内容,而Pj又影响文章Pk的内容,那么Pi与Pk之间存在的是一种间接影响关系而非直接影响关系,文章Pi的影响力也应有所下降。随着时间的推移,间接影响关系会逐渐增强,文章Pi的影响力也相应逐渐下降。因此,为体现这种文章影响力随时间衰减的情况,需引入时间衰减因子。 图1 文章影响关系示例图 常用的时间衰减函数包括指数函数(f(t)=e-λt)、Logistic函数和Damping函数(f(t)=(1+λt)e-λt)[13]。当λ值固定时,时间衰减函数f(t)均随着t的增加而逐渐由1衰减至0。在下降速率方面,指数函数下降速度最快,Logistic函数次之,Damping函数下降速度最慢。考虑到实际情况,缓慢衰减趋势更适用于描述智库文章对其他文章的影响,因此,本文将Damping函数f(t)=(1+λt)e-λt作为时间衰减因子,应用到影响量计算中,即文章Pi带时间权重的总影响量ETi。 其中,λ为衰减率,D(Tj)表示时间衰减因子,随着Tj的增加而衰减。引入了时间衰减因子的影响量ETi,用于评价文章内容的影响力,相比影响量Ei更为贴近现实,更为准确。 1.2 外影响力评估 通过文章总影响量的计算,可以衡量文章与文章间的内部影响关系。而文章的影响力还会体现在对外部环境的影响:影响力大的文章发表后,会引起同行对该主题的关注,并带动起学术界对该主题的讨论。所以文章的影响力大不仅体现在影响了许多的后继者,也体现为成为研究热潮的推动者。 本文将文章的外影响力定义为文章的主题流行度,即文章的流行趋势,计算方法如下 其中Popularity(Ti)表示在Ti时间段内发表的文章流行度,F(Ti)在Ti时间段内某一特定主题所发表的文章数量,F(Ti)表示在Ti时间段文章发表的增长率,实际意义为该时间段的文章引发了后续多少篇文章的讨论,即反映了一个时间段内的文章对外部环境的总影响趋势贡献率。为了将贡献率均分到发表在该时间段内的文章上,将贡献率F(Ti)'除以文章数。 1.3 智库文章影响力评估 基于文章内容影响量ETi与外部环境影响量即文章流行度Popularity(Ti),文章Pi的最终影响力指标EFi,计算公式如下 文章来源:《智库时代》 网址: http://www.zksdbjb.cn/qikandaodu/2021/0510/1178.html