- · 《智库时代》栏目设置[06/28]
- · 《智库时代》收稿方向[06/28]
- · 《智库时代》投稿方式[06/28]
- · 《智库时代》征稿要求[06/28]
- · 《智库时代》刊物宗旨[06/28]
文本挖掘下的话语认知与构建以人工智能和领域(2)
作者:网站采编关键词:
摘要:?为阻尼系数,通常设置为0.85,Zi为所有链接到网页i 的集合,Sp为网页p 的PR 值,Bp为网页p 的对外链出数,由此,可以有效的得出网页的重要性值。 PageR
?为阻尼系数,通常设置为0.85,Zi为所有链接到网页i 的集合,Sp为网页p 的PR 值,Bp为网页p 的对外链出数,由此,可以有效的得出网页的重要性值。
PageRank 算法是根据网页之间的联系来构造网络,而TextRank 算法将网页换成文本,文本即为句与句之间组成的有序结合,将句子设为节点,句子与句子之间的相似度类比于网页之间的链接关系,也就是根据词之间的共现关系构造网络[10,11]。PageRank 算法构造的网络中的边为有向无权边,而TextRank 算法构造的网络中的边为无向有权边。
在这里,本文先将TextRank 详细提取关键词和关键句详细算法步骤总结如下。
(1)将所需文章内容整合成文本数据;
(2)将文本分割成整句形式,如T=[j1,j2,j3,...,jn];
(3)依次将每个句子进行分词和词性标注,删除停用词,保留指定词性的词;
(4)向量化,计算句子向量之间的相似性并存放在矩阵中,如矩阵,其中M[x,y]代表句子x 和句子y 之间的相似度;
(5)构建将相似矩阵转换为以句子为节点、相似性得分为边的图结构,计算权重;
(6)根据排名合理提取。
TextRank 算法的核心公式如(2):
这里只是将PageRank 算法公式略作修改,表示两节点边的重要程度。
2.3 句子相似度
在从所需文本中提取核心关键句的情况下,将所需文本中每个句子单独看做一个节点,若有两个句子有相似性,那么即可以认为这两个节点之间存在无向有权边[12]。令Sj、Sk为两个句子,对其句子中词的个数求对数后再求和,并求在同一时刻出现在两个句子中的同一词的数量,具体公式如(3)~(4)所示。
即,求句子相似度的公式为:
Wk为句Sj与句Sk中共有的词,根据此公式,计算每个文本句子的相似度,随后通过设置阀值去掉最低值,构建图并重复迭代计算,依次排序得出所需文本句[13]。同理,将节点由句子换为词,即为词的提取,在这里就不在详细描述。
3 实证研究
3.1 数据采集
考虑到政府新闻文本的实时性,本文结合当代中美两大国科技问题进行数据采集分析。笔者使用“5G”“artificial intelligence”为搜索词,在美国白宫网站()官方新闻中进行数据获取,检索2020 年、2019 年、2018 年、2017 年4 年,共检索到相关新闻信息文章556 篇,随后利用数据采集软件对上述检索出来的新闻文章进行采集收集,并且导入Excel。结合本文所要突出的核心以及后续话语分析,笔者在这里进行了人工筛选对数据进行了清洗,去除与搜索词相关度不大的文章以及产品介绍等非政策性文本,最后得出所需新闻信息文本266 篇(图1)。
以笔者人工筛选后的结果为例,分析后可以发现,作为政府部门,其在人工智能与5G 领域2017 年的上半年新闻发布量为28 篇,下半年为33 篇,上下半年从发文量来看基本持平;2018 年上半年新闻发布量为35 篇,下半年为44 篇,2018 年的发文量相比2017 年略有增长,尤其在下半年的时候5G 相关的新闻文本有了较大激增;2019 年上半年新闻发布量为44 篇,下半年为46 篇,发文量有了提高,此时人工智能领域的文本有了较大的占比;进入2020 年,截止笔者搜索前,2020 年上半年的新闻发布量已经达到了36 篇,人工智能领域的文本占31 篇,占总发文量的86%(图2)。笔者结合时事政治因素,发现随着近两年华为与高通的5G 之争、人工智能领域的火热,各国加大了对人工智能领域的研发主导权,相关发展中国家的创新应用等也随之增加,白宫新闻发布量也随之激增,后文将结合词性微观角度对政府所发新闻文本进行话语分析。
图1 相关新闻数目统计图Fig.1 Statistics of related news
图2 人工智能与5G 领域发文量对比Fig.2 Comparison of the number of papers published in the field of artificial intelligence and 5G
3.2 词频统计
前文所述关键句获取后,再以句子为素材进行关键词获取,其具体步骤不在细述,在这里利用Wordsmith7 软件对所获取数据文本进行统计,排名如表1所示。
表1 文本词频统计(部分)Table 1 Text word frequency statistics(part)
表1 中,“China”与“American”都排名前10,且使用频率提及的较高,说明在人工智能和5G 领域,中国具有较高的科技创新以及科研能力,美国官方对中国的关注度远远高于其他国家。刨除“China”等专有名词可以发现,词“Challenge”名列前茅,间接说明了美国官方关注点的根本旨意,下面结合不同领域的关键词进行话语分析。
文章来源:《智库时代》 网址: http://www.zksdbjb.cn/qikandaodu/2021/0624/1312.html