投稿指南
来稿应自觉遵守国家有关著作权法律法规,不得侵犯他人版权或其他权利,如果出现问题作者文责自负,而且本刊将依法追究侵权行为给本刊造成的损失责任。本刊对录用稿有修改、删节权。经本刊通知进行修改的稿件或被采用的稿件,作者必须保证本刊的独立发表权。 一、投稿方式: 1、 请从 我刊官网 直接投稿 。 2、 请 从我编辑部编辑的推广链接进入我刊投审稿系统进行投稿。 二、稿件著作权: 1、 投稿人保证其向我刊所投之作品是其本人或与他人合作创作之成果,或对所投作品拥有合法的著作权,无第三人对其作品提出可成立之权利主张。 2、 投稿人保证向我刊所投之稿件,尚未在任何媒体上发表。 3、 投稿人保证其作品不含有违反宪法、法律及损害社会公共利益之内容。 4、 投稿人向我刊所投之作品不得同时向第三方投送,即不允许一稿多投。 5、 投稿人授予我刊享有作品专有使用权的方式包括但不限于:通过网络向公众传播、复制、摘编、表演、播放、展览、发行、摄制电影、电视、录像制品、录制录音制品、制作数字化制品、改编、翻译、注释、编辑,以及出版、许可其他媒体、网站及单位转载、摘编、播放、录制、翻译、注释、编辑、改编、摄制。 6、 第5条所述之网络是指通过我刊官网。 7、 投稿人委托我刊声明,未经我方许可,任何网站、媒体、组织不得转载、摘编其作品。

文本挖掘下的话语认知与构建以人工智能和领域(2)

来源:智库时代 【在线投稿】 栏目:期刊导读 时间:2021-06-24
作者:网站采编
关键词:
摘要:?为阻尼系数,通常设置为0.85,Zi为所有链接到网页i 的集合,Sp为网页p 的PR 值,Bp为网页p 的对外链出数,由此,可以有效的得出网页的重要性值。 PageR

?为阻尼系数,通常设置为0.85,Zi为所有链接到网页i 的集合,Sp为网页p 的PR 值,Bp为网页p 的对外链出数,由此,可以有效的得出网页的重要性值。

PageRank 算法是根据网页之间的联系来构造网络,而TextRank 算法将网页换成文本,文本即为句与句之间组成的有序结合,将句子设为节点,句子与句子之间的相似度类比于网页之间的链接关系,也就是根据词之间的共现关系构造网络[10,11]。PageRank 算法构造的网络中的边为有向无权边,而TextRank 算法构造的网络中的边为无向有权边。

在这里,本文先将TextRank 详细提取关键词和关键句详细算法步骤总结如下。

(1)将所需文章内容整合成文本数据;

(2)将文本分割成整句形式,如T=[j1,j2,j3,...,jn];

(3)依次将每个句子进行分词和词性标注,删除停用词,保留指定词性的词;

(4)向量化,计算句子向量之间的相似性并存放在矩阵中,如矩阵,其中M[x,y]代表句子x 和句子y 之间的相似度;

(5)构建将相似矩阵转换为以句子为节点、相似性得分为边的图结构,计算权重;

(6)根据排名合理提取。

TextRank 算法的核心公式如(2):

这里只是将PageRank 算法公式略作修改,表示两节点边的重要程度。

2.3 句子相似度

在从所需文本中提取核心关键句的情况下,将所需文本中每个句子单独看做一个节点,若有两个句子有相似性,那么即可以认为这两个节点之间存在无向有权边[12]。令Sj、Sk为两个句子,对其句子中词的个数求对数后再求和,并求在同一时刻出现在两个句子中的同一词的数量,具体公式如(3)~(4)所示。

即,求句子相似度的公式为:

Wk为句Sj与句Sk中共有的词,根据此公式,计算每个文本句子的相似度,随后通过设置阀值去掉最低值,构建图并重复迭代计算,依次排序得出所需文本句[13]。同理,将节点由句子换为词,即为词的提取,在这里就不在详细描述。

3 实证研究

3.1 数据采集

考虑到政府新闻文本的实时性,本文结合当代中美两大国科技问题进行数据采集分析。笔者使用“5G”“artificial intelligence”为搜索词,在美国白宫网站()官方新闻中进行数据获取,检索2020 年、2019 年、2018 年、2017 年4 年,共检索到相关新闻信息文章556 篇,随后利用数据采集软件对上述检索出来的新闻文章进行采集收集,并且导入Excel。结合本文所要突出的核心以及后续话语分析,笔者在这里进行了人工筛选对数据进行了清洗,去除与搜索词相关度不大的文章以及产品介绍等非政策性文本,最后得出所需新闻信息文本266 篇(图1)。

以笔者人工筛选后的结果为例,分析后可以发现,作为政府部门,其在人工智能与5G 领域2017 年的上半年新闻发布量为28 篇,下半年为33 篇,上下半年从发文量来看基本持平;2018 年上半年新闻发布量为35 篇,下半年为44 篇,2018 年的发文量相比2017 年略有增长,尤其在下半年的时候5G 相关的新闻文本有了较大激增;2019 年上半年新闻发布量为44 篇,下半年为46 篇,发文量有了提高,此时人工智能领域的文本有了较大的占比;进入2020 年,截止笔者搜索前,2020 年上半年的新闻发布量已经达到了36 篇,人工智能领域的文本占31 篇,占总发文量的86%(图2)。笔者结合时事政治因素,发现随着近两年华为与高通的5G 之争、人工智能领域的火热,各国加大了对人工智能领域的研发主导权,相关发展中国家的创新应用等也随之增加,白宫新闻发布量也随之激增,后文将结合词性微观角度对政府所发新闻文本进行话语分析。

图1 相关新闻数目统计图Fig.1 Statistics of related news

图2 人工智能与5G 领域发文量对比Fig.2 Comparison of the number of papers published in the field of artificial intelligence and 5G

3.2 词频统计

前文所述关键句获取后,再以句子为素材进行关键词获取,其具体步骤不在细述,在这里利用Wordsmith7 软件对所获取数据文本进行统计,排名如表1所示。

表1 文本词频统计(部分)Table 1 Text word frequency statistics(part)

表1 中,“China”与“American”都排名前10,且使用频率提及的较高,说明在人工智能和5G 领域,中国具有较高的科技创新以及科研能力,美国官方对中国的关注度远远高于其他国家。刨除“China”等专有名词可以发现,词“Challenge”名列前茅,间接说明了美国官方关注点的根本旨意,下面结合不同领域的关键词进行话语分析。

文章来源:《智库时代》 网址: http://www.zksdbjb.cn/qikandaodu/2021/0624/1312.html



上一篇:专家把脉中国演艺装备科技蓝皮书中国演艺装备
下一篇:中国老科协智库圆桌会暨未来教育关键问题与对

智库时代投稿 | 智库时代编辑部| 智库时代版面费 | 智库时代论文发表 | 智库时代最新目录
Copyright © 2018 《智库时代》杂志社 版权所有
投稿电话: 投稿邮箱: