-
题名基于Gensim的摘要自动生成算法研究与实现
被引量:15
- 1
-
-
作者
肖元君
吴国文
-
机构
东华大学计算机科学与技术学院
-
出处
《计算机应用与软件》
北大核心
2019年第12期131-136,共6页
-
基金
国家自然科学基金项目(61472075)
-
文摘
为了让计算机能够对中文文章提取摘要,提出一种中文摘要自动生成算法。该算法基于Gensim自然语言处理框架实现,并在原有的基础上做出了改进,算法主要分为两个阶段。关键句生成阶段,对中文语料进行预处理,并放入Gensim框架中的Word2vec模型进行训练,修改TextRank算法使其能够接受词向量的输入生成无向图从而找到关键句;摘要生成框架构建阶段,根据文章结构与Gensim框架中的LDA主题模型所提取的关键词,赋予句子不同的权值,将分数高的几个句子组合生成文章摘要。Rouge摘要评测结果表明,该算法生成的摘要能够包含文章关键信息,相比于其他自动文摘算法,句意通顺程度得到了提升。
-
关键词
gensim框架
Word2vec模型
TextRank算法
摘要生成框架
LDA主题模型
Rouge摘要评测
-
Keywords
gensim framework
Word2vec model
TextRank algorithm
Abstract generation framework
LDA theme model
Rouge summary evaluation
-
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
-