期刊文献+

基于文档主题结构和词图迭代的关键词抽取方法研究 被引量:8

Extracting Keywords Based on Topic Structure and Word Diagram Iteration
原文传递
导出
摘要 【目的】利用主题模型得到文本主题信息,将主题信息融入TextRank模型对其进行改进,提升文本关键词自动抽取的准确率和召回率。【方法】利用LDA对文档集进行主题建模,得到候选关键词的主题词分布和文档主题分布;结合候选关键词主题分布特征计算节点权重,加权文档–主题概率分布和主题–词概率分布特征作为节点的随机跳转概率;构建新的转移矩阵进行词图迭代,得到改进后的TextRank模型。【结果】采集南方周末网站1 559篇新闻文章进行实验。结果表明,本文模型的关键词抽取效果明显优于原始TextRank和TF-IDF模型;当抽取关键词个数为3时,本模型准确率比原始TextRank模型的准确率提升4.7%,比TF-IDF提升6.5%。【局限】融合算法的计算复杂度增加。【结论】融合主题信息的TextRank算法能够使关键词自动抽取效果更加显著。 [Objective]This paper integrates the topic information to the TextRank model,aiming to improve the precision and recall of automatic keyword extraction.[Methods]First,we used the LDA to create a model for document topics,and obtained the topic distribution of the candidate keywords.Then,we calculated the node weights with the topic-word probability distribution features.Third,we weighted the probability distributions of document-topic and topic-word characteristics as the node’s random jump probability.Finally,we constructed a new transition matrix for word graph iteration to improve the TextRank model.[Results]We examined the proposed model with 1559 news articles from the website of Southern Weekly.When the number of extracted keywords was three,the model’s keyword extraction precision values were 4.7%and 6.5%higher than those of the original Text Rank and TF-IDF algorithms.[Limitations]The fusion algorithm increased computational complexity.[Conclusions]The proposed algorithm could extract keywords more effectively.
作者 孙明珠 马静 钱玲飞 Sun Mingzhu;Ma Jing;Qian Lingfei(School of Economics and Management,Nanjing University of Aeronautics and Astronautics,Nanjing 210016,China)
出处 《数据分析与知识发现》 CSSCI CSCD 北大核心 2019年第8期68-76,共9页 Data Analysis and Knowledge Discovery
基金 国家自然科学基金项目“基于演化本体的网络舆情自适应跟踪方法研究”(项目编号:71373123) 中央高校基本科研业务费专项:前瞻性发展策略研究资助项目“基于大数据技术的跨境电商政府管理范式研究”(项目编号:NW2018004) 国家社会科学基金项目“大数据环境下人文社会科学学术创新力自动测度研究”(项目编号:15BTQ058)的研究成果之一
关键词 关键词抽取 TextRank LDA 图模型 Keywords Extraction TextRank Latent Dirichlet Allocation Graph Model
  • 相关文献

参考文献7

二级参考文献88

  • 1左晓飞,刘怀亮,范云杰,赵辉.基于概念语义场的文本聚类算法研究[J].情报杂志,2012,31(5):180-184. 被引量:2
  • 2李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量:92
  • 3谭胜,马静,吴一占.基于主题描述模型的相关性判断在网页信息抽取中的应用[J].情报学报,2011,30(2):155-159. 被引量:6
  • 4[1]中国社会科学研究评价中心.中文社会科学引文索引[EB/OL].[2008-08-25].http://cssci.nju.edu.cn/introduce.htm.
  • 5[1]Chien Lee-Feng.PAT-tree-based keyword extraction for Chinese information retrieval[C]//Proceedifigs of the ACM SIGIR Intemational Conference on Information Retrieval,1997:50-59
  • 6[2]Yang Wenfen,Li Xing.Chinese keyword extraction based on max-duplicated strings of the documents[C]//Proceedings of the 25th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,2002
  • 7[3]Zhang Kuo,Xu Hui.Tang Jie,et al.Keyword extraction usingsupport vector machine[C]//Proceedings of the 7th International Conference on Web-Age Information Management,Hong Kong,China,2006:85-96
  • 8[4]Olena M,Witten I H.Thesaurus-based index term extraction for agricultural documents[C]//Proceedings of the 6th Agricultural Ontology Service Workshop at EFITA/WCCA.Vila Real;IEEE Press,2005:11-22
  • 9[5]Peter T.Learning to extract keyphrases from text[R].OTTAWA:National Research Council,1999:1-43
  • 10[7]俞鸿魁,张华平,刘群.基于角色标注的中文机构名识别[C]//Proceedings of the 20th International Conference on Computer Processing of Oriental Languages(ACOL),2003

共引文献281

同被引文献86

引证文献8

二级引证文献30

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部