词语位置加权TextRank的关键词抽取研究被引量：76

Study on Keyword Extraction Using Word Position Weighted TextRank

导出

摘要把关键词抽取问题看作是构成文档词语的重要性排序问题,基于TextRank基本思想,构建候选关键词图,引入覆盖影响力、位置影响力和频度影响力用于计算词语之间的影响力概率转移矩阵,通过迭代法实现候选关键词分值计算,并挑选前N个作为关键词抽取结果。实验结果表明,对词语位置加权的TextRank方法优于传统的TextRank方法和基于LDA主题模型的关键词抽取方法。 The keyword extraction problem is taken as a word importance ranking problem. In this paper,candidate key- word graph is constructed based on TextRank, and the influences of word coverage, location and frequency are used to cal- culate the probability transition matrix, then, the word score is calculated by iterative method, and the top N candidate keywords are picked as the final results. Experimental results show that the proposed word position weighted TextRank method is better than the traditional TextRank method and LDA topic model method.

作者夏天

机构地区中国人民大学数据工程与知识工程教育部重点实验室中国人民大学信息资源管理学院

出处《现代图书情报技术》 CSSCI 北大核心 2013年第9期30-34,共5页 New Technology of Library and Information Service

基金国家社会科学基金项目"Web2.0环境下的网络舆情采集与分析"(项目编号:09CTQ027) 国家社会科学基金重大项目"云计算环境下的信息资源集成与服务研究"(项目编号:12&ZD220)的研究成果之一

关键词关键词抽取词排序 TextRank 图模型LDA Keyword extraction Word rank TextRank Graph model LDA

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1Mihalcea R, Tarau P. TextRank : Bringing Order into Texts [ C ]. In: Proceedings of Empirical Methods in Natural Language Process- ing, Barcelona, Spain. 2004:404-411.
2Frank E, Paynter G W, Witten I H, et al. Domain - Specific Key- phrase Extraction [ C ] In: Proceedings of the 16th International Joint Conference on Artificial Intelligence, Stockholm, Sweden. 1999 : 668 -673.
3Turney P D. Learning Algorithms for Keyphrase Extraction[ J]. In- formation Retrieval, 2000, 2 (4) :303 - 336.
4Pasquier C. Task 5 : Single Document Keyphrase Extraction Using Sentence Clustering and Latent Dirichlet Allocation [ C ]. In : Pro- ceedings of the 5th International Workshop on Semantic Evaluation. Stroudsburg, PA, USA : Association for Computational Linguistics, 2010:154 - 157.
5石晶,李万龙.基于LDA模型的主题词抽取方法[J].计算机工程,2010,36(19):81-83. 被引量：47
6刘俊,邹东升,邢欣来,李英豪.基于主题特征的关键词抽取[J].计算机应用研究,2012,29(11):4224-4227. 被引量：30
7Blei D M, Ng A Y, Jordan M I. Latent Dirichlet Allocation[ J]. Journal of Machine Learning Research, 2003, 3: 993- 1022.
8Page L, Brin S, Motwani R, et al. The PageRank Citation Rank- ing: Bringing Order to the Web [ R]. Stanford Digital Library Technologies Project, 1998.
9Rajaraman A, Ullman J D. Mining of Massive Datasets[ M]. Cam- bride University Press. 2012 : 171 - 173.
10夏天.中心网页中主题网页链接的自动抽取[J].山东大学学报（理学版）,2012,47(5):25-31. 被引量：4

二级参考文献39

1王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
2耿焕同,蔡庆生,于琨,赵鹏.一种基于词共现图的文档主题词自动抽取方法[J].南京大学学报（自然科学版）,2006,42(2):156-162. 被引量：30
3王芳,于浩,谭红叶,赵铁军.基于链接分块的相关链接提取方法[J].计算机工程与应用,2006,42(31):110-113. 被引量：2
4朱红灿,邹凯.基于机器学习的Web链接的抽取[J].情报理论与实践,2007,30(2):252-255. 被引量：2
5刘兵.Web数据挖掘[M].北京:清华大学出版社,2009.
6Blei D M, Ng A Y, Jordan M I. Latent Dirichlet Allocation[J]. Journal of Machine Learning Research, 2003, 3: 993-1022.
7Caol J, Li Jintao, Zhang Yongdong, et al. LDA-based Retrieval Framework for Semantic News Video Retrieval[C]//Proc. of Conf. on Semantic Computing. Irvine, California, USA: IEEE Press, 2007.
8Steyvers M, Griffiths T. Probabilistic Topic Models[M]//Landauer T, McNamara D, Dennis S, et al. Latent Semantic Analysis: A Road to Meaning. [S. l.]: MIT Press, 2006.
9Griffiths T, Steyvers M. Finding Scientific Topics[J]. Proceedings of the National Academy of Sciences, 2004, 101 (Suppl. 1 ): 5228-5235.
10Nevada L V. Fast Collapsed Gibbs Sampling for Latent Dirichlet Allocation[C]//Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, USA: ACM Press, 2008: 569-577.

共引文献72

1聂卉.结合词向量和词图算法的用户兴趣建模研究[J].数据分析与知识发现,2019,3(12):30-40. 被引量：8
2吴文海,孙磊,王国志,张霆.基于近义词分配的铁路接触网绝缘子识别与分类[J].电瓷避雷器,2020(1):156-160. 被引量：5
3黄小亮,郁抒思,关佶红.基于LDA主题模型的软件缺陷分派方法[J].计算机工程,2011,37(21):46-48. 被引量：11
4李建平.手法治疗骶髂关节错缝52例[J].按摩与导引,2000,16(3):52-53.
5王昊,杨亮,林鸿飞.日本地震的微博热点事件分析[J].中文信息学报,2012,26(5):7-13. 被引量：9
6周亦鹏,杜军平.基于时空情境模型的主题跟踪[J].华南理工大学学报（自然科学版）,2012,40(8):82-87. 被引量：1
7周亦鹏,杜军平.基于关联词的主题模型语义标注[J].智能系统学报,2012,7(4):327-332. 被引量：3
8李冬睿,李梅.基于潜在狄利克雷分配的图像多层视觉表示方法[J].计算机应用,2013,33(8):2310-2312.
9刘兴林.改进的增量词集频率主题词提取算法[J].计算机应用,2013,33(9):2546-2549. 被引量：2
10叶春蕾,冷伏海.基于引文—主题概率模型的科技文献主题识别方法研究[J].情报理论与实践,2013,36(9):100-103. 被引量：17

同被引文献567

1聂卉.结合词向量和词图算法的用户兴趣建模研究[J].数据分析与知识发现,2019,3(12):30-40. 被引量：8
2谭红叶,李宣影,刘蓓.基于外部知识和层级篇章表示的阅读理解方法[J].中文信息学报,2020(4):85-91. 被引量：6
3黄波,刘传才.基于加权TextRank的中文自动文本摘要[J].计算机应用研究,2020,37(2):407-410. 被引量：21
4王方伟,杨少杰,赵冬梅,王长广.基于改进TF-IDF的多态蠕虫特征自动提取算法[J].华中科技大学学报（自然科学版）,2020,48(2):79-84. 被引量：3
5李明节,陶洪铸,许洪强,刘金波,张强,张伟.电网调控领域人工智能技术框架与应用展望[J].电网技术,2020,44(2):393-400. 被引量：77
6闫宏飞,陈翀.词汇与中心词的距离信息对问句相似度匹配的影响[J].清华大学学报（自然科学版）,2005,45(S1):1873-1877. 被引量：8
7赵英环,郭贵锁.基于主题词迭代提取的信息检索算法[J].华南理工大学学报（自然科学版）,2004,32(z1):77-80. 被引量：3
8钱爱兵,江岚.基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例[J].情报理论与实践,2008,31(6):945-950. 被引量：29
9王昀,苑春法.基于转换的时间-事件关系映射[J].中文信息学报,2004,18(4):23-30. 被引量：19
10左晓飞,刘怀亮,范云杰,赵辉.基于概念语义场的文本聚类算法研究[J].情报杂志,2012,31(5):180-184. 被引量：2

引证文献76

1聂卉.结合词向量和词图算法的用户兴趣建模研究[J].数据分析与知识发现,2019,3(12):30-40. 被引量：8
2黄波,刘传才.基于加权TextRank的中文自动文本摘要[J].计算机应用研究,2020,37(2):407-410. 被引量：21
3顾益军,夏天.融合LDA与TextRank的关键词抽取研究[J].现代图书情报技术,2014(7):41-47. 被引量：70
4唐晓波,肖璐.基于依存句法网络的文本特征提取研究[J].现代图书情报技术,2014(11):31-37. 被引量：10
5姚尧.自动关键短语抽取综述[J].现代计算机,2015,21(3):13-14. 被引量：1
6赵佳鹏,林民.基于维基百科的领域历史沿革信息抽取[J].计算机应用,2015,35(4):1021-1025. 被引量：5
7段准,刘功申.基于TextRank的用户模板构建方法[J].计算机技术与发展,2015,25(10):1-6. 被引量：1
8谢玮,沈一,马永征.基于图计算的论文审稿自动推荐系统[J].计算机应用研究,2016,33(3):798-801. 被引量：21
9徐茂军,王红.一种基于分词距离改进的 Lucene 排序算法[J].山东师范大学学报（自然科学版）,2016,31(1):66-72.
10宁建飞,刘降珍.融合Word2vec与TextRank的关键词抽取研究[J].现代图书情报技术,2016(6):20-27. 被引量：66

二级引证文献548

1董宇,杨景升,秦彤昱,郭海博.基于文本关键词提取的自驾车营地行业标准讨论——以《自驾车旅居车营地质量等级划分》为例[J].中国标准化,2021(8):125-132. 被引量：1
2侯雪亮,李新,陈远平.基于多神经网络混合的短文本分类模型[J].计算机系统应用,2020(10):9-19. 被引量：5
3严娇,马静,房康.基于融合共现距离的句法网络下文本语义相似度计算[J].数据分析与知识发现,2019,3(12):93-100. 被引量：3
4陈美杉,夏晨曦.肝癌患者在线提问的命名实体识别研究:一种基于迁移学习的方法[J].数据分析与知识发现,2019,3(12):61-69. 被引量：15
5聂卉.结合词向量和词图算法的用户兴趣建模研究[J].数据分析与知识发现,2019,3(12):30-40. 被引量：8
6梁媛,王东波,黄水清.面向人民日报语料的新闻自动摘要生成[J].知识管理论坛,2022(4):452-464. 被引量：1
7熊回香,陈子薇,叶佳鑫.基于共现关系的关键词层次结构构建研究[J].知识管理论坛,2022(4):443-451. 被引量：1
8胡志伟,裴雷.基于自述研究兴趣相似性网络的机构潜在合作关系挖掘——以国内图书情报与档案管理教育机构为例[J].知识管理论坛,2022(2):143-152.
9李春霞,许键,彭艳兵.基于语义关联融合的案件识别[J].数字技术与应用,2024,42(3):155-160.
10曾金,张耀峰,黄新杰,黄廷海.面向用户评论的主题挖掘研究——以美团为例[J].情报科学,2022,40(11):78-84. 被引量：7

1宁建飞,刘降珍.融合Word2vec与TextRank的关键词抽取研究[J].现代图书情报技术,2016(6):20-27. 被引量：66
2夏天.词向量聚类加权TextRank的关键词抽取[J].数据分析与知识发现,2017,1(2):28-34. 被引量：60
3王兴兰.摘要逻辑项中关键词抽取方法研究[J].农业图书情报学刊,2016,28(3):18-22. 被引量：1
4何晓阳,张精理,丁婷.医学新闻关键词自动提取策略[J].中华医学图书情报杂志,2014,23(4):13-17. 被引量：2
5刘啸剑,谢飞,吴信东.基于图和LDA主题模型的关键词抽取算法[J].情报学报,2016,35(6):664-672. 被引量：38
6王兰成,刘晓亮.舆情事件网页内容的词汇关联分析算法实现研究[J].信息工程大学学报,2014,15(1):105-110.
7叶柳娇.浅谈高校图书馆中利用EXCEL解决期刊邮发代号变形及排序问题[J].科技风,2009(13).
8魏双跃.关于档案管理现代化的几点思考[J].赤子,2016(19). 被引量：1
9赵蓉英,戴亦舒.基于共词分析的近10年我国社会科学领域信息服务热点研究[J].图书情报工作,2012,56(S2):260-263. 被引量：1
10李有梅.基于词义的关键词抽取方法研究[J].情报理论与实践,2000,23(2):81-83. 被引量：5

现代图书情报技术

2013年第9期

浏览历史

内容加载中请稍等...

词语位置加权TextRank的关键词抽取研究被引量：76

参考文献11

二级参考文献39

共引文献72

同被引文献567

引证文献76

二级引证文献548

相关作者

相关机构

相关主题

浏览历史

词语位置加权TextRank的关键词抽取研究 被引量：76

参考文献11

二级参考文献39

共引文献72

同被引文献567

引证文献76

二级引证文献548

相关作者

相关机构

相关主题

浏览历史

词语位置加权TextRank的关键词抽取研究被引量：76