融合信息熵的TextRank关键词抽取方法被引量：1

TextRank Keyword Extraction Method Based on Information Entropy

下载PDF

导出

摘要将信息熵融入TextRank算法中分词器部分以改善关键词抽取的准确度。在分词前,先用信息熵的方式提取文章的关键新词,加入到分词字典中,使分词器能够自主识别新词,以增强文章关键词提取的准确性。当语料中存在新词的时候,关键词抽取准确度效果提升明显,对不存在新词的语料关键词抽取准确度无明显提升。改善分词效果可以提升关键词抽取准确度。 Information entropy is incorporated into the word segmentation part of the TextRank algorithm to improve the accuracy of keyword extraction.Before word segmentation,the key new words of the article are first extracted by information entropy and added to the word segmentation dictionary,so that the word segmenter can recognize new words autonomously to enhance the accuracy of the keyword extraction of the article.When there are new words in the corpus,the accuracy of keyword extraction is significantly improved.There is no improvement in the accuracy of corpus keyword extraction without new words.Improving the performance of word segmentation can improve the accuracy of keyword extraction.

作者于腊梅杨良斌 YU Lamei;YANG Liangbin(School of Information Science and Technology,University of International Relations,Beijing 100091)

机构地区国际关系学院信息科技学院

出处《计算机与数字工程》 2022年第3期516-519,579,共5页 Computer & Digital Engineering

基金国家安全高精尖学科建设科研专项(学校基金)“国家安全视角下社交网络的实体识别与影响机制研究”(编号:2019GA37)资助。

关键词关键词抽取信息熵 TextRank keyword extraction information entropy TextRank

分类号 G254.23 [文化科学—图书馆学]

引文网络
相关文献

参考文献10

1刘竹辰,陈浩,于艳华,李劼.词位置分布加权TextRank的关键词提取[J].数据分析与知识发现,2018,2(9):74-79. 被引量：16
2夏天.词向量聚类加权TextRank的关键词抽取[J].数据分析与知识发现,2017,1(2):28-34. 被引量：60
3夏天.词语位置加权TextRank的关键词抽取研究[J].现代图书情报技术,2013(9):30-34. 被引量：76
4孙明珠,马静,钱玲飞.基于文档主题结构和词图迭代的关键词抽取方法研究[J].数据分析与知识发现,2019,3(8):68-76. 被引量：9
5刘俊,邹东升,邢欣来,李英豪.基于主题特征的关键词抽取[J].计算机应用研究,2012,29(11):4224-4227. 被引量：30
6石晶,李万龙.基于LDA模型的主题词抽取方法[J].计算机工程,2010,36(19):81-83. 被引量：47
7张波,黄晓芳.基于TF-IDF的卷积神经网络新闻文本分类优化[J].西南科技大学学报,2020,35(1):64-69. 被引量：8
8李志强,潘苏含,戴娟,胡佳佳.一种改进的TextRank关键词提取算法[J].计算机技术与发展,2020,30(3):77-81. 被引量：9
9王方伟,杨少杰,赵冬梅,王长广.基于改进TF-IDF的多态蠕虫特征自动提取算法[J].华中科技大学学报（自然科学版）,2020,48(2):79-84. 被引量：3
10徐文海,温有奎.一种基于TFIDF方法的中文关键词抽取算法[J].情报理论与实践,2008,31(2):298-302. 被引量：65

二级参考文献73

1钱爱兵,江岚.基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例[J].情报理论与实践,2008,31(6):945-950. 被引量：29
2李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：93
3王军.词表的自动丰富——从元数据中提取关键词及其定位[J].中文信息学报,2005,19(6):36-43. 被引量：40
4耿焕同,蔡庆生,于琨,赵鹏.一种基于词共现图的文档主题词自动抽取方法[J].南京大学学报（自然科学版）,2006,42(2):156-162. 被引量：30
5索红光,刘玉树,曹淑英.一种基于词汇链的关键词抽取方法[J].中文信息学报,2006,20(6):25-30. 被引量：88
6刘佳宾,陈超,邵正荣,吉翔华.基于机器学习的科技文摘关键词自动提取方法[J].计算机工程与应用,2007,43(14):170-172. 被引量：15
7Blei D M, Ng A Y, Jordan M I. Latent Dirichlet Allocation[J]. Journal of Machine Learning Research, 2003, 3: 993-1022.
8Caol J, Li Jintao, Zhang Yongdong, et al. LDA-based Retrieval Framework for Semantic News Video Retrieval[C]//Proc. of Conf. on Semantic Computing. Irvine, California, USA: IEEE Press, 2007.
9Steyvers M, Griffiths T. Probabilistic Topic Models[M]//Landauer T, McNamara D, Dennis S, et al. Latent Semantic Analysis: A Road to Meaning. [S. l.]: MIT Press, 2006.
10Griffiths T, Steyvers M. Finding Scientific Topics[J]. Proceedings of the National Academy of Sciences, 2004, 101 (Suppl. 1 ): 5228-5235.

共引文献253

1孙星恺,王晓,陆浩.面向活动的网络媒体监测与建模分析:IVFC案例解析[J].智能科学与技术学报,2019,1(4):352-368. 被引量：1
2姜微.电子政务中的留言智能分析技术[J].智能城市,2020(23):7-8.
3聂卉.结合词向量和词图算法的用户兴趣建模研究[J].数据分析与知识发现,2019,3(12):30-40. 被引量：8
4曾金,张耀峰,黄新杰,黄廷海.面向用户评论的主题挖掘研究——以美团为例[J].情报科学,2022,40(11):78-84. 被引量：7
5黄波,刘传才.基于加权TextRank的中文自动文本摘要[J].计算机应用研究,2020,37(2):407-410. 被引量：21
6吴文海,孙磊,王国志,张霆.基于近义词分配的铁路接触网绝缘子识别与分类[J].电瓷避雷器,2020(1):156-160. 被引量：5
7王伟,许鑫.基于聚类的网络舆情热点发现及分析[J].现代图书情报技术,2009(3):74-79. 被引量：62
8施聪莺,徐朝军,杨晓江.TFIDF算法研究综述[J].计算机应用,2009,29(B06):167-170. 被引量：218
9田卉.用数据挖掘技术构建政府智能化网络投诉平台[J].办公自动化（综合月刊）,2009(9):13-14. 被引量：3
10张靖.网络个性化服务资源综合推荐研究[J].计算机仿真,2009,26(11):157-160. 被引量：5

同被引文献1

1常天佑,魏强,耿洋洋.基于状态转换的PLC程序模型构建方法[J].计算机应用,2017,37(12):3574-3580. 被引量：5

引证文献1

1段喜龙,陆智伟,郑巍,陈晋升,樊鑫,肖鹏.面向模型检测的LTL语句自动生成方法[J].计算机工程与设计,2023,44(8):2337-2344. 被引量：1

二级引证文献1

1汪澔,武仲芝,唐剑.面向民用飞机需求验证的自动化测试技术研究[J].图学学报,2024,45(2):308-316.

1李旭晖,周怡.基于语义聚类的关键词抽取方法[J].情报科学,2022,40(3):99-108. 被引量：2
2张韬政,张家健.一种基于特征迁移的跨领域中文分词模型[J].中国传媒大学学报（自然科学版）,2021,28(3):41-45. 被引量：1
3李栋凯,张永昌.基于文本相似度的新闻自动摘要算法研究[J].科学与信息化,2022(4):107-109.
4唐恒,高清,孙莹琳,肖寒姿.基于文本挖掘的中小企业知识产权政策研究——来自中央层面的数据[J].科技管理研究,2022,42(1):92-100. 被引量：4
5余俊,于文年,彭艳兵.基于ELMo-BiLSTM-CRF模型的中文地址分词[J].电子设计工程,2021,29(20):72-76. 被引量：4
6尼格拉木·买斯木江,艾孜尔古丽·玉素甫.融合BERT与LDA的在线课程评论关键词提取方法[J].现代电子技术,2022,45(6):99-104. 被引量：2
7倪兵,廖光忠.基于语义依存和外部知识库的关键词抽取[J].计算机工程与设计,2022,43(3):821-826. 被引量：2
8张新昀,张绍武,任璐,杨亮,徐博,张益嘉,林鸿飞.基于投票人影响因子的投票预测模型[J].模式识别与人工智能,2022,35(2):166-174. 被引量：1
9黄金源,孙若莹.大宗商品交易领域词典构建[J].北京信息科技大学学报（自然科学版）,2022,37(1):71-75.
10龚圣杰.基于关键词提取与余弦相似度算法的智能广告推荐软件[J].信息技术与信息化,2022(2):210-213. 被引量：7

计算机与数字工程

2022年第3期

浏览历史

内容加载中请稍等...

融合信息熵的TextRank关键词抽取方法被引量：1

参考文献10

二级参考文献73

共引文献253

同被引文献1

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

融合信息熵的TextRank关键词抽取方法 被引量：1

参考文献10

二级参考文献73

共引文献253

同被引文献1

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

融合信息熵的TextRank关键词抽取方法被引量：1