基于文档主题结构和词图迭代的关键词抽取方法研究被引量：8

Extracting Keywords Based on Topic Structure and Word Diagram Iteration

导出

摘要【目的】利用主题模型得到文本主题信息,将主题信息融入TextRank模型对其进行改进,提升文本关键词自动抽取的准确率和召回率。【方法】利用LDA对文档集进行主题建模,得到候选关键词的主题词分布和文档主题分布;结合候选关键词主题分布特征计算节点权重,加权文档–主题概率分布和主题–词概率分布特征作为节点的随机跳转概率;构建新的转移矩阵进行词图迭代,得到改进后的TextRank模型。【结果】采集南方周末网站1 559篇新闻文章进行实验。结果表明,本文模型的关键词抽取效果明显优于原始TextRank和TF-IDF模型;当抽取关键词个数为3时,本模型准确率比原始TextRank模型的准确率提升4.7%,比TF-IDF提升6.5%。【局限】融合算法的计算复杂度增加。【结论】融合主题信息的TextRank算法能够使关键词自动抽取效果更加显著。 [Objective]This paper integrates the topic information to the TextRank model,aiming to improve the precision and recall of automatic keyword extraction.[Methods]First,we used the LDA to create a model for document topics,and obtained the topic distribution of the candidate keywords.Then,we calculated the node weights with the topic-word probability distribution features.Third,we weighted the probability distributions of document-topic and topic-word characteristics as the node’s random jump probability.Finally,we constructed a new transition matrix for word graph iteration to improve the TextRank model.[Results]We examined the proposed model with 1559 news articles from the website of Southern Weekly.When the number of extracted keywords was three,the model’s keyword extraction precision values were 4.7%and 6.5%higher than those of the original Text Rank and TF-IDF algorithms.[Limitations]The fusion algorithm increased computational complexity.[Conclusions]The proposed algorithm could extract keywords more effectively.

作者孙明珠马静钱玲飞 Sun Mingzhu;Ma Jing;Qian Lingfei(School of Economics and Management,Nanjing University of Aeronautics and Astronautics,Nanjing 210016,China)

机构地区南京航空航天大学经济与管理学院

出处《数据分析与知识发现》 CSSCI CSCD 北大核心 2019年第8期68-76,共9页 Data Analysis and Knowledge Discovery

基金国家自然科学基金项目“基于演化本体的网络舆情自适应跟踪方法研究”(项目编号:71373123) 中央高校基本科研业务费专项:前瞻性发展策略研究资助项目“基于大数据技术的跨境电商政府管理范式研究”(项目编号:NW2018004) 国家社会科学基金项目“大数据环境下人文社会科学学术创新力自动测度研究”(项目编号:15BTQ058)的研究成果之一

关键词关键词抽取 TextRank LDA 图模型 Keywords Extraction TextRank Latent Dirichlet Allocation Graph Model

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1夏天.词语位置加权TextRank的关键词抽取研究[J].现代图书情报技术,2013(9):30-34. 被引量：76
2钱爱兵,江岚.基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例[J].情报理论与实践,2008,31(6):945-950. 被引量：29
3刘啸剑,谢飞,吴信东.基于图和LDA主题模型的关键词抽取算法[J].情报学报,2016,35(6):664-672. 被引量：38
4朱泽德,李淼,张健,曾伟辉,曾新华.一种基于LDA模型的关键词抽取方法[J].中南大学学报（自然科学版）,2015,46(6):2142-2148. 被引量：15
5顾益军,夏天.融合LDA与TextRank的关键词抽取研究[J].现代图书情报技术,2014(7):41-47. 被引量：70
6夏天.词向量聚类加权TextRank的关键词抽取[J].数据分析与知识发现,2017,1(2):28-34. 被引量：60
7赵京胜,朱巧明,周国栋,张丽.自动关键词抽取研究综述[J].软件学报,2017,28(9):2431-2449. 被引量：89

二级参考文献88

1左晓飞,刘怀亮,范云杰,赵辉.基于概念语义场的文本聚类算法研究[J].情报杂志,2012,31(5):180-184. 被引量：2
2李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：92
3谭胜,马静,吴一占.基于主题描述模型的相关性判断在网页信息抽取中的应用[J].情报学报,2011,30(2):155-159. 被引量：6
4[1]中国社会科学研究评价中心.中文社会科学引文索引[EB/OL].[2008-08-25].http://cssci.nju.edu.cn/introduce.htm.
5[1]Chien Lee-Feng.PAT-tree-based keyword extraction for Chinese information retrieval[C]//Proceedifigs of the ACM SIGIR Intemational Conference on Information Retrieval,1997:50-59
6[2]Yang Wenfen,Li Xing.Chinese keyword extraction based on max-duplicated strings of the documents[C]//Proceedings of the 25th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,2002
7[3]Zhang Kuo,Xu Hui.Tang Jie,et al.Keyword extraction usingsupport vector machine[C]//Proceedings of the 7th International Conference on Web-Age Information Management,Hong Kong,China,2006:85-96
8[4]Olena M,Witten I H.Thesaurus-based index term extraction for agricultural documents[C]//Proceedings of the 6th Agricultural Ontology Service Workshop at EFITA/WCCA.Vila Real;IEEE Press,2005:11-22
9[5]Peter T.Learning to extract keyphrases from text[R].OTTAWA:National Research Council,1999:1-43
10[7]俞鸿魁,张华平,刘群.基于角色标注的中文机构名识别[C]//Proceedings of the 20th International Conference on Computer Processing of Oriental Languages(ACOL),2003

共引文献281

1董宇,杨景升,秦彤昱,郭海博.基于文本关键词提取的自驾车营地行业标准讨论——以《自驾车旅居车营地质量等级划分》为例[J].中国标准化,2021(8):125-132. 被引量：1
2聂卉.结合词向量和词图算法的用户兴趣建模研究[J].数据分析与知识发现,2019,3(12):30-40. 被引量：8
3黄波,刘传才.基于加权TextRank的中文自动文本摘要[J].计算机应用研究,2020,37(2):407-410. 被引量：20
4闫博.基于HanLP关键词抽取与句法分析的图谱构建[J].电子元器件与信息技术,2022,6(9):77-80. 被引量：1
5张逸,李渴,邵振国,罗海荣.基于标准文件的电能质量领域本体构建方法[J].电力系统自动化,2020,44(17):102-111. 被引量：6
6徐朝军.基于主题搜索的通用教学资源共享平台设计[J].中国远程教育,2010(5):64-66. 被引量：5
7蒋昌金,彭宏,陈建超,马千里,严桂夺.基于组合词和同义词集的关键词提取算法[J].计算机应用研究,2010,27(8):2853-2856. 被引量：18
8李建平.手法治疗骶髂关节错缝52例[J].按摩与导引,2000,16(3):52-53.
9张建娥.基于TFIDF和词语关联度的中文关键词提取方法[J].情报科学,2012,30(10):1542-1544. 被引量：43
10王锦波,王莲芝,高万林,喻健.一种改进的朴素贝叶斯关键词提取算法研究[J].计算机应用与软件,2014,31(2):174-176. 被引量：9

同被引文献86

1聂卉.结合词向量和词图算法的用户兴趣建模研究[J].数据分析与知识发现,2019,3(12):30-40. 被引量：8
2王方伟,杨少杰,赵冬梅,王长广.基于改进TF-IDF的多态蠕虫特征自动提取算法[J].华中科技大学学报（自然科学版）,2020,48(2):79-84. 被引量：3
3徐文海,温有奎.一种基于TFIDF方法的中文关键词抽取算法[J].情报理论与实践,2008,31(2):298-302. 被引量：65
4施聪莺,徐朝军,杨晓江.TFIDF算法研究综述[J].计算机应用,2009,29(B06):167-170. 被引量：218
5石晶,李万龙.基于LDA模型的主题词抽取方法[J].计算机工程,2010,36(19):81-83. 被引量：47
6单斌,李芳.基于LDA话题演化研究方法综述[J].中文信息学报,2010,24(6):43-49. 被引量：85
7李畅,王永良,冯晓洁,聂峰.作战文书关键信息抽取方法[J].兵工自动化,2011,30(5):26-29. 被引量：8
8才让卓玛,才智杰.基于语料库的藏语高频词抽取研究[J].计算机工程,2012,38(15):56-58. 被引量：3
9刘俊,邹东升,邢欣来,李英豪.基于主题特征的关键词抽取[J].计算机应用研究,2012,29(11):4224-4227. 被引量：30
10夏天.词语位置加权TextRank的关键词抽取研究[J].现代图书情报技术,2013(9):30-34. 被引量：76

引证文献8

1李建平.手法治疗骶髂关节错缝52例[J].按摩与导引,2000,16(3):52-53.
2陈志泊,李钰曼,许福,冯国明,师栋瑜,崔晓晖.基于TextRank和簇过滤的林业文本关键信息抽取研究[J].农业机械学报,2020,51(5):207-214. 被引量：14
3夏天.面向中文学术文本的单文档关键短语抽取[J].数据分析与知识发现,2020,4(7):76-86. 被引量：5
4白曙光,林民,李艳玲,张树钧.文本关键词抽取方法及在几种民族语言上的应用[J].内蒙古师范大学学报（自然科学版）,2021,50(2):134-144. 被引量：1
5闫强,张笑妍,周思敏.基于义原相似度的关键词抽取方法[J].数据分析与知识发现,2021,5(4):80-89. 被引量：8
6于腊梅,杨良斌.融合信息熵的TextRank关键词抽取方法[J].计算机与数字工程,2022,50(3):516-519. 被引量：1
7阮群生,谢运煌,柯汉平,吴清锋.医学文献阅读增强深度学习方法[J].计算机时代,2023(10):1-7.
8裴卉宁,刘鑫宇,黄雪芹,谭昭芸,孙海波,白仲航.面向云服务平台的用户偏好产品属性动态获取方法[J].计算机集成制造系统,2023,29(11):3774-3785. 被引量：1

二级引证文献30

1熊回香,陈子薇,叶佳鑫.基于共现关系的关键词层次结构构建研究[J].知识管理论坛,2022(4):443-451. 被引量：1
2彭德军,曹树斌,马平,赵俊达.煤矿安全隐患信息关键语义智能提取方法研究[J].煤炭工程,2022,54(S01):224-229. 被引量：2
3靳嵩,朱艳,吴可嘉,孟祥松,赵乾菊,王颖.基于BERT的海上船舶安全隐患分类[J].船舶工程,2023,45(S01):381-384.
4李建平.手法治疗骶髂关节错缝52例[J].按摩与导引,2000,16(3):52-53.
5郑丽敏,齐珊珊,田立军,杨璐.面向食品安全事件新闻文本的实体关系抽取研究[J].农业机械学报,2020,51(7):244-253. 被引量：16
6白曙光,林民,李艳玲,张树钧.文本关键词抽取方法及在几种民族语言上的应用[J].内蒙古师范大学学报（自然科学版）,2021,50(2):134-144. 被引量：1
7王军.基于计算机网络的无线网络异常信息流过滤方法[J].长江信息通信,2021(3):77-79. 被引量：2
8林文广,赖荣燊,肖人彬.基于语义关联的专利有害性能知识挖掘研究[J].中国机械工程,2021,32(16):1952-1962. 被引量：2
9张宇,郭文忠,林森,文朝武,龙洁花.深度学习与知识推理相结合的研究综述[J].计算机工程与应用,2022,58(1):56-69. 被引量：5
10李旭晖,周怡.基于语义聚类的关键词抽取方法[J].情报科学,2022,40(3):99-108. 被引量：2

1向昉.我国人民政协研究的知识图谱可视化探析——基于1998—2019年CSSCI文献的计量分析[J].四川行政学院学报,2019,0(4):89-96.
2刘晓煜.自制图卡在小学英语教学中的应用[J].试题与研究,2019(25):30-30.
3洪捷.金庸小说动词英译实证研究——基于语料库的考察[J].福建论坛（人文社会科学版）,2019,0(7):91-100. 被引量：6
4赵利江,赵洪玲,孔凡明,蒋海英.临沂市病毒性腹泻诺如病毒感染流行病学及病原学特征分析[J].疾病预防控制通报,2019,34(3):13-15. 被引量：1
5王巍.南方周末内容付费工程:再造南周的生产流程和消费场景[J].南方传媒研究,2019,0(3):61-68. 被引量：7
6王朝霞.慢性阻塞性肺疾病急性加重患者的病原菌分布和耐药性分析[J].贵州医药,2019,43(9):1398-1399. 被引量：9
7汤颖,苏建明,童宁.TMvis:基于LDA的主题建模可视分析系统[J].计算机辅助设计与图形学学报,2019,31(10):1728-1738. 被引量：2
8方帅,王金明,曹风云.基于约束非负矩阵分解的高光谱图像解混[J].激光与光电子学进展,2019,56(16):14-23. 被引量：8
9刘欢欢.我国射箭研究热点及趋势分析[J].武术研究,2019,4(10):111-114.
10潘世豪,窦站,李杨,师丽.基于图模型的储罐区火灾事故多米诺效应评定[J].中国安全科学学报,2019,29(6):83-89. 被引量：4

数据分析与知识发现

2019年第8期

浏览历史

内容加载中请稍等...

基于文档主题结构和词图迭代的关键词抽取方法研究被引量：8

参考文献7

二级参考文献88

共引文献281

同被引文献86

引证文献8

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

基于文档主题结构和词图迭代的关键词抽取方法研究 被引量：8

参考文献7

二级参考文献88

共引文献281

同被引文献86

引证文献8

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

基于文档主题结构和词图迭代的关键词抽取方法研究被引量：8