融合Word2vec与TextRank的关键词抽取研究被引量：66

Using Word2vec with Text Rank to Extract Keywords

导出

摘要【目的】通过融合单个文档内部结构信息和文档整体的词向量关系进行关键词抽取。【方法】利用Word2vec将文档集中所有词汇进行向量表征,并且通过词向量计算词汇之间的相似度,进而对Text Rank算法进行改进,将候选关键词的权重按照词汇之间的相似度和邻接关系进行非均匀分配,并构建对应的概率转移矩阵用于词汇图模型的迭代计算以及关键词抽取。【结果】实现Word2vec与Text Rank的有效融合,且当训练文档集词汇分布合理时,关键词抽取效果较明显。【局限】需要进行成本较高的文档集训练,获取词向量以及词关系矩阵。【结论】文档集中的词关系有助于修正单文档内部的词关系,提升单文档的关键词抽取准确性。 [Objective] This study extracts keywords through combining the internal structure of each single document and the word vector of the corpus. [Methods] First, we used Word2vec to represent all words＇ vector from the document corpus and then calculated their similarities. Second, modified the TextRank algorithm and assigned weights to the keywords in accordance with their similarities and adjacency relations. Finally, we built a probability transfer matrix for the iterative calculation of the lexical graph model and then extracted keywords. [Results] The Word2vec and TextRank were integrated and extracted keywords effectively. [Limitations] The proposed method needs much training with the corpus to establish word vector and relation matrix. [Conclusions] The relationship among words from the document sets could help us modify the words relationship from a single document, and then increase the accuracy of extracting keywords from the individual document.

作者宁建飞刘降珍

机构地区罗定职业技术学院电子信息系

出处《现代图书情报技术》 CSSCI 2016年第6期20-27,共8页 New Technology of Library and Information Service

关键词抽取 Word2vec TextRank 图模型词向量 Keyword extraction Word2vec TextRank Graphical model Word vector

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1李跃鹏,金翠,及俊川.基于word2vec的关键词提取算法[J].科研信息化技术与应用,2015,6(4):54-59. 被引量：45
2刘俊,邹东升,邢欣来,李英豪.基于主题特征的关键词抽取[J].计算机应用研究,2012,29(11):4224-4227. 被引量：30
3蒋昌金,彭宏,陈建超,马千里,严桂夺.基于组合词和同义词集的关键词提取算法[J].计算机应用研究,2010,27(8):2853-2856. 被引量：18
4夏天.词语位置加权TextRank的关键词抽取研究[J].现代图书情报技术,2013(9):30-34. 被引量：76
5石晶,李万龙.基于LDA模型的主题词抽取方法[J].计算机工程,2010,36(19):81-83. 被引量：47
6耿焕同,蔡庆生,于琨,赵鹏.一种基于词共现图的文档主题词自动抽取方法[J].南京大学学报（自然科学版）,2006,42(2):156-162. 被引量：30
7徐文海,温有奎.一种基于TFIDF方法的中文关键词抽取算法[J].情报理论与实践,2008,31(2):298-302. 被引量：65
8顾益军,夏天.融合LDA与TextRank的关键词抽取研究[J].现代图书情报技术,2014(7):41-47. 被引量：70
9周练.Word2vec的工作原理及应用探究[J].科技情报开发与经济,2015,28(2):145-148. 被引量：101
10刘菲,黄萱菁,吴立德.利用关联规则挖掘文本主题词的方法[J].计算机工程,2008,34(7):81-83. 被引量：10

二级参考文献96

1钱爱兵,江岚.基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例[J].情报理论与实践,2008,31(6):945-950. 被引量：29
2李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：92
3唐培丽,王树明,胡明.基于语义的汉语文献主题词提取算法研究[J].吉林大学学报（信息科学版）,2005,23(5):535-540. 被引量：16
4王军.词表的自动丰富——从元数据中提取关键词及其定位[J].中文信息学报,2005,19(6):36-43. 被引量：40
5耿焕同,蔡庆生,于琨,赵鹏.一种基于词共现图的文档主题词自动抽取方法[J].南京大学学报（自然科学版）,2006,42(2):156-162. 被引量：30
6索红光,刘玉树,曹淑英.一种基于词汇链的关键词抽取方法[J].中文信息学报,2006,20(6):25-30. 被引量：88
7刘佳宾,陈超,邵正荣,吉翔华.基于机器学习的科技文摘关键词自动提取方法[J].计算机工程与应用,2007,43(14):170-172. 被引量：15
8中国科学院计算技术研究所.汉语词法分析系统ICTCLAS2009版[EB/OL].http://ictclas.org/,2009-02-19/2009-07-06.
9TURNEY P D.Learning to extract key phrases from text,NRC Technical Report ERB-1057[R].Canada:National Research Council,1999.
10WITTEN I H,PAYNTER G W,FRANK E.et al.KEA:practical automatic key-phrase extraction[C] //Proc of the 4th ACM Confe-rence on Digital Libraries.Berkeley,California:[s.n.] ,1999:254 -256.

共引文献402

1孙星恺,王晓,陆浩.面向活动的网络媒体监测与建模分析:IVFC案例解析[J].智能科学与技术学报,2019,1(4):352-368. 被引量：1
2聂卉.结合词向量和词图算法的用户兴趣建模研究[J].数据分析与知识发现,2019,3(12):30-40. 被引量：8
3曾金,张耀峰,黄新杰,黄廷海.面向用户评论的主题挖掘研究——以美团为例[J].情报科学,2022,40(11):78-84. 被引量：7
4黄波,刘传才.基于加权TextRank的中文自动文本摘要[J].计算机应用研究,2020,37(2):407-410. 被引量：21
5吴文海,孙磊,王国志,张霆.基于近义词分配的铁路接触网绝缘子识别与分类[J].电瓷避雷器,2020(1):156-160. 被引量：5
6朱剑华,李莉,张秋实,李赫,李伟凡,徐健.长江航道信息智能推送服务方法研究[J].测绘地理信息,2022,47(5):110-113.
7潘光友,李娅芳,许易琦.学术论文关键词的概念辨析和选词应注意问题[J].云南大学学报（自然科学版）,2011,33(S2):57-58. 被引量：6
8耿焕同,李杰.范例推理在文本自动分类中的应用研究[J].情报理论与实践,2007,30(6):837-840. 被引量：1
9任克强,赵光甫,张国萍.基于带权语言网络的网页关键词抽取[J].计算机工程与应用,2008,44(8):155-157. 被引量：5
10耿焕同,毕硕本.范例推理在网络自动答疑系统中应用[J].计算机工程与应用,2008,44(3):31-33. 被引量：7

同被引文献494

1聂卉.结合词向量和词图算法的用户兴趣建模研究[J].数据分析与知识发现,2019,3(12):30-40. 被引量：8
2陶志勇,李小兵,刘影,刘晓芳.基于双向长短时记忆网络的改进注意力短文本分类方法[J].数据分析与知识发现,2019,3(12):21-29. 被引量：23
3杨保军.新闻文本的个性特征[J].当代传播,2004(2):10-11. 被引量：18
4赵英环,郭贵锁.基于主题词迭代提取的信息检索算法[J].华南理工大学学报（自然科学版）,2004,32(z1):77-80. 被引量：3
5左晓飞,刘怀亮,范云杰,赵辉.基于概念语义场的文本聚类算法研究[J].情报杂志,2012,31(5):180-184. 被引量：2
6单丽莉,刘秉权,孙承杰.文本分类中特征选择方法的比较与改进[J].哈尔滨工业大学学报,2011,43(S1):319-324. 被引量：25
7闫强,孟跃.在线评论的感知有用性影响因素——基于在线影评的实证研究[J].中国管理科学,2013,21(S1):126-131. 被引量：67
8吴帆,李石君.一种高效的层次聚类分析算法[J].计算机工程,2004,30(9):70-71. 被引量：13
9董振东,董强.知网和汉语研究[J].当代语言学,2001,3(1):33-44. 被引量：57
10吴友政,赵军,段湘煜,徐波.问答式检索技术及评测研究综述[J].中文信息学报,2005,19(3):1-13. 被引量：48

引证文献66

1聂卉.结合词向量和词图算法的用户兴趣建模研究[J].数据分析与知识发现,2019,3(12):30-40. 被引量：8
2李建平.手法治疗骶髂关节错缝52例[J].按摩与导引,2000,16(3):52-53.
3夏天.词向量聚类加权TextRank的关键词抽取[J].数据分析与知识发现,2017,1(2):28-34. 被引量：60
4李航,唐超兰,杨贤,沈婉婷.融合多特征的TextRank关键词抽取方法[J].情报杂志,2017,36(8):183-187. 被引量：33
5张紫玄,王雪颖,王昊.题名与关键词在文献内容揭示中的对比研究——基于农产品品牌评价领域[J].情报科学,2017,35(10):88-93. 被引量：13
6乔霈,王素格,陈鑫,谭红叶,陈千,王元龙.基于词语关联的散文阅读理解问题答案获取方法[J].中文信息学报,2018,32(3):135-142. 被引量：4
7蒙晓燕,殷雁君.基于word2vec的中文歌词关键词提取算法[J].内蒙古师范大学学报（自然科学汉文版）,2018,47(2):137-140. 被引量：3
8王瑞,秦永彬,闫盈盈.用于短文本关键词抽取的TTM_DMM主题翻译模型[J].计算机与数字工程,2018,46(5):945-949. 被引量：1
9朱必熙.基于TextRank的单文本关键字提取算法[J].兰州工业学院学报,2018,25(3):58-61.
10刘奇飞,沈炜域.基于Word2Vec和TextRank的时政类新闻关键词抽取方法研究[J].情报探索,2018(6):22-27. 被引量：13

二级引证文献359

1何强,邓鑫,李川,严中成,漆雁斌.农产品品牌提高农业竞争力的机理与实证分析——以四川省91个县域的农产品地理标志为例[J].中国农业资源与区划,2023,44(1):241-252. 被引量：13
2王君泽,詹若贤,李怡,杜洪涛.融合主题与细粒度情感特征的气候变化微博舆情分析研究[J].信息技术与管理应用,2023(4):87-104. 被引量：1
3聂卉.结合词向量和词图算法的用户兴趣建模研究[J].数据分析与知识发现,2019,3(12):30-40. 被引量：8
4熊回香,陈子薇,叶佳鑫.基于共现关系的关键词层次结构构建研究[J].知识管理论坛,2022(4):443-451. 被引量：1
5胡志伟,裴雷.基于自述研究兴趣相似性网络的机构潜在合作关系挖掘——以国内图书情报与档案管理教育机构为例[J].知识管理论坛,2022(2):143-152.
6朱丽雅,张珺,洪亮,罗绍辉,兰度.数字人文领域的知识图谱:研究进展与未来趋势[J].知识管理论坛,2022(1):87-100. 被引量：5
7李书豪,张云翔.软件企业人才管理知识图谱构建与优化研究:基于统计学与深度学习算法模型[J].企业观察家,2023(7):120-124.
8吕璐成,罗文馨,许景龙,王莉莉,马丽婧,赵亚娟.专利情报方法、工具、应用研究进展及新技术应用趋势[J].情报学进展,2020(1):235-278. 被引量：9
9吴运明,王令村,魏子栋,郭顺利.基于Canopy-Kmeans的移动商务用户需求聚合挖掘及分析研究[J].情报科学,2022,40(10):97-106. 被引量：3
10彭德军,曹树斌,马平,赵俊达.煤矿安全隐患信息关键语义智能提取方法研究[J].煤炭工程,2022,54(S01):224-229. 被引量：2

1顾益军,夏天.融合LDA与TextRank的关键词抽取研究[J].现代图书情报技术,2014(7):41-47. 被引量：70
2潘晓英,胡开开,朱静.一种基于TextRank的文本二次聚类算法[J].计算机技术与发展,2016,26(8):7-11. 被引量：3
3方康,韩立新.基于HMM的加权Textrank单文档的关键词抽取算法[J].信息技术,2015,39(4):114-116. 被引量：12
4夏天.词语位置加权TextRank的关键词抽取研究[J].现代图书情报技术,2013(9):30-34. 被引量：76
5段准,刘功申.基于TextRank的用户模板构建方法[J].计算机技术与发展,2015,25(10):1-6. 被引量：1
6田长波,林民,斯日古楞.融合PAM和主题偏好TextRank的历史沿革信息抽取[J].计算机应用研究,2017,34(1):123-127. 被引量：6
7李亚芬,李征.基于Alfresco的出版社资源库系统的研究与实现[J].软件,2015,36(5):34-39.
8陆伟,程齐凯.一种基于加权网络和句子窗口方案的信息检索模型[J].情报学报,2013,32(8):797-804. 被引量：9
9王宁宁,鲁燃,王智昊,刘承运.基于用户标签的微博推荐算法[J].计算机应用研究,2017,34(1):58-61. 被引量：8
10孙兴东,李爱平,李树栋.一种基于聚类的微博关键词提取方法的研究与实现[J].信息网络安全,2014(12):27-31. 被引量：9

现代图书情报技术

2016年第6期

浏览历史

内容加载中请稍等...

融合Word2vec与TextRank的关键词抽取研究被引量：66

参考文献10

二级参考文献96

共引文献402

同被引文献494

引证文献66

二级引证文献359

相关作者

相关机构

相关主题

浏览历史

融合Word2vec与TextRank的关键词抽取研究 被引量：66

参考文献10

二级参考文献96

共引文献402

同被引文献494

引证文献66

二级引证文献359

相关作者

相关机构

相关主题

浏览历史

融合Word2vec与TextRank的关键词抽取研究被引量：66