一种基于LDA和TextRank的文本关键短语抽取方案的设计与实现被引量：6

DESIGN AND IMPLEMENTION OF A KEY PHRASES EXTRACTION SCHEME IN THE TEXT BASED ON LDA AND TEXTRANK

下载PDF

导出

摘要为了抽取出更能反映文本主题的关键词,也为了解决文本关键短语抽取任务中主题信息缺失的问题,提出一种基于LDA和TextRank的单文本关键短语抽取方法。该方法利用LDA模型对语料库中的文本进行主题挖掘,并融入目标文本中的主题覆盖度和词语共现关系构建无向加权词图;引入节点词汇主题影响力因素根据词语主题相关性来修改节点间的随机跳转概率,在词图的基础上运用TextRank算法获取候选关键词排序;再利用bootstraping算法的思想迭代生成表意性更强的关键短语。实验表明,该方法可有效提取出表意性强且涵盖文本主题信息的关键短语。 In order to extract the key words which can better reflect the theme of the text and to solve the problem of lacking of the theme information in the task of extracting the key phrases of the text,a key phrase extraction method based on LDA and TextRank was proposed.This method firstly used the LDA model for topic mining of the text in the corpus and constructed the undirected weighted word graph integrating the subject coverage and words co-occurrence in the target text.Then,by introducing the influence factors of subject nouns,the probability of random jumps between nodes was modified according to the topic relevance of words,and the TextRank algorithm was used to obtain the ranking of candidate keywords based on the word map.Finally,we used the idea of bootstrapping algorithm to iteratively generate more expressive key phrases.Experimental results showed that the method could effectively extract the key phrases which expressed well and covered text subject information.

作者郎冬冬刘晨晨冯旭鹏刘利军黄青松 Lang Dongdong;Liu Chenchen;Feng Xupeng;Liu Lijun;Huang Qingsong(Faculty of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650500,Yunnan,Chin;Yunnan Key Laboratory of Computer Technology Applications,Kunming 650500,Yunnan,China)

机构地区昆明理工大学信息工程与自动化学院云南省计算机应用重点实验室

出处《计算机应用与软件》北大核心 2018年第3期54-60,共7页 Computer Applications and Software

基金国家自然科学基金项目(81360230)

关键词关键短语抽取 LDA模型主题挖掘 TextRank 主题影响力 Key phrase extraction LDA model Theme mining TextRank Theme influence

分类号 TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献5

1顾益军,夏天.融合LDA与TextRank的关键词抽取研究[J].现代图书情报技术,2014(7):41-47. 被引量：70
2方康,韩立新.基于HMM的加权Textrank单文档的关键词抽取算法[J].信息技术,2015,39(4):114-116. 被引量：12
3李跃鹏,金翠,及俊川.基于word2vec的关键词提取算法[J].科研信息化技术与应用,2015,6(4):54-59. 被引量：45
4林莉媛,王中卿,李寿山,周国栋.基于PageRank的中文多文档文本情感摘要[J].中文信息学报,2014,28(2):85-90. 被引量：19
5寇宛秋,李芳.基于种子词汇的话题标签抽取研究[J].中文信息学报,2013,27(5):114-121. 被引量：7

二级参考文献73

1刘知远.基于文档主题结构的关键词抽取方法研究[D].北京:清华大学,2011.
2Blei David,Ng Andrew,Jordan Michael.Latent Dirichlet Allocation[J].The Journal of Machine Learning Research,2003,3:993-1022.
3Rosen-Zvi M,Griffiths T,Steyvers M,et al.The author-topic model for authors and documents[C]//Proceedings of the 20th conference on uncertainty in artificial intelligence.AUAI Press,2004:487-494.
4Ruifeng XU,Lu YE.Reader's Emotion Prediction Based on Weighted Latent Dirichlet Allocation and Multi-label k-nearest Neighbor Model[J].Journal of Computational Information System,2013,9:6.
5Johri N,Roth D,Tu Y.Experts' retrieval with multiword-enhanced author topic model.Proceedings of the NAACL HLT 2010 workshop on semantic search[C]//Proceedings of Association for Computational Linguistics,2010:10-18.
6William Darling,Fei Song.Probabilistic Topic and Syntax Modeling with Part-of-Speech LDA[C]//Proceedings of Association for Computational Linguistics.2005.
7Griffiths T L,Steyvers M,Blei D M,et al.Integrating topics and syntax[J].Advances in neural information processing systems,2005,17:537-544.
8Allison J.B.Chaney,David M.Blei.Visualizing Topic Models[C]//Proceedings of Association for the Advancement of Artificial Intelligence.2012.
9Teh Y W,Jordan M I,Beal M J,et al.Hierarchical dirichlet processes[J].Journal of the American Statistical Association,2006,101(476).
10Blei D M,Lafferty J D.Visualizing topics with multiword expressions[J].arXiv preprint arXiv:0907.1013,2009.

共引文献136

1聂卉.结合词向量和词图算法的用户兴趣建模研究[J].数据分析与知识发现,2019,3(12):30-40. 被引量：8
2朱剑华,李莉,张秋实,李赫,李伟凡,徐健.长江航道信息智能推送服务方法研究[J].测绘地理信息,2022,47(5):110-113.
3李建平.手法治疗骶髂关节错缝52例[J].按摩与导引,2000,16(3):52-53.
4李艳翠,林莉媛,周国栋.基于有监督学习方法的多文档文本情感摘要[J].中文信息学报,2014,28(6):143-149. 被引量：3
5马运运,孙志一,刘海波,彭勇.中文专利文档关键词自动提取方法研究进展[J].世界科学技术-中医药现代化,2015,17(1):29-34. 被引量：1
6李宪毅,刘培玉,朱振方,侯秀艳,刘祥哲.基于改进情感关键句抽取的自动情感摘要技术[J].计算机工程与设计,2016,37(3):778-782. 被引量：3
7张佳明,王波,席耀一,刘欣,田营.基于多特征融合的微博情感摘要方法[J].信息工程大学学报,2016,17(2):218-224.
8宁建飞,刘降珍.融合Word2vec与TextRank的关键词抽取研究[J].现代图书情报技术,2016(6):20-27. 被引量：66
9宋宇,真溱.关键词自动抽取技术综述[J].情报理论与实践,2016,39(7):141-144. 被引量：4
10潘晓英,胡开开,朱静.一种基于TextRank的文本二次聚类算法[J].计算机技术与发展,2016,26(8):7-11. 被引量：3

同被引文献68

1LI Juanzi FAN Qi＇na ZHANG Kuo.Keyword Extraction Based on tf/idf for Chinese News Document[J].Wuhan University Journal of Natural Sciences,2007,12(5):917-921. 被引量：24
2施聪莺,徐朝军,杨晓江.TFIDF算法研究综述[J].计算机应用,2009,29(B06):167-170. 被引量：218
3陈仕吉,王小梅.基于C-value与TF-IDF的文献簇主题识别研究[J].情报学报,2009,28(6):821-826. 被引量：11
4胡学钢,李星华,谢飞,吴信东.基于词汇链的中文新闻网页关键词抽取方法[J].模式识别与人工智能,2010,23(1):45-51. 被引量：22
5毛小丽,何中市,邢欣来,刘莉.基于语义角色的实体关系抽取[J].计算机工程,2011,37(17):143-145. 被引量：7
6谢晋.基于词跨度的中文文本关键词自动提取方法[J].现代物业（中旬刊）,2012,11(4):108-111. 被引量：6
7张建娥.基于TFIDF和词语关联度的中文关键词提取方法[J].情报科学,2012,30(10):1542-1544. 被引量：43
8黄小江,万小军,肖建国.基于协同图排序的对比新闻自动摘要[J].北京大学学报（自然科学版）,2013,49(1):31-38. 被引量：4
9夏天.词语位置加权TextRank的关键词抽取研究[J].现代图书情报技术,2013(9):30-34. 被引量：76
10衡伟,于佳,李蕾,刘咏彬.应用hLDA进行多文档主题建模关键因素研究[J].中文信息学报,2013,27(6):117-127. 被引量：5

引证文献6

1张少迪,艾山·吾买尔,郑炅,石刚.高并发汉英信息抽取系统的设计与实现[J].现代电子技术,2019,42(16):104-107. 被引量：4
2李志强,潘苏含,戴娟,胡佳佳.一种改进的TextRank关键词提取算法[J].计算机技术与发展,2020,30(3):77-81. 被引量：9
3柴悦,赵彤洲,江逸琪,高佩东.基于Att-iBi-LSTM的新闻主题词提取方法研究[J].武汉工程大学学报,2020,42(5):575-580.
4孟彩霞,张琰,李楠楠.基于TextRank的关键词提取改进方法研究[J].计算机与数字工程,2020,48(12):3022-3026. 被引量：6
5姜凌昊,王兴芬.一种融合依存句法分析和语义角色标注的领域新闻热点话题识别方法[J].信息与电脑,2021,33(19):64-67. 被引量：1
6裴卉宁,刘鑫宇,黄雪芹,谭昭芸,孙海波,白仲航.面向云服务平台的用户偏好产品属性动态获取方法[J].计算机集成制造系统,2023,29(11):3774-3785. 被引量：1

二级引证文献19

1徐欢,陈彬,甘杉,马赟,张小波.海量数据分析平台元数据管理的设计研究[J].电子设计工程,2020,28(17):10-14. 被引量：2
2田煜.基于语义情感分析的网络热点爬虫舆情分析系统[J].软件,2020,41(8):89-93. 被引量：7
3姚兰.基于改进短语翻译模型的计算机智能化校对系统研究[J].电子设计工程,2020,28(18):52-55. 被引量：10
4张誉曜,陈媛媛.文本挖掘下的话语认知与构建——以人工智能和5G领域白宫新闻文本为例[J].农业图书情报学报,2021,33(4):35-44. 被引量：2
5倪兵,廖光忠.基于语义依存和外部知识库的关键词抽取[J].计算机工程与设计,2022,43(3):821-826. 被引量：2
6于腊梅,杨良斌.融合信息熵的TextRank关键词抽取方法[J].计算机与数字工程,2022,50(3):516-519. 被引量：1
7罗浩然,杨青.基于情感词典和堆叠残差的双向长短期记忆网络的情感分析[J].计算机应用,2022,42(4):1099-1107. 被引量：12
8利润霖,龙昌敏,李雯芸,胡广林,强玉龙,刘彦君.基于TextRank算法的项目标签智能化生成技术研究[J].信息技术,2022,46(8):77-82. 被引量：3
9王昊,刘丹,刘硕.基于句法分析及主题分布的关键词抽取模型[J].计算机应用研究,2022,39(9):2603-2607. 被引量：2
10刘高军,王一如,王昊.基于BERTScore指导的文本摘要技术[J].电子设计工程,2022,30(23):1-5.

1杨玥,张德生.中文文本的主题关键短语提取技术[J].计算机科学,2017,44(B11):432-436. 被引量：5
2王正成,袁竹星.面向主题的微博意见领袖挖掘研究[J].情报科学,2018,36(3):112-116. 被引量：14
3王倚云.图书馆管理革新探索[J].中国多媒体与网络教学学报（电子版）,2017,0(3):213-213.
4于笑明,李文杰.基于用户转发的User-Behavior Rank算法研究[J].天津理工大学学报,2018,34(1):19-24. 被引量：1
5杨志盛.两岸对外汉语大纲初级规范字词共现率考察[J].海外华文教育,2017(11):1484-1496. 被引量：1
6杜海舟,陈政波,钟孔露.基于上下文关系和TextRank算法的关键词提取方法[J].上海电力学院学报,2017,33(6):607-612. 被引量：4
7王凡,夏晨曦.中文医学摘要主题建模方法评估[J].医学信息学杂志,2018,39(2):60-64. 被引量：1
8徐东波.近十年国家安全研究热点综述——基于CNKI的文献计量学分析[J].江南社会学院学报,2017,19(4):34-40. 被引量：5
9徐晓霖.融合Log-Likelihood与TextRank的关键词抽取研究[J].软件导刊,2018,17(3):87-89. 被引量：2
10姜寿田.仇高驰篆书创作摭议[J].书法,2018(1):124-127.

计算机应用与软件

2018年第3期

浏览历史

内容加载中请稍等...

一种基于LDA和TextRank的文本关键短语抽取方案的设计与实现被引量：6

参考文献5

二级参考文献73

共引文献136

同被引文献68

引证文献6

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

一种基于LDA和TextRank的文本关键短语抽取方案的设计与实现 被引量：6

参考文献5

二级参考文献73

共引文献136

同被引文献68

引证文献6

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

一种基于LDA和TextRank的文本关键短语抽取方案的设计与实现被引量：6