融合Log-Likelihood与TextRank的关键词抽取研究被引量：2

Research on Keyword Extraction of Fusion Log-Likelihood and TextRank

下载PDF

导出

摘要为了解决TextRank算法的初始值赋权问题,提高关键词抽取准确率,引入Log-Likelihood算法。通过与参考语料库词频进行对比,为词条的初始权重赋值,将不需要外部语料的TextRank和需要外部语料的Log-Likelihood进行融合、计算。实验结果表明,融合后的TextRank-LL算法优于TextRank算法。 In order to solve the initial value of TextRank algorithm, we can improve the accuracy of keyword extraction. The Log-Likelihood algorithm is introduced to compute the initial weight of the term by comparing with the observed word frequency of the corpus. The TextRank without external corpus and the Log-Likelihood which requires external corpus are merged and calculated. Experimental results show that the fusion TextRank-LL algorithm is superior to the TextRank algorithm.

作者徐晓霖

机构地区中国人民公安大学信息技术与网络安全学院

出处《软件导刊》 2018年第3期87-89,共3页 Software Guide

关键词抽取 TextRank算法 Log-Likelihood算法 TextRank-LL算法图模型 keyword extraction TextRank Log-Likelihood TextRank-LL graph model

分类号 TP312 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献6

1邓丹君,姚莉.基于改进TF-IDF的微博短文本特征词提取算法[J].软件导刊,2016,15(6):48-50. 被引量：7
2夏天.词语位置加权TextRank的关键词抽取研究[J].现代图书情报技术,2013(9):30-34. 被引量：76
3顾益军,夏天.融合LDA与TextRank的关键词抽取研究[J].现代图书情报技术,2014(7):41-47. 被引量：70
4李国臣.文本分类中基于对数似然比测试的特征词选择方法[J].中文信息学报,1999,13(4):16-21. 被引量：18
5张莉婧,李业丽,曾庆涛,雷嘉丽,杨鹏.基于改进TextRank的关键词抽取算法[J].北京印刷学院学报,2016,24(4):51-55. 被引量：14
6夏天.词向量聚类加权TextRank的关键词抽取[J].数据分析与知识发现,2017,1(2):28-34. 被引量：60

二级参考文献47

1吴军,王作英,禹锋,王侠.汉语语料的自动分类[J].中文信息学报,1995,9(4):25-32. 被引量：24
2杨允信.中文文件自动分类之研究.台湾第六届计算语言学研讨会论文集[M].-,1993..
3丁均彦.文本分类系统的研究与实现[硕士学位论文].北京:清华大学,1998..
4丁均彦，硕士学位论文，1998年
5Young S，The HTK Book，1997年
6Yang Y，Proc 18th SIGIR Conf，1995年
7杨允信，台湾第六届计算语言学研讨会论文集，1993年
8蔡元龙，模式识别，1986年
9Mihalcea R, Tarau P. TextRank : Bringing Order into Texts [ C ]. In: Proceedings of Empirical Methods in Natural Language Process- ing, Barcelona, Spain. 2004:404-411.
10Frank E, Paynter G W, Witten I H, et al. Domain - Specific Key- phrase Extraction [ C ] In: Proceedings of the 16th International Joint Conference on Artificial Intelligence, Stockholm, Sweden. 1999 : 668 -673.

共引文献184

1聂卉.结合词向量和词图算法的用户兴趣建模研究[J].数据分析与知识发现,2019,3(12):30-40. 被引量：8
2黄波,刘传才.基于加权TextRank的中文自动文本摘要[J].计算机应用研究,2020,37(2):407-410. 被引量：21
3肖升,胡金柱,姚双云,吴锋文.关系词搭配的联列分析[J].宁夏大学学报（人文社会科学版）,2009,31(6):75-79. 被引量：2
4寇莎莎,魏振军.自动文本分类中权值公式的改进[J].计算机工程与设计,2005,26(6):1616-1618. 被引量：25
5姚民声.从“三个创新”到“三力”建设的运作机理[J].新闻实践,2006(7):8-9.
6玛依来.哈帕尔,古丽拉.阿东别克.哈萨克语文本分类系统的设计与实现[J].计算机工程,2011,37(5):196-198. 被引量：3
7李建平.手法治疗骶髂关节错缝52例[J].按摩与导引,2000,16(3):52-53.
8孙健,王伟,钟义信.基于K-最近距离的自动文本分类的研究[J].北京邮电大学学报,2001,24(1):42-46. 被引量：13
9孙丽华,张积东,李静梅.一种改进的kNN方法及其在文本分类中的应用[J].应用科技,2002,29(2):25-27. 被引量：36
10刘少辉,董明楷,张海俊,李蓉,史忠植.一种基于向量空间模型的多层次文本分类方法[J].中文信息学报,2002,16(3):8-14. 被引量：75

同被引文献24

1王进喜.律师事务所管理评价体系研究报告[J].中国司法,2007(8):40-48. 被引量：5
2丁世飞,齐丙娟,谭红艳.支持向量机理论与算法研究综述[J].电子科技大学学报,2011,40(1):2-10. 被引量：912
3佘贵清,张永安.审判案例自动抽取与标注模型研究[J].现代图书情报技术,2013(6):23-29. 被引量：19
4顾益军,夏天.融合LDA与TextRank的关键词抽取研究[J].现代图书情报技术,2014(7):41-47. 被引量：70
5朱夏,宋爱波,东方,罗军舟.云计算环境下基于协同过滤的个性化推荐机制[J].计算机研究与发展,2014,51(10):2255-2269. 被引量：39
6司法部司法研究所课题组,郑先红,郭春涛,张鹏飞,王舸,高航,郑丽娟,王晓鑫,姜楠.律师职业水平评价体系研究(比较借鉴篇)[J].中国司法,2015(9):39-43. 被引量：1
7司法部司法研究所课题组,郑先红,郭春涛,张鹏飞,王舸,高航,郑丽娟,王晓鑫,姜楠.律师职业水平评价体系研究(制度设计篇)[J].中国司法,2015,0(10):54-59. 被引量：1
8陈之彦,李晓杰,朱淑华,付丹龙,邢诒海.基于Hash结构词典的双向最大匹配分词法[J].计算机科学,2015,42(B11):49-54. 被引量：18
9宁建飞,刘降珍.融合Word2vec与TextRank的关键词抽取研究[J].现代图书情报技术,2016(6):20-27. 被引量：66
10李冰,王悦,刘永祥.大数据环境下基于K-means的用户画像与智能推荐的应用[J].现代计算机,2016,22(16):11-15. 被引量：23

引证文献2

1汪海鹏,郑扬飞.基于特征值的律师推荐算法及改进方案[J].计算机与现代化,2018(10):18-21.
2朱衍丞,蔡满春,芦天亮,石兴华,丁祎姗.基于SVM的融合多特征TextRank关键词提取算法[J].软件导刊,2020,19(2):88-91. 被引量：2

二级引证文献2

1王国桥,牛少彰.基于TF-IDF的社交电商文本信息分类研究[J].网络空间安全,2020,11(12):32-38. 被引量：6
2马莉媛,黄勃,朱良奇,黄季涛,李梦君,荆苗苗.基于LightGBM的文本关键词提取方法[J].软件导刊,2021,20(7):18-22. 被引量：4

1徐涛,蓝传锜.基于卡方统计量的藏文新闻网页关键词提取方法[J].电脑知识与技术（过刊）,2017,23(9X):171-173. 被引量：3
2于笑明,李文杰.基于用户转发的User-Behavior Rank算法研究[J].天津理工大学学报,2018,34(1):19-24. 被引量：1
3周瑛,刘越.大学生数字信息备份行为的影响因素研究[J].情报探索,2018(1):17-22. 被引量：1
4吴力力,丁玉奎,甄建伟.利用溶解度参数分析单兵云爆弹失效原因[J].火力与指挥控制,2018,43(2):125-128. 被引量：3
5何文婷.浅谈多媒体技术在幼儿园音乐教学中的运用[J].青苹果,2017,0(1X):101-101. 被引量：2
6郑国燕,徐小卒,杨婷,江琴英,万堃.三年高职儿科护理学课程考核改革探索[J].现代职业教育,2017(22):111-111.
7张聪,刘海涛.词频计量指标与汉语语体演化[J].外语教学,2018,39(2):19-24. 被引量：1
8Sheikh Hasibur Rahman,Robin Urquhart,Michele Molinari.Neoadjuvant therapy for resectable pancreatic cancer[J].World Journal of Gastrointestinal Oncology,2017,9(12):457-465. 被引量：4
9姜英,王政,秦艳,袁健宝,贾小平,王芳.基于复杂网络的化工过程层次符号有向图模型建立及关键节点识别[J].化工进展,2018,37(2):444-451. 被引量：12
10程鹏,董亚波,陈宇峰.面向交通安全信息主动推送的POI检索设计与实现[J].湖北汽车工业学院学报,2017,31(4):62-66. 被引量：1

软件导刊

2018年第3期

浏览历史

内容加载中请稍等...

融合Log-Likelihood与TextRank的关键词抽取研究被引量：2

参考文献6

二级参考文献47

共引文献184

同被引文献24

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

融合Log-Likelihood与TextRank的关键词抽取研究 被引量：2

参考文献6

二级参考文献47

共引文献184

同被引文献24

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

融合Log-Likelihood与TextRank的关键词抽取研究被引量：2