基于先验知识TextRank的学术文本关键词抽取被引量：16

Keyword Extraction of Academic Text with TextRank Model Based on Prior Knowledge

导出

摘要【目的/意义】学术文本关键词抽取是从文本中自动抽取具有主题性、代表性的词或短语,是学术信息服务的重要环节。传统的方法大多仅依靠候选关键词有限的词频、文档频率等统计信息,没有考虑学术文本内候选关键词在对应学术领域的使用情况,使得关键词抽取的准确率受到限制。针对这一问题,本文提出一种基于先验知识TextRank的学术文本关键词抽取算法。【方法/过程】首先计算候选关键词的使用情况作为先验概率特征值,然后运用基于图排序的关键词抽取算法TextRank计算候选关键词的文本内特征值,最后结合以上两个特征计算得到候选关键词的综合权值并对关键词进行排序。【结果/结论】在计算机科学领域的多个文献集上进行了实验评估,其结果相较于传统的关键词抽取方法有了明显的提高,证明了基于先验知识TextRank的学术文本关键词抽取算法的有效性。【Purpose/significance】Keyword extraction of academic text is the automatic extraction of thematic and representative words or phrases from the text, which is an important link in academic information service. Most of the traditional methods only rely on statistical information of candidate keywords such as word frequency, document frequency, etc., without considering the use of keywords in academic texts in corresponding academic fields, so that the accuracy of keyword extraction is limited. In this paper, a keyword extraction of academic text with TextRank model based on prior knowledge is proposed to solve the problem. 【Method/process】First, calculating usage of candidate keywords as the prior probability,and then the keyword extraction algorithm TextRank is used to calculate the intrinsic value of the candidate keywords in the text, finally, the comprehensive weights of the candidate keywords are calculated with two features above and the keywords are sorted.【Results/conclusion】The algorithm is experimentally evaluated in many literature sets in the field of computer science. The result has improved significantly compared with the traditional keyword extraction method, which proves that the keyword extraction of academic text with TextRank model based on prior knowledge is effective.

作者方俊伟崔浩冉贺国秀陆伟 FANG Jun-wei;CUI Hao-ran;HE Guo-xiu;LU Wei(Center for Studies of Information Resources,Wuhan University,Wuhan 430072,China;Institute for Information Retrieval and Knowledge Mining,Wuhan University,Wuhan 430072,China)

机构地区武汉大学信息资源研究中心武汉大学信息检索与知识挖掘研究所

出处《情报科学》 CSSCI 北大核心 2019年第3期75-80,共6页 Information Science

基金国家自然科学基金面上项目"面向词汇功能的学术文本语义识别与知识图谱构建"(71473183)

关键词先验知识关键词抽取 TextRank 学术文本 prior knowledge keyword extraction TextRank academic text

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1方龙,李信,黄永,陆伟.学术文本的结构功能识别--在关键词自动抽取中的应用[J].情报学报,2017,36(6):599-605. 被引量：32
2谢玮,沈一,马永征.基于图计算的论文审稿自动推荐系统[J].计算机应用研究,2016,33(3):798-801. 被引量：21
3夏天.词向量聚类加权TextRank的关键词抽取[J].数据分析与知识发现,2017,1(2):28-34. 被引量：60

二级参考文献24

1ManningCD,RaghavanP,SchlotzeH.信息检索导论[M].王斌,译.北京:人民邮电出版社,2010:241-276.
2中国科学院国际会议服务平台发布会议数突破千个[EB/OL] . (2014-07-03). [2015-03-10] . http://www. cnic. cn/xw/kydt/201407/t20140704_4149054. html.
3Chumki B, Haym H, Cohen W W, et al. Technical paper recommendation:a study in combining multiple information sources[J] . Journal of Artificial Intelligence Research, 2001, 14:231-252.
4Mihalcea R, Tarau P. TextRank:bring order into texts[C] //Proc of Conference on Empirical Methods in Natual Language Processing. 2004:355-369.
5Lee L. Similarity-based approaches to natural language processing, TR-11-97[R] . Cambrdge:Harvard University, 1997.
6Agarwal N, Haque E, Liu H, et al. Research paper recommender systems:a subspace clustering approach[C] //Proc of the 6th International Conference on Advances in Web-Age Information Management. 2005:475-491.
7Pazzani M J, Billsus D. Content-based recommendation systems[M] //The Adaptive Web. Berlin:Springer, 2007:325-341.
8Herlocker J L, Konstan J A, Riedl J. Explaining collaborative filtering recommendations[C] //Proc of ACM Conference on Computer Supported Cooperative Work. [S. l.] :ACM Press, 2000:241-250.
9Singhal A. Modern information retrieval:a brief overview[J] . Bulletin of the IEEE Computer Society Technical Committee on Data Engineering, 2001, 24(4):35-43.
10Page L. The PageRank citation ranking:bringing order to the Web[J] . Stanford Infolab, 1999, 9(1):1-14.

共引文献103

1聂卉.结合词向量和词图算法的用户兴趣建模研究[J].数据分析与知识发现,2019,3(12):30-40. 被引量：8
2李建平.手法治疗骶髂关节错缝52例[J].按摩与导引,2000,16(3):52-53.
3夏天.词向量聚类加权TextRank的关键词抽取[J].数据分析与知识发现,2017,1(2):28-34. 被引量：60
4王宇,李秀秀.基于电子商务评论的商家信誉维度构建[J].数据分析与知识发现,2017,1(8):59-67. 被引量：2
5徐晓霖.融合Log-Likelihood与TextRank的关键词抽取研究[J].软件导刊,2018,17(3):87-89. 被引量：2
6邱利茂,刘嘉勇.基于文档词典的文本关联关键词推荐技术[J].现代计算机,2018,24(5):46-50.
7陈练文,李信,赵超烨.学术文本可读性和复杂度评价研究[J].数字图书馆论坛,2018(5):62-66. 被引量：5
8赵京胜,肖娜,高翔.基于自然语言处理的能源领域知识图谱[J].信息技术与信息化,2018(5):55-58. 被引量：6
9刘奇飞,沈炜域.基于Word2Vec和TextRank的时政类新闻关键词抽取方法研究[J].情报探索,2018(6):22-27. 被引量：13
10周雷.基于Word2Vec方法的主题数据提取与分析——以德国光伏科技项目为例[J].情报探索,2018(7):36-40. 被引量：1

同被引文献229

1马建霞,袁慧,蒋翔.基于Bi-LSTM+CRF的科学文献中生态治理技术相关命名实体抽取研究[J].数据分析与知识发现,2020,4(2):78-88. 被引量：8
2聂卉.结合词向量和词图算法的用户兴趣建模研究[J].数据分析与知识发现,2019,3(12):30-40. 被引量：8
3张艳玲.1923-2008年我国图书馆学方法论体系研究轨迹探寻与思考[J].图书馆建设,2009(10):1-5. 被引量：5
4杜乐天.个人学术轨迹的自我剖析[J].中国地质教育,2002,11(3):9-12. 被引量：1
5邱均平.试论科技文献体系的结构[J].图书与情报,1986(3):21-27. 被引量：1
6吴菲菲,李倩,黄鲁成.基于专利SAO结构的技术应用领域识别方法研究[J].科研管理,2014,35(6):1-7. 被引量：27
7黄鲁成,成雨,吴菲菲,苗红,李欣.关于颠覆性技术识别框架的探索[J].科学学研究,2015,33(5):654-664. 被引量：105
8李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：92
9何荣利.关于科学文献增长模型的思考[J].情报杂志,1994,13(6):40-41. 被引量：7
10林书武.隐喻研究的基本现状、焦点及趋势[J].外国语,2002,25(1):38-45. 被引量：206

引证文献16

1熊回香,景紫薇,杨梦婷.在线学术资源中知识图谱的应用研究综述[J].情报资料工作,2020,41(3):61-68. 被引量：8
2夏天.面向中文学术文本的单文档关键短语抽取[J].数据分析与知识发现,2020,4(7):76-86. 被引量：5
3卢嘉悦,李艳.基于论文和专利数据的研究前沿挖掘研究——以智能网联汽车领域为例[J].中国发明与专利,2021,18(1):13-20. 被引量：4
4姜艺,黄永,夏义堃,李鹏程,陆伟.学术文本词汇功能识别--在关键词自动抽取中的应用[J].情报学报,2021,40(2):152-162. 被引量：10
5闫强,张笑妍,周思敏.基于义原相似度的关键词抽取方法[J].数据分析与知识发现,2021,5(4):80-89. 被引量：8
6石湘,刘萍.基于知识元语义描述模型的领域知识抽取与表示研究——以信息检索领域为例[J].数据分析与知识发现,2021,5(4):123-133. 被引量：14
7王颖.学术资源挖掘方法研究综述[J].现代情报,2021,41(12):164-177. 被引量：2
8罗婉丽,张磊.结合拓扑势与TextRank算法的关键词提取方法[J].计算机应用与软件,2022,39(1):334-338. 被引量：12
9陈京莲.主题词载文量对时间响应模型的构建及应用[J].甘肃科技,2022,38(4):76-80.
10张冬瑜,顾丰,崔紫娟,胡绍翔,张伟,林鸿飞.基于关键词抽取算法的隐喻研究趋势分析[J].数据分析与知识发现,2022,6(4):130-138. 被引量：2

二级引证文献67

1熊回香,陈子薇,叶佳鑫.基于共现关系的关键词层次结构构建研究[J].知识管理论坛,2022(4):443-451. 被引量：1
2曹雨佳.文旅融合时代红色资源数字化建设与推广[J].特区实践与理论,2021(4):117-121. 被引量：5
3吴舒展.融合知识图谱和深度学习的学术论文推荐算法[J].智能计算机与应用,2022,12(6):60-64. 被引量：1
4靳嵩,朱艳,吴可嘉,孟祥松,赵乾菊,王颖.基于BERT的海上船舶安全隐患分类[J].船舶工程,2023,45(S01):381-384.
5张普.小旋风M-900MK Ⅱ音箱[J].实用影音技术,2000(3):31-32.
6任蓓蓓,徐益强,封丽.基于深度学习的数字图书馆资源个性化推荐模型设计[J].贵阳学院学报（自然科学版）,2021,16(1):32-36. 被引量：7
7牛奉高,闫涛.特征加权的CLSVSM[J].计算机与现代化,2021(5):59-65.
8柴庆凤,史霖炎,梅珊,熊海涛,贺惠新.基于人工特征和机器特征融合的科技文献知识元抽取[J].数据分析与知识发现,2021,5(8):132-143. 被引量：11
9熊书玲,孟浩,谢祥生.基于专利和论文分析的我国纳米技术研究进展[J].高技术通讯,2021,31(9):1001-1010.
10徐建民,申永平,吴树芳.基于分层社交关系的微博推荐算法[J].计算机应用研究,2021,38(12):3597-3603. 被引量：4

1曾道建,童国维,戴愿,李峰,韩冰,谢松县.基于序列到序列模型的法律问题关键词抽取[J].清华大学学报（自然科学版）,2019,59(4):256-261. 被引量：1
2俞琰,赵乃瑄.基于辅助集的专利主题分析领域停用词选取[J].数据分析与知识发现,2018,2(11):95-103. 被引量：6
3王莉.胜癣汤治疗风湿蕴肤型神经性皮炎的临床观察[J].世界最新医学信息文摘,2018,18(90):146-147. 被引量：1
4郭文,王铁钢.集装箱船上层建筑结构优化研究[J].舰船科学技术,2019,41(4):16-18. 被引量：1
5王延召,彭国华,延伟东.基于流形排序和联合连通性先验的显著性目标检测[J].模式识别与人工智能,2019,32(1):82-93. 被引量：4
6黄超,陈军华.基于改进K最近邻算法的中文文本分类[J].上海师范大学学报（自然科学版）,2019,48(1):96-101. 被引量：5
7周琴.概率论中关于数字特征的实验教学案例[J].数学学习与研究,2019(3):15-16. 被引量：1
8叶辉,卓奕荣,曹东,李敬华.基于深度学习的中文病历病史智能分类研究[J].中国数字医学,2019,14(3):41-43. 被引量：8
9张恺航,徐克付,张闯.基于通配符节点话题权重的Web新闻抽取方法[J].计算机工程,2019,45(4):275-280. 被引量：3
10人民网.2018中国广播电视行业十大科技关键词揭晓[J].声屏世界,2019,0(2):70-70.

情报科学

2019年第3期

浏览历史

内容加载中请稍等...

基于先验知识TextRank的学术文本关键词抽取被引量：16

参考文献3

二级参考文献24

共引文献103

同被引文献229

引证文献16

二级引证文献67

相关作者

相关机构

相关主题

浏览历史

基于先验知识TextRank的学术文本关键词抽取 被引量：16

参考文献3

二级参考文献24

共引文献103

同被引文献229

引证文献16

二级引证文献67

相关作者

相关机构

相关主题

浏览历史

基于先验知识TextRank的学术文本关键词抽取被引量：16