融合BERT语义加权与网络图的关键词抽取方法被引量：12

Keyword Extraction Method Based on BERT Semantic Weighting and Network Graph

下载PDF

导出

摘要结合文档本身的结构信息与外部词语的语义信息,提出一种融合BERT词向量与TextRank的关键词抽取方法。在基于网络图的TextRank方法基础上,引入语义差异性并利用BERT词向量加权方式优化TextRank转移概率矩阵计算过程,同时通过迭代运算对文档中的词语进行综合影响力得分排序,最终提取得分最高的Top N个词语作为关键词。实验结果表明,当选取Top3、Top5、Top7和Top10个关键词时,与基于词向量聚类质心与TextRank加权的关键词抽取方法相比,该方法的平均F值提升了2.5%,关键词抽取效率更高。 Based on the structural information of the document and the semantic information of external words,this paper proposes a keyword extraction method based on Bidirectional Encoder Representation from Transformer(BERT)word vectors and TextRank.Using network graph-based TextRank,this method introduces the semantic difference and uses BERT word vector weighting to optimize the calculation process of the transfer possibility matrix of TextRank.At the same time,the overall influence scores of words in the document are sorted by iteration,and the words with the Top N scores are selected as keywords.Experimental results show that when keywords are selected Top3,Top5,Top7 and Top10 words,the average F value of the proposed method is 2.5%higher than that of the keyword extraction method based on word vector clustering centroid and TextRank weighting.The proposed method can improve the efficiency of keyword extraction.

作者李俊吕学强 LI Jun;Lü Xueqiang(Beijing Key Laboratory of Internet Culture and Digital Dissemination Research,Beijing Information Science and Technology University,Beijing 100101,China)

机构地区北京信息科技大学网络文化与数字传播北京市重点实验室

出处《计算机工程》 CAS CSCD 北大核心 2020年第9期89-94,共6页 Computer Engineering

基金国家自然科学基金(61671070) 国家语委重点科研项目(ZDI135-53)。

关键词关键词抽取语义关系词向量 TextRank方法基于Transformer的双向编码器表示 extraction semantic relation word vector TextRank method Bidirectional Encoder Representation from Transformer(BERT)

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1夏天.词语位置加权TextRank的关键词抽取研究[J].现代图书情报技术,2013(9):30-34. 被引量：76
2李军锋,吕学强,周绍钧.带权复杂图模型的专利关键词标引研究[J].现代图书情报技术,2015(3):26-32. 被引量：6
3夏天.词向量聚类加权TextRank的关键词抽取[J].数据分析与知识发现,2017,1(2):28-34. 被引量：60
4张莉婧,李业丽,曾庆涛,雷嘉丽,杨鹏.基于改进TextRank的关键词抽取算法[J].北京印刷学院学报,2016,24(4):51-55. 被引量：14
5姜芳,李国和,岳翔.基于语义的文档关键词提取方法[J].计算机应用研究,2015,32(1):142-145. 被引量：10
6顾益军,夏天.融合LDA与TextRank的关键词抽取研究[J].现代图书情报技术,2014(7):41-47. 被引量：70
7李跃鹏,金翠,及俊川.基于word2vec的关键词提取算法[J].科研信息化技术与应用,2015,6(4):54-59. 被引量：45
8赵京胜,朱巧明,周国栋,张丽.自动关键词抽取研究综述[J].软件学报,2017,28(9):2431-2449. 被引量：91
9宁建飞,刘降珍.融合Word2vec与TextRank的关键词抽取研究[J].现代图书情报技术,2016(6):20-27. 被引量：66

二级参考文献69

1左晓飞,刘怀亮,范云杰,赵辉.基于概念语义场的文本聚类算法研究[J].情报杂志,2012,31(5):180-184. 被引量：2
2李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：93
3王军.词表的自动丰富——从元数据中提取关键词及其定位[J].中文信息学报,2005,19(6):36-43. 被引量：40
4耿焕同,蔡庆生,于琨,赵鹏.一种基于词共现图的文档主题词自动抽取方法[J].南京大学学报（自然科学版）,2006,42(2):156-162. 被引量：30
5索红光,刘玉树,曹淑英.一种基于词汇链的关键词抽取方法[J].中文信息学报,2006,20(6):25-30. 被引量：88
6刘远超,王晓龙,徐志明,刘秉权.基于粗集理论的中文关键词短语构成规则挖掘[J].电子学报,2007,35(2):371-374. 被引量：17
7Mihalcea R, Tarau P. TextRank : Bringing Order into Texts [ C ]. In: Proceedings of Empirical Methods in Natural Language Process- ing, Barcelona, Spain. 2004:404-411.
8Frank E, Paynter G W, Witten I H, et al. Domain - Specific Key- phrase Extraction [ C ] In: Proceedings of the 16th International Joint Conference on Artificial Intelligence, Stockholm, Sweden. 1999 : 668 -673.
9Turney P D. Learning Algorithms for Keyphrase Extraction[ J]. In- formation Retrieval, 2000, 2 (4) :303 - 336.
10Pasquier C. Task 5 : Single Document Keyphrase Extraction Using Sentence Clustering and Latent Dirichlet Allocation [ C ]. In : Pro- ceedings of the 5th International Workshop on Semantic Evaluation. Stroudsburg, PA, USA : Association for Computational Linguistics, 2010:154 - 157.

共引文献300

1董宇,杨景升,秦彤昱,郭海博.基于文本关键词提取的自驾车营地行业标准讨论——以《自驾车旅居车营地质量等级划分》为例[J].中国标准化,2021(8):125-132. 被引量：1
2聂卉.结合词向量和词图算法的用户兴趣建模研究[J].数据分析与知识发现,2019,3(12):30-40. 被引量：8
3黄波,刘传才.基于加权TextRank的中文自动文本摘要[J].计算机应用研究,2020,37(2):407-410. 被引量：21
4闫博.基于HanLP关键词抽取与句法分析的图谱构建[J].电子元器件与信息技术,2022,6(9):77-80. 被引量：3
5张逸,李渴,邵振国,罗海荣.基于标准文件的电能质量领域本体构建方法[J].电力系统自动化,2020,44(17):102-111. 被引量：6
6朱剑华,李莉,张秋实,李赫,李伟凡,徐健.长江航道信息智能推送服务方法研究[J].测绘地理信息,2022,47(5):110-113.
7李建平.手法治疗骶髂关节错缝52例[J].按摩与导引,2000,16(3):52-53.
8王煜,魏理,姜顺军.医患问答社区热点主题分析研究[J].医学信息学杂志,2018,39(11):2-8. 被引量：3
9顾益军,夏天.融合LDA与TextRank的关键词抽取研究[J].现代图书情报技术,2014(7):41-47. 被引量：70
10唐晓波,肖璐.基于依存句法网络的文本特征提取研究[J].现代图书情报技术,2014(11):31-37. 被引量：10

同被引文献98

1马月坤,刘鑫,裴嘉诚,秦帅波.基于BERT的中文关系抽取方法[J].计算机产品与流通,2019,0(12):251-251. 被引量：5
2纪蔚蔚.基于词频分析的我国2004年科学学发展动向研究[J].科研管理,2006,27(3):81-89. 被引量：19
3王灿辉,张敏,马少平,黄宇.基于相邻词的中文关键词自动抽取[J].广西师范大学学报（自然科学版）,2007,25(2):161-164. 被引量：10
4赵鹏,蔡庆生,王清毅,耿焕同.一种基于复杂网络特征的中文文档关键词抽取算法[J].模式识别与人工智能,2007,20(6):827-831. 被引量：44
5阚洳沂,唐雁.基于节点删除指标的关键字提取策略[J].西南师范大学学报（自然科学版）,2008,33(2):119-122. 被引量：2
6方俊,郭雷,王晓东.基于语义的关键词提取算法[J].计算机科学,2008,35(6):148-151. 被引量：39
7杨洁,季铎,蔡东风,林晓庆,白宇.基于联合权重的多文档关键词抽取技术[J].中文信息学报,2008,22(6):75-79. 被引量：16
8刘开瑛,薛翠芳,郑家恒,周晓强.中文文本中抽取特征信息的区域与技术[J].中文信息学报,1998,12(2):1-7. 被引量：45
9肖明,陈嘉勇,李国俊.基于CiteSpace研究科学知识图谱的可视化分析[J].图书情报工作,2011,55(6):91-95. 被引量：224
10熊则见,杨敏,赵雯.高技术产品研发关键成功因素的文献计量分析[J].科研管理,2011,32(10):36-45. 被引量：8

引证文献12

1丁祎姗,杜彦辉,朱衍丞,聂世民.基于知识图谱的国内关键词抽取技术研究[J].软件导刊,2020,19(2):273-277. 被引量：6
2欧一鸣,苏雍贺,邹孝付,靳健,张长志,陶飞.面向智慧运维的分布式光伏知识库构建方法[J].计算机集成制造系统,2020,26(12):3205-3215. 被引量：9
3陈梓华,马占元,李敬兆.基于RNN的煤矿安全隐患信息关键语义智能提取系统[J].煤炭工程,2021,53(3):185-189. 被引量：1
4万莹,孙连英,赵平,王金锋,涂帅.基于信息增强BERT的关系分类[J].中文信息学报,2021,35(3):69-77. 被引量：10
5杨延娇,赵国涛,袁振强,韩家臣.融合语义特征的TextRank关键词抽取方法[J].计算机工程,2021,47(10):82-88. 被引量：12
6陈玺,杨雅婷,董瑞.面向汉维机器翻译的BERT嵌入研究[J].计算机工程,2021,47(12):112-117. 被引量：4
7冉丈杰.面向科技资源服务交易的供需匹配技术[J].现代计算机,2022,28(5):10-17.
8顾淳,俞成海,于洋,关炜炜.基于BERT模型的无监督中文单文本关键词提取模型[J].浙江理工大学学报（自然科学版）,2022,47(3):424-432. 被引量：2
9张炯,王丽芳,蔺素珍,秦品乐,米嘉,刘阳.局部全局特征耦合与交叉尺度注意的医学图像融合[J].计算机工程,2023,49(3):238-247. 被引量：2
10何传鹏,尹玲,黄勃,王明胜,郭茹燕,张帅,巨家骥.基于BERT和LightGBM的文本关键词提取方法[J].电子科技,2023,36(3):7-13. 被引量：5

二级引证文献50

1张淯舒.基于知识图谱的搜索引擎技术研究[J].信息技术与信息化,2020(9):29-31. 被引量：1
2叶天宽,黎伟健,彭涛,胡莉琼,陈钦顺,朱凯亮.基于评改一体化提升互联网5G产品NPS的方法研究[J].科技传播,2021,13(3):159-162.
3谢宇杰,王赜,薛雯,吕沫,傅健伦.基于大数据分析的企业信息知识图谱的构建与应用[J].启迪,2021(5):17-17.
4陈婕卿,张锋,曾可,姜会珍.基于CiteSpace的医学自然语言处理研究热点分析[J].中国数字医学,2021,16(5):101-106. 被引量：3
5齐平平.TextRank与用户情感倾向在推荐算法中的研究[J].科技创新导报,2021,18(11):159-161.
6欧一鸣,苏雍贺,靳健,倪玮晨,陶飞.基于知识图谱的分布式光伏运维方案匹配方法[J].计算机集成制造系统,2021,27(7):1860-1870. 被引量：8
7刘建华,常发财.基于一卡通学生行为的知识库构建与应用[J].西安邮电大学学报,2021,26(3):98-104.
8吴章玉,朱成杰,王鸣雁.基于RNN的锂电池健康预测[J].绿色科技,2021,23(18):201-203. 被引量：5
9刘晓娟,付立军,范玥,肖斌,杨启航.“破五唯”背景下高职科研评价画像研究与实践[J].中国教育信息化,2021,27(21):15-18. 被引量：2
10王旎,孙晓红,吴锴,谢锋,陶光灿.基于贝叶斯网络的食品安全舆情监控探针研究[J].计算机系统应用,2022,31(1):29-36. 被引量：3

1张云翔,李智诚.面向电力行业的热词语音识别技术[J].现代计算机,2020,26(22):14-17. 被引量：3
2陈雨婷,刘旭红,刘秀磊.面向招投标领域的远程监督实体关系抽取研究[J].计算机工程与应用,2020,56(17):243-250. 被引量：5
3张雷,崔荣一.基于编辑距离的词序敏感相似度度量方法[J].延边大学学报（自然科学版）,2020,46(2):140-144. 被引量：5
4陈子文,李伟,张文强,李云伍,李明生,李慧.基于自动Hough变换累加阈值的蔬菜作物行提取方法研究[J].农业工程学报,2019,35(22):314-322. 被引量：28

计算机工程

2020年第9期

浏览历史

内容加载中请稍等...

融合BERT语义加权与网络图的关键词抽取方法被引量：12

参考文献9

二级参考文献69

共引文献300

同被引文献98

引证文献12

二级引证文献50

相关作者

相关机构

相关主题

浏览历史

融合BERT语义加权与网络图的关键词抽取方法 被引量：12

参考文献9

二级参考文献69

共引文献300

同被引文献98

引证文献12

二级引证文献50

相关作者

相关机构

相关主题

浏览历史

融合BERT语义加权与网络图的关键词抽取方法被引量：12