联合知识图谱和预训练模型的中文关键词抽取方法被引量：2

Chinese Keyword Extraction Method Combining Knowledge Graph and Pre-training Model

下载PDF

导出

摘要关键词表征了文本的主题,是文本概念和主题的凝练。通过关键词,读者可以快速了解文档表达的主旨和思想,从而提升信息检索效率;此外,关键词抽取也可以为自动摘要、文本分类提供支撑。近年来,自动抽取关键词的研究引起了广泛关注,但如何精准地抽取文档的关键词仍是一个挑战。一方面,关键词是人们主观的认识,判断一个词是否是关键词本身具有主观性;另一方面,中文词汇往往具有丰富的语义信息,单纯依赖传统统计特征和主题特征难以准确提炼文本所表达的主旨思想。针对中文关键词抽取中存在的准确率低、信息冗余和信息缺失等问题,提出了一种联合知识图谱和预训练模型的无监督关键词抽取方法。该方法首先利用预训练模型进行主题聚类,并通过一种以句子为单位的聚类方法保证最终选取的关键词对全文内容的覆盖度;同时,通过知识图谱进行实体链接,以此实现精准分词及歧义消除;然后,根据主题信息构建语义词图,并以此为基础计算词语间的语义权重;最后,通过加权的PageRank算法进行关键词排序。在DUC 2001和CSL两个公开数据集和一个单独标注的CLTS数据集上,以预测结果的准确率、召回率及F1值为指标进行对比实验。实验结果表明,该模型相比多种基线方法,准确率均有所提升,在CLTS数据集上与传统统计方法 TF-IDF相比F1值提高了9.14%,与传统图方法 TextRank相比F1值提高了4.82%。 Keywords represent the theme of the text, which is the condensed concept and content of the text.Through keywords, readers can quickly understand the gist and idea of the text and improve the efficiency of information retrieval.In addition, keyword extraction can also provide support for automatic text summarization and text classification.In recent years, research on automatic keyword extraction has attracted wide attention, but how to extract keywords from documents accurately remains a challenge.On the one hand, the keyword is people’s subjective understanding, judging whether a word is a keyword itself is subjective.On the other hand, Chinese words are often rich in semantic information and it is difficult to accurately extract the main idea expressed in the text by solely relying on traditional statistical features and thematic features.Aiming at the problems of low accuracy, information redundancy and information missing in Chinese keyword extraction, this paper proposes an unsupervised keyword extraction method combining knowledge graph and pre-training model.Firstly, topic clustering is carried out by using the pre-training model, and a sentence-based clustering method is proposed to ensure the coverage of the final selected keyword.Then, the knowledge graph is used for entity linking to achieve accurate word segmentation and semantic disambiguation.After that, the semantic word graph is constructed based on the topic information to calculate the semantic weight between words.Finally, keywords are sorted by the weighted PageRank algorithm.Experiments are conducted on two public datasets, DUC 2001 and CSL,and a separate annotated CLTS dataset, the prediction accuracy, recall rate and F1 score are taken as indicators in comparative experiments.Experimental results show that the accuracy of the proposed method has improved compared with other baseline methods, F1 value is increased by 9.14% compared with the traditional statistical method TF-IDF,and increased by 4.82% compared with the traditional graph method TextRank on CLTS dataset.

作者姚奕杨帆 YAO Yi;YANG Fan(College of Command and Control Engineering,Army Engineering University of PLA,Nanjing 210007,China)

机构地区陆军工程大学指挥控制工程学院

出处《计算机科学》 CSCD 北大核心 2022年第10期243-251,共9页 Computer Science

基金军事类研究生资助课题(JY2019C078)。

关键词关键词抽取知识图谱句嵌入聚类图算法预训练模型 Keyword extraction Knowledge graph Sentence embedding Clustering Graph-based algorithms Pre-trained model

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1夏天.面向中文学术文本的单文档关键短语抽取[J].数据分析与知识发现,2020,4(7):76-86. 被引量：5
2刘啸剑,谢飞.结合主题分布与统计特征的关键词抽取方法[J].计算机工程,2017,34(7):217-222. 被引量：7
3段建勇,游世薪,张梅,王昊.基于多特征融合的关键词抽取[J].计算机科学,2020,47(S02):73-77. 被引量：8
4常耀成,张宇翔,王红,万怀宇,肖春景.特征驱动的关键词提取算法综述[J].软件学报,2018,29(7):2046-2070. 被引量：35
5赵京胜,朱巧明,周国栋,张丽.自动关键词抽取研究综述[J].软件学报,2017,28(9):2431-2449. 被引量：89

二级参考文献25

1左晓飞,刘怀亮,范云杰,赵辉.基于概念语义场的文本聚类算法研究[J].情报杂志,2012,31(5):180-184. 被引量：2
2谭胜,马静,吴一占.基于主题描述模型的相关性判断在网页信息抽取中的应用[J].情报学报,2011,30(2):155-159. 被引量：6
3索红光,刘玉树,曹淑英.一种基于词汇链的关键词抽取方法[J].中文信息学报,2006,20(6):25-30. 被引量：88
4谢飞,吴信东,胡学钢,李星华,江兆中.基于语义联系的新闻网页关键词抽取[J].广西师范大学学报（自然科学版）,2009,27(1):145-148. 被引量：10
5马力,焦李成,白琳,周雅夫,董洛兵.基于小世界模型的复合关键词提取方法研究[J].中文信息学报,2009,23(3):121-128. 被引量：14
6胡学钢,李星华,谢飞,吴信东.基于词汇链的中文新闻网页关键词抽取方法[J].模式识别与人工智能,2010,23(1):45-51. 被引量：22
7王立霞,淮晓永.基于语义的中文文本关键词提取算法[J].计算机工程,2012,38(1):1-4. 被引量：48
8张建娥.基于TFIDF和词语关联度的中文关键词提取方法[J].情报科学,2012,30(10):1542-1544. 被引量：43
9翟周伟,刘刚,吕玉琴.基于图模型的关键词挖掘方法[J].软件,2012,33(8):9-13. 被引量：3
10夏天.词语位置加权TextRank的关键词抽取研究[J].现代图书情报技术,2013(9):30-34. 被引量：76

共引文献126

1董宇,杨景升,秦彤昱,郭海博.基于文本关键词提取的自驾车营地行业标准讨论——以《自驾车旅居车营地质量等级划分》为例[J].中国标准化,2021(8):125-132. 被引量：1
2侯雪亮,李新,陈远平.基于多神经网络混合的短文本分类模型[J].计算机系统应用,2020(10):9-19. 被引量：5
3闫博.基于HanLP关键词抽取与句法分析的图谱构建[J].电子元器件与信息技术,2022,6(9):77-80. 被引量：1
4张逸,李渴,邵振国,罗海荣.基于标准文件的电能质量领域本体构建方法[J].电力系统自动化,2020,44(17):102-111. 被引量：6
5翟羽佳,许佳,李晓.面向突发重大公共卫生事件的多源异构应急信息融合模型研究[J].图书与情报,2021(5):9-20. 被引量：7
6李建平.手法治疗骶髂关节错缝52例[J].按摩与导引,2000,16(3):52-53.
7王煜,魏理,姜顺军.医患问答社区热点主题分析研究[J].医学信息学杂志,2018,39(11):2-8. 被引量：3
8王瑞,秦永彬,闫盈盈.用于短文本关键词抽取的TTM_DMM主题翻译模型[J].计算机与数字工程,2018,46(5):945-949. 被引量：1
9赵京胜,肖娜,高翔.基于自然语言处理的能源领域知识图谱[J].信息技术与信息化,2018(5):55-58. 被引量：6
10常耀成,张宇翔,王红,万怀宇,肖春景.特征驱动的关键词提取算法综述[J].软件学报,2018,29(7):2046-2070. 被引量：35

同被引文献13

1李心玥,徐佳琦,周思静,陈婧,邱丽媛.基于NLP技术在运维自动化领域构建智能问答模型的探索与实践[J].中国金融电脑,2021(8):75-80. 被引量：5
2吕洋,张静,华芳.基于数据挖掘算法的汉英机器翻译二元语义模式规则[J].微型电脑应用,2021,37(11):19-21. 被引量：3
3王习,张凯,李军辉,孔芳.基于残差密集网络层次信息的图像标题生成[J].计算机工程与科学,2022,44(1):84-91. 被引量：2
4戎军涛.用户认知导向的动态信息检索模型构建[J].图书馆,2022(1):69-76. 被引量：7
5易也难,卞艺杰.基于改进注意力机制的问题生成模型研究[J].微电子学与计算机,2022,39(4):49-57. 被引量：3
6徐永兵,张志良,余大兵,袁东,李庆武.基于注意力引导的堤坝场景图像语义分割算法[J].信息技术,2022,46(5):88-93. 被引量：2
7郑庆荣,赵建立,盛明,王桂林,汤卓凡.基于知识图谱的全链路数据自动检索方法[J].自动化与仪器仪表,2022(5):170-173. 被引量：3
8潘海鹏,刘培敏,马淼.基于语义信息与动态特征点剔除的SLAM算法[J].浙江理工大学学报（自然科学版）,2022,47(5):764-773. 被引量：3
9欧阳苏宇,邵蓥侠,杜军平,李昂.基于字词混合和GRU的科技文本知识抽取方法[J].广西科学,2022,29(4):634-641. 被引量：3
10曹树金,曹茹烨.基于知识图谱支持科研创新的跨学科知识发现研究[J].情报理论与实践,2022,45(11):10-20. 被引量：11

引证文献2

1李彩虹.基于数据驱动视角计算机知识挖掘技术分析[J].信息与电脑,2023,35(11):198-200. 被引量：1
2张子元.基于信息处理的电子考试智能问答训练系统[J].信息记录材料,2024,25(5):212-215.

二级引证文献1

1胥望军.数据驱动下的算法创新与挑战[J].IT经理世界,2024(2):94-96.

1张玲.基于大数据技术的经济统计应用研究[J].内蒙古统计,2022(4):23-25.
2罗演.“以本为本”人才教育核心战略下高校思想政治教育路径探析[J].黑龙江教师发展学院学报,2022,41(9):113-115.
3孙文龙,张逸勤,王凡铭,鱼汇沐,刘江峰,王东波.面向数字人文的典籍语义词汇抽取研究——以SikuBERT预训练模型为例[J].图书馆论坛,2022,42(10):31-41. 被引量：1
4杨桂松,王静茹,李俊,何杏宇.基于时空信息和任务流行度分析的移动群智感知任务推荐[J].计算机应用研究,2022,39(9):2745-2751.
5无.2022版中国居民平衡膳食宝塔和餐盘(2022)都有哪些变化[J].糖尿病天地,2022(7):44-46.
6曾立英,王弘睿.国际中文词汇大纲和教材中的道德词汇研究[J].首都师范大学学报（社会科学版）,2022(4):86-96. 被引量：1
7鲍曙光.基于数据词典的中文分词算法优化实现[J].现代信息科技,2022,6(7):80-84. 被引量：2
8梁君健,李雨函.鲁派纪录片:浮现中的主题特征与创作体系[J].现代视听,2022(8):15-19.
9勘误[J].净水技术,2022,41(S02):126-126.
10李晓非,胡海月.基于LDA主题模型的北京生活垃圾管理政策特征研究[J].中国管理信息化,2022,25(15):205-209.

计算机科学

2022年第10期

浏览历史

内容加载中请稍等...

联合知识图谱和预训练模型的中文关键词抽取方法被引量：2

参考文献5

二级参考文献25

共引文献126

同被引文献13

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

联合知识图谱和预训练模型的中文关键词抽取方法 被引量：2

参考文献5

二级参考文献25

共引文献126

同被引文献13

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

联合知识图谱和预训练模型的中文关键词抽取方法被引量：2