融合位置特征的关键短语集合抽取模型

Key phrase set extraction model based on position feature fusion

下载PDF

导出

摘要关键短语抽取任务是文本知识抽取任务的基础性工作,存在关键短语抽取边界不清晰、抽取结果重复率较高等问题,导致抽取结果准确性不佳。本文针对关键短语出现在文章中的位置特征建模,基于Transfomer编码器-解码器结构,结合位置特征与预训练模型对关键短语进行预测,提出一种端到端的关键短语预测模型;在模型训练过程中,采用了基于匈牙利算法对预测值与真实值进行序列对应的交叉熵损失函数,使关键短语预测过程,排除序列生成方法中预定排序的影响,并以集合的方式抽取关键短语。分别在Inspec、SemEval2017、KP20k数据集进行了实验验证,与现有方法相比较,本文模型F1值均有所提升,有助于提升文本信息的关键短语抽取效果。 Key phrase extraction is a fundamental task in text knowledge mining,but the current task still suffers from unclear boundaries of key phrase extraction and high repetition rate of extraction results,resulting in poor accuracy of extraction results.An end-to-end key phrase prediction model based on Transfomer encoder-decoder structure backbone is proposed,which combines location feature and pre-trained model to predict key phrase.A cross-entropy loss function using Hungarian algorithm for permutation between predictions and ground truth is applied in training process to enable the key phrase prediction process to exclude the effect of predetermined ordering in sequence generation methods and to extract key phrases as a set.The model is validated on Inspec,SemEval2017,and KP20k datasets respectively.The F1-scores of the model are all improved compared with existing methods,which helped to improve the key phrase extraction of textual information.

作者于子健孙海春李欣 YU Zijian;SUN Haichun;LI Xin(College of Information Network Security,People's Public Security University of China,Beijing 100038,China)

机构地区中国人民公安大学信息网络安全学院

出处《智能计算机与应用》 2023年第2期20-28,共9页 Intelligent Computer and Applications

基金国家重点研发计划(2020AAA0107700) 国家自然科学基金(62076246) 公安部技术研究计划项目(2020JSYJC22)。

关键词关键短语抽取位置特征知识抽取编码器-解码器预训练模型 key phrase extraction position feature knowledge extraction encoder-decoder pre-trained model

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1胡少虎,张颖怡,章成志.关键词提取研究综述[J].数据分析与知识发现,2021,5(3):45-59. 被引量：37
2王昊,刘丹,刘硕.基于句法分析及主题分布的关键词抽取模型[J].计算机应用研究,2022,39(9):2603-2607. 被引量：2
3于强,林民,李艳玲.基于深度学习的关键词生成研究综述[J].计算机工程与应用,2022,58(14):27-39. 被引量：6
4Ao Xiong,Derong Liu,Hongkang Tian,Zhengyuan Liu,Peng Yu,Michel Kadoch.News Keyword Extraction Algorithm Based on Semantic Clustering and Word Graph Model[J].Tsinghua Science and Technology,2021,26(6):886-893. 被引量：9

二级参考文献30

1耿焕同,蔡庆生,于琨,赵鹏.一种基于词共现图的文档主题词自动抽取方法[J].南京大学学报（自然科学版）,2006,42(2):156-162. 被引量：30
2LI Juanzi FAN Qi＇na ZHANG Kuo.Keyword Extraction Based on tf/idf for Chinese News Document[J].Wuhan University Journal of Natural Sciences,2007,12(5):917-921. 被引量：24
3章成志.自动标引研究的回顾与展望[J].现代图书情报技术,2007(11):33-39. 被引量：39
4章成志,周冬敏.自动标引通用评价模型研究[J].情报学报,2009,28(1):40-47. 被引量：6
5章成志.基于集成学习的自动标引方法研究[J].情报学报,2010,29(1):3-8. 被引量：10
6夏天.词语位置加权TextRank的关键词抽取研究[J].现代图书情报技术,2013(9):30-34. 被引量：76
7顾益军,夏天.融合LDA与TextRank的关键词抽取研究[J].现代图书情报技术,2014(7):41-47. 被引量：70
8李跃鹏,金翠,及俊川.基于word2vec的关键词提取算法[J].科研信息化技术与应用,2015,6(4):54-59. 被引量：45
9罗燕,赵书良,李晓超,韩玉辉,丁亚飞.基于词频统计的文本关键词提取方法[J].计算机应用,2016,36(3):718-725. 被引量：77
10夏天.词向量聚类加权TextRank的关键词抽取[J].数据分析与知识发现,2017,1(2):28-34. 被引量：60

共引文献46

1王帅帅,徐臻.融合关键字的注意力机制的淋巴水肿病历诊断推理算法[J].智能计算机与应用,2022,12(2):178-181.
2倪兵,廖光忠.基于语义依存和外部知识库的关键词抽取[J].计算机工程与设计,2022,43(3):821-826. 被引量：2
3毛立琦,石拓,吴林,马涛.基于领域自适应的无监督文本关键词提取模型——以“人工智能风险”领域文本为例[J].情报理论与实践,2022,45(3):182-187. 被引量：6
4孟旭阳,白海燕.文献摘要结构功能识别在关键词抽取中的应用[J].情报工程,2022,8(1):79-89. 被引量：4
5蔡迎春,赵心如,朱玉梅,汪秀秀.我国文献标引技术的回顾与展望[J].图书馆杂志,2022,41(3):18-31. 被引量：6
6周好,王东波,黄水清.新时代人民日报分词语料库下关键词抽取及分析研究[J].文献与数据学报,2022,4(1):21-34. 被引量：2
7索传军,葛倩,魏长青.基于论题视角的图情中文期刊论文关键词标注探析——以"基于"类论文为例[J].图书情报工作,2022,66(12):117-124. 被引量：2
8于强,林民,李艳玲.基于深度学习的关键词生成研究综述[J].计算机工程与应用,2022,58(14):27-39. 被引量：6
9杨舰.融合异构信息网络和图嵌入技术的视频检索方法[J].电视技术,2022,46(7):47-50. 被引量：2
10段建勇,鲁朝阳,王昊,李欣,何丽.语义知识驱动的论文摘要关键词抽取方法[J].情报工程,2022,8(3):3-12.

1张博玮,郑建飞,胡昌华,裴洪,董青.基于流模型的缺失数据生成方法在剩余寿命预测中的应用[J].自动化学报,2023,49(1):185-196. 被引量：3
2陈铁,曹颖,蔡东阁,何思敏.基于深度强化学习的变电站倒闸操作序列生成方法[J].电工材料,2023(1):78-84. 被引量：3
3魏煦航,曹少中,杨彦红,项璇.基于深度残差收缩网络的滚动轴承健康因子构建方法[J].印刷与数字媒体技术研究,2023(1):71-79.
4黄佃宽.基于图卷积网络的认知诊断方法[J].软件导刊,2023,22(1):111-115. 被引量：1
5李泽,李铁成,严敬汝,陈天英,郭少飞.考虑时空相关性的风光出力序列生成方法[J].河北电力技术,2022,41(6):16-22. 被引量：2
6李卓,韦奔,郭水萍,陈慧,蓝晨卉,任俊杰.基于大数据的汽车销量预测系统研究及开发[J].企业科技与发展,2022(9):16-18. 被引量：1
7祁冰,宋书康,丁博,靖立峥.基于Semi-Markov模型沥青路面性能衰变规律研究[J].建筑技术开发,2023,50(1):123-125.
8江晓明,吴昊,丛滢淇,杜雪,方婧茹.C-V2X系统中动态信道预测的R-ATB算法[J].江苏大学学报（自然科学版）,2023,44(1):62-66. 被引量：1
9陈佳鲜,毛文涛,刘京,王港胜.基于时间序列迁移递归预测的未知工况下滚动轴承在线剩余寿命评估[J].控制与决策,2023,38(1):112-122. 被引量：4

智能计算机与应用

2023年第2期

浏览历史

内容加载中请稍等...

融合位置特征的关键短语集合抽取模型

参考文献4

二级参考文献30

共引文献46

相关作者

相关机构

相关主题

浏览历史