基于BERT-CRF模型的中文事件检测方法研究被引量：19

Research on Chinese Event Detection Method Based on BERT-CRFModel

下载PDF

导出

摘要事件抽取是自然语言处理中信息抽取的关键任务之一。事件检测是事件抽取的第一步,事件检测的目标是识别事件中的触发词并为其分类。现有的中文事件检测存在由于分词造成的误差传递,导致触发词提取不准确。将中文事件检测看作序列标注任务,提出一种基于预训练模型与条件随机场相结合的事件检测模型,采用BIO标注方法对数据进行标注,将训练数据通过预训练模型BERT得到基于远距离的动态字向量的触发词特征,通过条件随机场CRF对触发词进行分类。在ACE2005中文数据集上的实验表明,提出的中文事件检测模型与现有模型相比,准确率、召回率与F1值都有提升。 Event extraction is one of the key tasks of information extraction in natural language processing.Event detection is the first step of event extraction and aims to identify and classify trigger words in an event.The existing Chinese event detection has error transfer caused by word segmentation,which leads to inaccurate extraction of trigger words.In this paper,Chinese event detection is regarded as a sequence tagging task,and an event detection model based on pre-training model and conditional random field is proposed.Firstly,the BIO annotation method is used to annotate the data.Then,the training data are obtained through the pre-training model BERT to obtain the trigger words characteristics based on the long-distance dynamic word vector.Finally,the trigger words are classified by conditional random field.Experiments on the ACE2005 Chinese corpus show that the accuracy,recall rate and F1 value of the Chinese event detection model proposed in this paper outperform other existing event detection models.

作者田梓函李欣 TIAN Zihan;LI Xin(College of Information Network Security,People’s Public Security University of China,Beijing 100038,China)

机构地区中国人民公安大学信息网络安全学院

出处《计算机工程与应用》 CSCD 北大核心 2021年第11期135-139,共5页 Computer Engineering and Applications

基金国家重点研发计划(2017YFC0803700) 中国人民公安大学2019年度基本科研业务费(2019JKF424)。

关键词中文事件检测预训练模型条件随机场(CRF) Chinese event detection pre-training model Conditional Random Field(CRF)

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1姜吉发.一种事件信息抽取模式获取方法[J].计算机工程,2005,31(15):96-98. 被引量：27

二级参考文献5

1Grishman R.Information Extraction:Techniques and Challenges.In Information Extraction (Ed.).Maria Teresa Pazienza,Springer Notes in Artificial Intelligence,Springer-Verlag,1997
2Riloff E.Automatically Constructing a Dictionary for Information Extraction Tasks.In:Proc.Eleventh National Conf.on Artificial Intelligence,1993:811-816
3Riloff E.Automatically Generating Extraction Patterns from Untagged Text.In:Proc.Thirteenth National Conf.on Artificial Intelligence (AAAI-96),1996:1044-1049
4Yangarber R,Grishman R,Tapanainen P,et al.Automatic Acquisition of Domain Knowledge for Information Extraction.In:Proceedings of the 18th International Conference on Computational Linguistics (COLING 2000),Saarbriicken,Germany,2000
5Chai J Y.Learning and Generalization in the Creation of Information Extraction Systems.Doctoral Dissertation,Dept.of Computer Science,Graduate School of Duke University,1998

共引文献26

1仲兆满,刘宗田,周文,付剑锋.事件关系表示模型[J].中文信息学报,2009,23(6):56-60. 被引量：23
2孙中友,李培峰,朱巧明.事件信息抽取中的数据预处理方法研究[J].计算机应用与软件,2011,28(8):35-37. 被引量：3
3王伟,赵东岩,赵伟.中文新闻关键事件的主题句识别[J].北京大学学报（自然科学版）,2011,47(5):789-796. 被引量：18
4孙荣,周文,刘宗田.用规则抽取句子中事件信息[J].小型微型计算机系统,2011,32(11):2309-2314. 被引量：10
5杨尔弘,曾青青,李婷婷.事件信息结构分析[J].中文信息学报,2012,26(3):92-97. 被引量：6
6肖升,何炎祥.基于动词论元结构的中文事件抽取方法[J].计算机科学,2012,39(5):161-164. 被引量：11
7刘敬培,李江,季文平,潘鹏辉.面向文本的事件信息抽取方法的研究[J].计算机与现代化,2012(7):198-201. 被引量：2
8杨雁莹.一种刑侦案件的信息抽取架构设计[J].电脑编程技巧与维护,2014(2):8-11.
9魏新宇,秦颖.中文事件抽取研究及实现[J].电脑编程技巧与维护,2014(10):31-34. 被引量：1
10余丽,陆锋,张恒才.网络文本蕴涵地理信息抽取:研究进展与展望[J].地球信息科学学报,2015,17(2):127-134. 被引量：41

同被引文献167

1陶志勇,李小兵,刘影,刘晓芳.基于双向长短时记忆网络的改进注意力短文本分类方法[J].数据分析与知识发现,2019,3(12):21-29. 被引量：23
2肖瑞,胡冯菊,裴卫.基于BiLSTM-CRF的中医文本命名实体识别[J].世界科学技术-中医药现代化,2020,22(7):2504-2510. 被引量：31
3王捷,洪宇,陈佳丽,姚建民.基于共享BERT和门控多任务学习的事件检测方法[J].中文信息学报,2021,35(10):101-109. 被引量：5
4赵妍妍,秦兵,车万翔,刘挺.中文事件抽取技术研究[J].中文信息学报,2008,22(1):3-8. 被引量：106
5章成志,苏新宁.基于条件随机场的自动标引模型研究[J].中国图书馆学报,2008,34(5):89-94. 被引量：23
6付剑锋,刘宗田,刘炜,单建芳.基于特征加权的事件要素识别[J].计算机科学,2010,37(3):239-241. 被引量：9
7郭文丽,张晓林.基于粒度的本体模块描述方法[J].现代图书情报技术,2010(2):1-6. 被引量：11
8陆铭,康雨洁,俞能海.简约语法规则和最大熵模型相结合的混合实体识别[J].小型微型计算机系统,2012,33(3):537-541. 被引量：12
9胡博磊,贺瑞芳,孙宏,王文俊.基于条件随机域的中文事件类型识别[J].模式识别与人工智能,2012,25(3):445-449. 被引量：8
10高强,游宏梁.事件抽取技术研究综述[J].情报理论与实践,2013,36(4):114-117. 被引量：30

引证文献19

1陈强,代仕娅.大数据、AI平台支撑下的智慧金融产品研发与实践[J].软件导刊,2021,20(2):31-39. 被引量：4
2陈强.智能金融发展的实践框架与建设机制思考——基于业务应用视角[J].金融理论与实践,2022(1):39-48. 被引量：2
3陈强.非结构化智能金融投研平台的开发与行业应用[J].计算机系统应用,2022,31(2):78-87. 被引量：1
4谢星雨,余本功.基于MFFMB的电商评论文本分类研究[J].数据分析与知识发现,2022,6(1):101-112. 被引量：6
5侯振瑜,张仰森,苏振江,谢少辉,胡昌秀.军事知识图谱的构建和检索方法研究[J].北京信息科技大学学报（自然科学版）,2022,37(3):82-87.
6褚燕华,蒋文,王丽颖,张晓琳,王乾龙.基于BERT的数控机床故障领域命名实体识别[J].科学技术与工程,2022,22(14):5737-5743. 被引量：7
7代翔.基于事件模式及类型的事件检测模型[J].电子科技大学学报,2022,51(4):592-599. 被引量：1
8胡瑞娟,周会娟,刘海砚,李健.基于深度学习的篇章级事件抽取研究综述[J].计算机工程与应用,2022,58(24):47-60. 被引量：4
9杨昊,赵刚,王兴芬.基于混合模型的事件触发词抽取[J].计算机工程与科学,2023,45(1):171-180. 被引量：1
10黄宏斌,孙皎,韦晖,肖开明,王懋,李璇.基于开源军事新闻的领域事件数据集[J].中国科学数据（中英文网络版）,2023,8(1):339-348. 被引量：1

二级引证文献34

1黄茜,贺超城,李欣儒,吴江.后疫情时代下短租民宿用户购买行为研究——基于BERT衡量的网络口碑[J].知识管理论坛,2023(3):238-257.
2陈强.智能金融发展的实践框架与建设机制思考——基于业务应用视角[J].金融理论与实践,2022(1):39-48. 被引量：2
3陈强.非结构化智能金融投研平台的开发与行业应用[J].计算机系统应用,2022,31(2):78-87. 被引量：1
4程欣炜,岳中刚.基于电商大数据的农产品短期经营风险预测研究——以家庭经营梨果种植户为样本[J].商业经济与管理,2022(9):16-29. 被引量：2
5王国英.基于多粒度与动态词向量的机器翻译关键技术研究[J].自动化与仪器仪表,2022(9):181-185. 被引量：1
6王彦莹,王昊,朱惠,李晓敏.基于文本生成技术的历史古籍事件识别模型构建研究[J].图书情报工作,2023,67(3):119-130. 被引量：5
7杨茂勇.供电电源引起数控机床故障研究[J].通信电源技术,2023,40(3):234-236.
8张梦芸,丁敬达.面向短文本分类的语义增强研究[J].图书情报工作,2023,67(9):4-11.
9刘浩,张建业,吕张成,陈哲钥.面向数控机床设计知识图谱构建的实体识别[J].科学技术与工程,2023,23(13):5655-5661. 被引量：3
10胡潜,吴茜,陈漳尧,朱清文.融合预训练和深度学习的图书功用分类研究[J].情报理论与实践,2023,46(6):155-160.

1丁玲,向阳.基于分层次多粒度语义融合的中文事件检测[J].计算机科学,2021,48(5):202-208. 被引量：9
2郑巧夺,吴贞东,邹俊颖.基于双层CNN⁃BiGRU⁃CRF的事件因果关系抽取[J].计算机工程,2021,47(5):58-64. 被引量：10
3吴雨钊.基于神经张量网络的事件相关关系识别[J].网络安全技术与应用,2021(4):39-40.
4胡志磊,靳小龙,陈剑赟,黄冠利.事件图谱的构建、推理与应用[J].大数据,2021,7(3):80-96. 被引量：13
5潘璋,黄德根.事件要素注意力与编码层融合的触发词抽取研究[J].小型微型计算机系统,2021,42(4):673-677. 被引量：9
6王朱君,王石,李雪晴,朱俊武.基于深度学习的事件因果关系抽取综述[J].计算机应用,2021,41(5):1247-1255. 被引量：15
7陈健瑶,翟姗姗,夏立新,刘德印.融合句法特征和句法相似度的网络舆情突发事件识别方法研究[J].图书情报工作,2021,65(9):41-50. 被引量：4
8乔永卫.基于嵌入表示和加权矩阵分解的线路推荐[J].计算机科学与应用,2021,11(4):902-910.
9杜海雷,孙惠斌,黄健,宋树林,崔宝锋,马涛,赵建,宋迎军,常智勇.面向装配精度的航空发动机转子零件选配优化[J].计算机集成制造系统,2021,27(5):1292-1299. 被引量：6
10刘海虹.微生物絮凝剂对矿井水悬浮物的絮凝效果研究[J].能源与节能,2021(5):16-17. 被引量：1

计算机工程与应用

2021年第11期

浏览历史

内容加载中请稍等...

基于BERT-CRF模型的中文事件检测方法研究被引量：19

参考文献1

二级参考文献5

共引文献26

同被引文献167

引证文献19

二级引证文献34

相关作者

相关机构

相关主题

浏览历史

基于BERT-CRF模型的中文事件检测方法研究 被引量：19

参考文献1

二级参考文献5

共引文献26

同被引文献167

引证文献19

二级引证文献34

相关作者

相关机构

相关主题

浏览历史

基于BERT-CRF模型的中文事件检测方法研究被引量：19