基于BERT改进的文化活动事件论元抽取研究被引量：2

An Improved Argument Extraction Method for Cultural Events Based on BERT

下载PDF

导出

摘要目前对于事件抽取的研究主要还在使用ACE 2005的小规模开放域事件文本语料,而对事件抽取文本语料的标注需要大量专家经验和人力,昂贵且低效,事件抽取相关的语料类型较少,规模较少,不利于深度学习的应用。为解决这个问题,该文提出一种半监督的领域事件论元抽取方法,对源自全国各地图书馆官网的文化活动语料使用模板和领域字典匹配的方法进行自动标注,然后通过人工验证确保标注准确性,利用序列标注的方法进行事件论元抽取,并针对传统BiLSTM-CRF模型的词嵌入层无法解决一词多义的问题,提出在词嵌入层采用BERT模型和基于字位置信息的词向量扩展方法的改进。实验证明,该方法在事件论元抽取上F 1值达到84.9%,优于传统的事件论元识别方法。 Event extraction methods usually use the small-scale open-domain event extraction corpus of ACE 2005,which is difficult for applying deep learning.A semi-supervised domain event argument extraction method is proposed to automatically annotate cultural event corpus from official websites of Chinese public libraries by using template and domain dictionary.Then manual annotation is applied to ensure the label accuracy.To resolve the problem of polysemy in word embedding layer,an improved method using BERT model and positional character embedding layer is proposed for the BiLSTM-CRF model.Experiments demonstrate an F 1 value of 84.9%for the proposed method of event argument extraction,which is superior to the classical event argument recognition methods.

作者蔺志李原王庆林 LIN Zhi;LI Yuan;WANG Qinglin(School of Automation,Beijing Institute of Technology,Beijing 100081,China)

机构地区北京理工大学自动化学院

出处《中文信息学报》 CSCD 北大核心 2022年第12期115-122,共8页 Journal of Chinese Information Processing

基金国家自然科学基金(61472037)。

关键词自然语言处理事件抽取论元抽取预训练模型深度学习 NLP event extraction argument extraction pre-trained model deep learning

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1洪铭材,张阔,唐杰,李涓子.基于条件随机场(CRFs)的中文词性标注方法[J].计算机科学,2006,33(10):148-151. 被引量：56

二级参考文献7

1Lafferty J,McCallum A,Pereira F.Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data.In:Proceedings of the 18th International Conf on machine Learning,2001.282～289
2Sha F,Pereira F.Shallow Parsing with Conditional Random Fields.In:Proceedings of Human Language Technology Conference and North American Chapter of the Association for Computational Linguistics (HLT-NAACL),2003
3现代汉语语料库加工规范-词语切分与词性标注.北京大学计算语言学研究所,1999
4Bai Shuanhu.An Integrated Model of Chinese Word Segmentation and Part-of Speech Tagging.In:Advanced and Applications on Computational Linguistics,Third National Computational Linguistics Meeting,Shanghai.Nov.1995.56～61
5Bai S H,Xia,Y,Huang C N.Automatic Part-of-Speech Tagging System of Chinese:[Technical Report].Beijing:Tsinghua University,1992
6白栓虎.基于统计的汉语词性自动标注方法[J].语文建设,1994(10):38-40. 被引量：2
7周明,吴进,黄昌宁.用于词性标注的一种快速学习算法──对Brill的基于变换算法的一项改进[J].计算机学报,1998,21(4):357-366. 被引量：8

共引文献55

1于江德,周宏宇,余正涛.基于单个词语特征模板的汉语词性标注[J].山西大学学报（自然科学版）,2011,34(4):513-517. 被引量：1
2周顺先,林亚平,王耀南,易叶青.基于二阶隐马尔可夫模型的文本信息抽取[J].电子学报,2007,35(11):2226-2231. 被引量：25
3尚福华,于剑光,李建平.基于属性分组的条件随机域网络入侵检测模型[J].哈尔滨商业大学学报（自然科学版）,2009,25(3):321-326.
4王丽杰,车万翔,刘挺.基于SVMTool的中文词性标注[J].中文信息学报,2009,23(4):16-21. 被引量：17
5冀中,苏育挺,杨益铮.基于多模态信息融合的新闻独白镜头检测[J].计算机工程与应用,2009,45(25):173-175. 被引量：1
6邢富坤,宋柔,罗智勇.SSD模型及其在汉语词性标注中的应用[J].中文信息学报,2010,24(1):20-24. 被引量：4
7谷川,田喜平.基于条件随机场的汉语词性标注方法研究[J].安阳师范学院学报,2010(5):6-8.
8张硕果,汪成亮.结合CRFs的词典分词法[J].计算机系统应用,2010,19(11):115-118. 被引量：1
9周晶.基于条件随机域模型的中文实体关系抽取[J].计算机工程,2010,36(24):192-194. 被引量：2
10袁鼎荣,钟宁,张师超.文本信息处理研究述评[J].计算机科学,2011,38(2):9-13. 被引量：11

同被引文献11

1漆桂林,高桓,吴天星.知识图谱研究进展[J].情报工程,2017,3(1):4-25. 被引量：236
2周飞燕,金林鹏,董军.卷积神经网络研究综述[J].计算机学报,2017,40(6):1229-1251. 被引量：1773
3杨丽,吴雨茜,王俊丽,刘义理.循环神经网络研究综述[J].计算机应用,2018,38(A02):1-6. 被引量：410
4沈兰奔,武志昊,纪宇泽,林友芳,万怀宇.结合注意力机制与双向LSTM的中文事件检测方法[J].中文信息学报,2019,33(9):79-87. 被引量：11
5黄培馨,赵翔,方阳,朱慧明,肖卫东.融合对抗训练的端到端知识三元组联合抽取[J].计算机研究与发展,2019,56(12):2536-2548. 被引量：14
6王炳乾,宿绍勋,梁天新.基于BERT的多层标签指针网络事件抽取模型--2020语言与智能技术竞赛事件抽取任务系统报告[J].中文信息学报,2021,35(7):81-88. 被引量：11
7葛唯益,程思伟,王羽,徐建.基于双向门控循环神经网络的事件论元抽取方法[J].电子科技大学学报,2022,51(1):100-107. 被引量：9
8王士浩,王中卿,李寿山,周国栋.基于知识蒸馏与模型集成的事件论元抽取方法[J].计算机工程,2022,48(7):97-103. 被引量：1
9马春明,李秀红,李哲,王惠茹,杨丹.事件抽取综述[J].计算机应用,2022,42(10):2975-2989. 被引量：15
10陈敏,吴凡,李培峰,王中卿,朱巧明.基于阅读理解框架的中文事件论元抽取[J].中文信息学报,2022,36(10):107-115. 被引量：2

引证文献2

1乐杨,胡军国,李耀.基于RoBERTa和多层次特征的中文事件抽取方法[J].电子技术应用,2023,49(11):49-54.
2廖涛,沈文龙,张顺香,马文祥.基于对抗训练的事件要素识别方法[J].计算机工程与设计,2024,45(2):540-545.

1张聪聪,都云程,张仰森.事件抽取研究综述[J].计算机技术与发展,2023,33(1):7-13. 被引量：1
2彩虹.论元诗“宗唐得古”思想的形成、发展及价值[J].美化生活,2023(2):118-120.
3杨昊,赵刚,王兴芬.基于混合模型的事件触发词抽取[J].计算机工程与科学,2023,45(1):171-180. 被引量：1
4寇鑫.外壳名词的预设类型及其语用功能研究[J].世界汉语教学,2023,37(1):57-70. 被引量：5
5许山山,史涯晴.基于Bi-LSTM+CRF模型的航母情报实体识别方法应用[J].计算机时代,2023(1):30-34.
6于水.论元杂剧中的莽汉形象——以《李逵负荆》与《鲁智深喜赏黄花裕》为例[J].名作欣赏（学术版）（下旬）,2023(1):22-24.
7《电化教育研究》英文摘要写作要求[J].电化教育研究,2022,43(12):77-77.
8赵建强,朱万彤,陈诚.基于多重卷积神经网络模型的命名实体识别[J].计算机技术与发展,2023,33(1):187-192. 被引量：2
9罗兴贵,杨世恒.滇东北次方言苗语?au31字被动句研究[J].百色学院学报,2022,35(6):38-50.
10张大波,郭怀新,储著伟,王博欣.基于多分类BiLSTM-CRF的电网启动方案结构化数据转换模型研究[J].电力信息与通信技术,2023,21(1):54-61. 被引量：2

中文信息学报

2022年第12期

浏览历史

内容加载中请稍等...

基于BERT改进的文化活动事件论元抽取研究被引量：2

参考文献1

二级参考文献7

共引文献55

同被引文献11

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于BERT改进的文化活动事件论元抽取研究 被引量：2

参考文献1

二级参考文献7

共引文献55

同被引文献11

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于BERT改进的文化活动事件论元抽取研究被引量：2