期刊文献+

基于BERT改进的文化活动事件论元抽取研究 被引量:2

An Improved Argument Extraction Method for Cultural Events Based on BERT
下载PDF
导出
摘要 目前对于事件抽取的研究主要还在使用ACE 2005的小规模开放域事件文本语料,而对事件抽取文本语料的标注需要大量专家经验和人力,昂贵且低效,事件抽取相关的语料类型较少,规模较少,不利于深度学习的应用。为解决这个问题,该文提出一种半监督的领域事件论元抽取方法,对源自全国各地图书馆官网的文化活动语料使用模板和领域字典匹配的方法进行自动标注,然后通过人工验证确保标注准确性,利用序列标注的方法进行事件论元抽取,并针对传统BiLSTM-CRF模型的词嵌入层无法解决一词多义的问题,提出在词嵌入层采用BERT模型和基于字位置信息的词向量扩展方法的改进。实验证明,该方法在事件论元抽取上F 1值达到84.9%,优于传统的事件论元识别方法。 Event extraction methods usually use the small-scale open-domain event extraction corpus of ACE 2005,which is difficult for applying deep learning.A semi-supervised domain event argument extraction method is proposed to automatically annotate cultural event corpus from official websites of Chinese public libraries by using template and domain dictionary.Then manual annotation is applied to ensure the label accuracy.To resolve the problem of polysemy in word embedding layer,an improved method using BERT model and positional character embedding layer is proposed for the BiLSTM-CRF model.Experiments demonstrate an F 1 value of 84.9%for the proposed method of event argument extraction,which is superior to the classical event argument recognition methods.
作者 蔺志 李原 王庆林 LIN Zhi;LI Yuan;WANG Qinglin(School of Automation,Beijing Institute of Technology,Beijing 100081,China)
出处 《中文信息学报》 CSCD 北大核心 2022年第12期115-122,共8页 Journal of Chinese Information Processing
基金 国家自然科学基金(61472037)。
关键词 自然语言处理 事件抽取 论元抽取 预训练模型 深度学习 NLP event extraction argument extraction pre-trained model deep learning
  • 相关文献

参考文献1

二级参考文献7

  • 1Lafferty J,McCallum A,Pereira F.Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data.In:Proceedings of the 18th International Conf on machine Learning,2001.282~289
  • 2Sha F,Pereira F.Shallow Parsing with Conditional Random Fields.In:Proceedings of Human Language Technology Conference and North American Chapter of the Association for Computational Linguistics (HLT-NAACL),2003
  • 3现代汉语语料库加工规范-词语切分与词性标注.北京大学计算语言学研究所,1999
  • 4Bai Shuanhu.An Integrated Model of Chinese Word Segmentation and Part-of Speech Tagging.In:Advanced and Applications on Computational Linguistics,Third National Computational Linguistics Meeting,Shanghai.Nov.1995.56~61
  • 5Bai S H,Xia,Y,Huang C N.Automatic Part-of-Speech Tagging System of Chinese:[Technical Report].Beijing:Tsinghua University,1992
  • 6白栓虎.基于统计的汉语词性自动标注方法[J].语文建设,1994(10):38-40. 被引量:2
  • 7周明,吴进,黄昌宁.用于词性标注的一种快速学习算法──对Brill的基于变换算法的一项改进[J].计算机学报,1998,21(4):357-366. 被引量:8

共引文献55

同被引文献11

引证文献2

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部