摘要
目前对于事件抽取的研究主要还在使用ACE 2005的小规模开放域事件文本语料,而对事件抽取文本语料的标注需要大量专家经验和人力,昂贵且低效,事件抽取相关的语料类型较少,规模较少,不利于深度学习的应用。为解决这个问题,该文提出一种半监督的领域事件论元抽取方法,对源自全国各地图书馆官网的文化活动语料使用模板和领域字典匹配的方法进行自动标注,然后通过人工验证确保标注准确性,利用序列标注的方法进行事件论元抽取,并针对传统BiLSTM-CRF模型的词嵌入层无法解决一词多义的问题,提出在词嵌入层采用BERT模型和基于字位置信息的词向量扩展方法的改进。实验证明,该方法在事件论元抽取上F 1值达到84.9%,优于传统的事件论元识别方法。
Event extraction methods usually use the small-scale open-domain event extraction corpus of ACE 2005,which is difficult for applying deep learning.A semi-supervised domain event argument extraction method is proposed to automatically annotate cultural event corpus from official websites of Chinese public libraries by using template and domain dictionary.Then manual annotation is applied to ensure the label accuracy.To resolve the problem of polysemy in word embedding layer,an improved method using BERT model and positional character embedding layer is proposed for the BiLSTM-CRF model.Experiments demonstrate an F 1 value of 84.9%for the proposed method of event argument extraction,which is superior to the classical event argument recognition methods.
作者
蔺志
李原
王庆林
LIN Zhi;LI Yuan;WANG Qinglin(School of Automation,Beijing Institute of Technology,Beijing 100081,China)
出处
《中文信息学报》
CSCD
北大核心
2022年第12期115-122,共8页
Journal of Chinese Information Processing
基金
国家自然科学基金(61472037)。