摘要
训练数据的缺乏是目前命名实体识别存在的一个典型问题。实体触发器可以提高模型的成本效益,但这种触发器需要大量的人工标注,并且只适用于英文文本,缺少对其他语言的研究。为了解决现有TMN模型实体触发器高成本和适用局限性的问题,提出了一种新的触发器自动标注方法及其标注模型GLDM-TMN。该模型不仅能够免去人工标注,而且引入了Mogrifier LSTM结构、Dice损失函数及多种注意力机制增强触发器匹配准确率及实体标注准确率。在两个公开数据集上的仿真实验表明:与TMN模型相比,在相同的训练数据下,GLDM-TMN模型的F_(1)值在Resume NER数据集和Weibo NER数据集上分别超出TMN模型0.0133和0.034。同时,该模型仅使用20%训练数据比例的性能就可以优于使用40%训练数据比例的BiLSTM-CRF模型性能。
The lack of training data is a typical problem of named entity recognition today.To apply TMN model that requiring labelled triggers in Chinese,a new automatic annotation method GLDM-TMN is proposed.This method introduces Mogrifier LSTM structure,Dice loss function and various attention mechanisms to enhance the accuracy of trigger matching and entity annotation.Simulated experiments on two publicly available datasets show that GLDM-TMN has better improved the F_(1)value by 0.0133to 0.034than TMN model with the same small amount of labeled data.Meanwhile,the proposed method with 20%of training data outperforms BiLSTM-CRF model with 40%of training data.
作者
张昀
黄橙
张玉瑶
黄经纬
张宇德
黄丽亚
刘艳
丁可柯
王秀梅
ZHANG Yun;HUANG Cheng;ZHANG Yuyao;HUANG Jingwei;ZHANG Yude;HUANG Liya;LIU Yan;DING Keke;WANG Xiumei(College of Electronic and Optical Engineering&College of Flexible Electronics(Future Technology),Nanjing University of Posts and Telecommunications,Nanjing,Jiangsu 210046,China)
出处
《中文信息学报》
CSCD
北大核心
2023年第3期101-111,共11页
Journal of Chinese Information Processing
基金
国家自然科学基金(61977039)