面向少量标注数据的中文命名实体识别被引量：2

Chinese Named Entity Recognition with few Labeled Data

下载PDF

导出

摘要训练数据的缺乏是目前命名实体识别存在的一个典型问题。实体触发器可以提高模型的成本效益,但这种触发器需要大量的人工标注,并且只适用于英文文本,缺少对其他语言的研究。为了解决现有TMN模型实体触发器高成本和适用局限性的问题,提出了一种新的触发器自动标注方法及其标注模型GLDM-TMN。该模型不仅能够免去人工标注,而且引入了Mogrifier LSTM结构、Dice损失函数及多种注意力机制增强触发器匹配准确率及实体标注准确率。在两个公开数据集上的仿真实验表明:与TMN模型相比,在相同的训练数据下,GLDM-TMN模型的F_(1)值在Resume NER数据集和Weibo NER数据集上分别超出TMN模型0.0133和0.034。同时,该模型仅使用20%训练数据比例的性能就可以优于使用40%训练数据比例的BiLSTM-CRF模型性能。 The lack of training data is a typical problem of named entity recognition today.To apply TMN model that requiring labelled triggers in Chinese,a new automatic annotation method GLDM-TMN is proposed.This method introduces Mogrifier LSTM structure,Dice loss function and various attention mechanisms to enhance the accuracy of trigger matching and entity annotation.Simulated experiments on two publicly available datasets show that GLDM-TMN has better improved the F_(1)value by 0.0133to 0.034than TMN model with the same small amount of labeled data.Meanwhile,the proposed method with 20%of training data outperforms BiLSTM-CRF model with 40%of training data.

作者张昀黄橙张玉瑶黄经纬张宇德黄丽亚刘艳丁可柯王秀梅 ZHANG Yun;HUANG Cheng;ZHANG Yuyao;HUANG Jingwei;ZHANG Yude;HUANG Liya;LIU Yan;DING Keke;WANG Xiumei(College of Electronic and Optical Engineering&College of Flexible Electronics(Future Technology),Nanjing University of Posts and Telecommunications,Nanjing,Jiangsu 210046,China)

机构地区南京邮电大学电子与光学工程学院&柔性电子(未来技术)学院

出处《中文信息学报》 CSCD 北大核心 2023年第3期101-111,共11页 Journal of Chinese Information Processing

基金国家自然科学基金(61977039)

关键词中文命名实体识别实体触发器 Mogrifier LSTM结构联合损失函数注意力机制 Chinese NER entity triggers mogrifier LSTM structure dice loss function attentional mechanism

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献11

1高甦,金佩,张德政.基于深度学习的中医典籍命名实体识别研究[J].情报工程,2019,5(1):113-123. 被引量：29
2王远志,曹子莹.Bert-BLSTM-CRF模型的中文命名实体识别[J].安庆师范大学学报（自然科学版）,2021,27(1):59-65. 被引量：8
3胡为,刘伟,石玉敬.基于BERT-BiLSTM-CRF的中医医案命名实体识别方法[J].计算机时代,2022(9):119-122. 被引量：8
4吴智妍,金卫,岳路,生慧.电子病历命名实体识别技术研究综述[J].计算机工程与应用,2022,58(21):13-29. 被引量：8
5石玉敬,刘伟,葛晓舒,胡为,刘弋莲,易洋.《黄帝内经》文本语料库的构建与应用研究[J].计算机时代,2022(12):1-3. 被引量：2
6王江鹏.基于深度学习的自然语言处理技术发展分析[J].中国安防,2022(12):40-43. 被引量：5
7陶雨彤,陈云筝,邵兰仪,刘晓峰,翟双庆,王维广.中医药知识图谱的构建与应用探讨[J].北京中医药,2022,41(12):1387-1392. 被引量：6
8蒋川宇,韩翔宇,杨文蕊,吕博涵,黄小欧,谢夏,谷阳.医学知识图谱研究与应用综述[J].计算机科学,2023,50(3):83-93. 被引量：8
9陈娜,孙艳秋,燕燕.结合注意力机制的BERT-BiGRU-CRF中文电子病历命名实体识别[J].小型微型计算机系统,2023,44(8):1680-1685. 被引量：7
10Xuehong Wu,Junwen Duan,Yi Pan,Min Li.Medical Knowledge Graph:Data Sources,Construction,Reasoning,and Applications[J].Big Data Mining and Analytics,2023,6(2):201-217. 被引量：6

引证文献2

1王海鹏,杜方,宋丽娟,李婷.融合单词级段信息的中文医疗命名实体识别[J].计算机技术与发展,2024,34(6):110-117.
2宋熹玥,冯鑫雅,胡为,刘伟.基于深度学习的《脉经》中医术语命名实体识别研究[J].中医药信息,2024,41(7):1-6.

1肖桂阳,王立松,江国华.一种文本-图像增强的多模态知识图谱嵌入方法[J].计算机科学,2023,50(8):163-169. 被引量：2
2李明键,李卫军,王海荣.融合关联信息与CNN的实体识别研究[J].郑州大学学报（理学版）,2023,55(5):53-59.
3杨长沛,廖列法.基于门控空洞卷积特征融合的中文命名实体识别[J].计算机工程,2023,49(8):85-95. 被引量：5
4Abdalla Alameen.Smart Lung Tumor Prediction Using Dual Graph Convolutional Neural Network[J].Intelligent Automation & Soft Computing,2023(4):369-383. 被引量：1
5杨润天.3D打印技术制作高质量模型的研究[J].产业创新研究,2023(14):105-107. 被引量：1

中文信息学报

2023年第3期

浏览历史

内容加载中请稍等...

面向少量标注数据的中文命名实体识别被引量：2

同被引文献11

引证文献2

相关作者

相关机构

相关主题

浏览历史

面向少量标注数据的中文命名实体识别 被引量：2

同被引文献11

引证文献2

相关作者

相关机构

相关主题

浏览历史

面向少量标注数据的中文命名实体识别被引量：2