政府公文领域细粒度命名实体识别的实用化研究与设计被引量：3

Research on fine-grained named entity recognition in government documents based on deep active learning

下载PDF

导出

摘要命名实体识别是自然语言处理中重要而基础的任务。中国政府公文是一类影响深远的数据资源,其中蕴含的命名实体也与通用领域的实体有所不同。深度学习为这一特定领域的实体识别提供了技术支持,但是它们都需要大规模、高成本的标注语料,而且大都止于粗粒度的识别。本文重新界定了信息处理用公文实体的类别,做了细粒度的语料标注。然后分别使用主动学习和远程监督方法优化了实体识别模型。实验证明此方法识别的公文实体不仅粒度更细,识别F1值在87%以上,而且降低了语料需求,减小了约60%的语料标注工作量。 Named entity recognition is an important and fundamental task in natural language processing.Chinese government documents are profound data resource,and the named entities are also different from those in the general field.Deep learning techniques provide support for entity recognition in this particular field,but most of them are coarse-grained recognition,which all need masses of data and labor costs.In order to address the problems,this study redefines the entities and labels fined-grained official documents for information processing.Then we use active learning and distant supervision methods to optimize the entity recognition model.The test shows that the granularity of identified entities is finer,the F1 score is above 87%,and the workload of corpus labeling is reduced by 60%.

作者俞敬松吴聪曹喜信 YU Jingsong;WU Cong;CAO Xixin(School of Software&Microelectronics,Peking University,Beijing 100871,China)

机构地区北京大学软件与微电子学院

出处《微纳电子与智能制造》 2020年第3期23-29,共7页 Micro/nano Electronics and Intelligent Manufacturing

基金类脑视觉处理技术基金(YBN2018085207)项目资助。

关键词命名实体识别主动学习预训练语言模型政府公文远程监督 named entity recognition active learning pre-trained language models government documents distant supervision

分类号 TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献1

1刘哲宁,朱聪慧,郑德权,赵铁军.面向特定标注数据稀缺领域的命名实体识别[J].指挥信息系统与技术,2019,10(5):14-18. 被引量：5

二级参考文献5

1刘峤,李杨,段宏,刘瑶,秦志光.知识图谱构建技术综述[J].计算机研究与发展,2016,53(3):582-600. 被引量：956
2曾帅,王帅,袁勇,倪晓春,欧阳永基.面向知识自动化的自动问答研究进展[J].自动化学报,2017,43(9):1491-1508. 被引量：17
3王政,朱礼军,徐硕.实体关系的弱监督学习抽取方法[J].中国科技资源导刊,2018,50(2):103-110. 被引量：1
4刘浏,王东波.命名实体识别研究综述[J].情报学报,2018,37(3):329-340. 被引量：149
5鄂海红,张文静,肖思琪,程瑞,胡莺夕,周筱松,牛佩晴.深度学习实体关系抽取研究综述[J].软件学报,2019,30(6):1793-1818. 被引量：164

共引文献4

1李代祎,盛杰,刘运星,马宗民.基于知识图谱的军事武器问答系统[J].指挥信息系统与技术,2020,11(5):58-65. 被引量：11
2米启超,赵红梅,林丽萍.基于多通道卷积神经网络的非结构化数据标注[J].计算机仿真,2021,38(6):400-404. 被引量：1
3陈孟孟,蒋照宇,梁栋,陈佳林,方酉.军事舆情智能标注系统的设计与实现[J].工业控制计算机,2023,36(4):125-128.
4潘俊,李萌配,王贤明.应用深度学习的中文命名实体识别研究综述[J].数字图书馆论坛,2023,19(5):1-9. 被引量：2

同被引文献38

1陈美杉,夏晨曦.肝癌患者在线提问的命名实体识别研究:一种基于迁移学习的方法[J].数据分析与知识发现,2019,3(12):61-69. 被引量：15
2李思良,许斌,杨玉基.DRTE:面向基础教育的术语抽取方法[J].中文信息学报,2018,32(3):101-109. 被引量：10
3买买提阿依甫,吾守尔.斯拉木,帕丽旦.木合塔尔,杨文忠.基于BiLSTM-CNN-CRF模型的维吾尔文命名实体识别[J].计算机工程,2018,44(8):230-236. 被引量：23
4赵洪,王芳.理论术语抽取的深度学习模型及自训练算法研究[J].情报学报,2018,37(9):923-938. 被引量：41
5范书成.基于RFID的实验室设备自助借还云平台设计[J].信息与电脑,2019,31(23):57-58. 被引量：4
6董兵,余彦霏,张旭东,赵东升,庄文格.无源RFID技术在通信机房机柜设备识别中的应用[J].广东通信技术,2019,39(11):56-60. 被引量：1
7吴耀东,吴迪.基于RFID的高校实验设备管理系统的研究[J].电子制作,2020,28(3):111-112. 被引量：4
8吴维德,顾天琪,苗长胜,龙海莲,鲁恩,罗银康.基于能量优化的射频识别标签防碰撞算法研究[J].计算机测量与控制,2020,28(3):218-221. 被引量：6
9吴钟桁.基于电子标签的实验室设备仪器管理系统设计[J].广东科技,2020,29(4):64-65. 被引量：3
10吴俊,程垚,郝瀚,艾力亚尔·艾则孜,刘菲雪,苏亦坡.基于BERT嵌入BiLSTM-CRF模型的中文专业术语抽取研究[J].情报学报,2020,39(4):409-418. 被引量：55

引证文献3

1何涵,陈欢,郑雨宁,赖丽燕.基于WAPI技术的智能仪器设备标签远程识别研究[J].自动化与仪器仪表,2022(3):239-242. 被引量：3
2吕学强,杨雨婷,肖刚,李育贤,游新冬.稀疏样本下长术语的抽取方法[J].数据分析与知识发现,2024,8(1):135-145.
3赵小丹,胡林.基于深度学习的农业科技政策知识抽取方法研究[J].数据与计算发展前沿（中英文）,2024,6(4):106-115.

二级引证文献3

1谢琼香,陈赟,张利军,王停娟.电力全业务场景匹配的WAPI终端通信模块设计[J].科技与创新,2023(19):25-27.
2杨康萍,王隆,李仲斌,杨晨.基于WAPI技术的智能电网终端通信模式研究[J].科技与创新,2023(21):38-40.
3李俊宇,邱桂尧,朱志俊,胡梦霖,杨青石.电力系统信息化中WAPI安全网络设计[J].科技与创新,2024(13):101-103.

1胡佳慧,赵琬清,方安,范云满.基于主动学习的中文电子病历命名实体识别研究[J].中国数字医学,2020,15(11):6-9. 被引量：1
2孙国梓,吕建伟,李华康.基于编辑距离的多实体可信确认算法[J].计算机科学,2020,47(12):327-331. 被引量：2
3豆格才让.谈谈拓展语言研究视野的必要性——论学习NLP的必要性及研究方法[J].小说月刊（下半月）,2020(12):0289-0290.
4张志昌,曾扬扬,庞雅丽.融合语义角色和自注意力机制的中文文本蕴含识别[J].电子学报,2020,48(11):2162-2169. 被引量：9
5沈宙锋,苏前敏,朱城.基于条件随机场模型的制造企业实体识别方法研究[J].制造业自动化,2020,42(12):147-151. 被引量：1
6韩佳.给排水工程各阶段造价控制研究[J].建材与装饰,2020(35):166-167.
7陶玥,余丽,张润杰.科技文献中短语级主题抽取的主动学习方法研究[J].数据分析与知识发现,2020,4(10):134-143. 被引量：5
8张妍,李娟,齐丽荣,何洪敏.利用生物信息学分析方法识别子宫颈癌患者预后相关长链非编码RNA[J].临床与实验病理学杂志,2020,36(10):1222-1226. 被引量：4
9赵汝英,张小飞,郑珞琳.基于TOPSIS的电力通信网关键节点识别方法研究[J].电工技术,2020(22):92-94. 被引量：3
10杨本芊,徐琳,陈强.基于图像的空气质量等级检测[J].自动化学报,2020,46(11):2404-2416. 被引量：2

微纳电子与智能制造

2020年第3期

浏览历史

内容加载中请稍等...

政府公文领域细粒度命名实体识别的实用化研究与设计被引量：3

参考文献1

二级参考文献5

共引文献4

同被引文献38

引证文献3

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

政府公文领域细粒度命名实体识别的实用化研究与设计 被引量：3

参考文献1

二级参考文献5

共引文献4

同被引文献38

引证文献3

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

政府公文领域细粒度命名实体识别的实用化研究与设计被引量：3