多准则融合的中文命名实体识别方法被引量：4

Chinese named entity recognition based on multi-criteria fusion

下载PDF

导出

摘要为提高中文命名实体识别任务的识别率,提出了一种多准则融合模型.采用基于字的BERT语言模型作为语言信息特征提取层,将其接入多准则共享连接层和条件随机场(CRF)层,得到融合模型.建立大规模中文混合语料库,优化模型参数,使用单GPU设备完成BERT语言模型的预训练.将融合模型在MSRA-NER和RMRB-98-1实体标注集上进行独立训练和混合训练,得到各语料库独立的单准则中文命名实体识别模型和多准则融合中文命名实体识别模型.结果表明,多准则融合中文命名实体识别模型能够挖掘语料库间的共有信息,提高中文命名实体的识别率,MSRA-NER和RMRB-98-1实体标注集上的F1值分别为94.46%和94.32%,优于其他现有模型. To improve the recognition rate of Chinese named entity recognition tasks,a multi-criteria fusion model was proposed.The word-based BERT(bidirectional encoder representations from transformers)language model was used as the language information feature extraction layer,and connected to the multi-criteria shared connection layer and the conditional random field(CRF)layer to obtain the fusion model.Then,a large-scale Chinese mixed corpus was established and the model parameters were optimized.A single GPU(graphics processing unit)device was used to complete the pre-training of the BERT language model.Independent and hybrid training of the fusion model on MSRA-NER and RMRB-98-1 entity annotation sets were carried out to obtain the independent single-criteria Chinese named entity recognition model and the multi-criteria fusion Chinese named entity recognition model for each corpus.The results show that the multi-criteria fusion Chinese named entity recognition model can mine common information between corpora and improve the recognition rate of Chinese named entities.The F1 values on MSRA-NER and RMRB-98-1 entity tagging sets are 94.46%and 94.32%,respectively,which are better than those of other models.

作者蔡庆 Cai Qing(Jiangsu Institute of Automation, Lianyungang 222061, China)

机构地区江苏自动化研究所

出处《东南大学学报（自然科学版）》 EI CAS CSCD 北大核心 2020年第5期929-934,共6页 Journal of Southeast University：Natural Science Edition

基金 “十三五”装备预研共用技术和领域基金资助项目(41412030902).

关键词命名实体识别 BERT 条件随机场多准则学习 named entity recognition bidirectional encoder representations from transformers(BERT) conditional random field(CRF) multi-criteria learning

分类号 TP391 [自动化与计算机技术—计算机应用技术] TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1冯蕴天,张宏军,郝文宁,陈刚.基于深度信念网络的命名实体识别[J].计算机科学,2016,43(4):224-230. 被引量：14
2杨飘,董文永.基于BERT嵌入的中文命名实体识别方法[J].计算机工程,2020,46(4):40-45. 被引量：102

二级参考文献24

1Tjong K,Sang E F,De Meulder F.Introduction to the CoNLL-2003 shared task:Language-independent named entity recognition[C]∥Proceedings of the Seventh Conference on Natural Language Learning at HLT-NAACL 2003-Volume 4.Association for Computational Linguistics,2003:142-147.
2McCallum A,Li W.Early results for named entity recognitionwith conditional random fields,feature induction and web-enhanced lexicons[C]∥Proceedings of the Seventh Conference on Natural Language Learning at HLT-NAACL 2003-Volume 4.Association for Computational Linguistics,2003:188-191.
3Wang Zhi-qiang.Research on Chinese named entity recognition based on conditional random fields[D].Nanjing:Nanjing University of Science and Technology,2006(in Chinese).
4Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural networks[J].Science,2006,313(5786):504-507.
5Hinton G,Osindero S,Teh Y W.A fast learning algorithm for deep belief nets[J].Neural Computation,2006,18(7):1527-1554.
6Nadeau D,Sekine S.A survey of named entity recognition and classification[J].Lingvisticae Investigationes,2007,30(1):3-26.
7Hinton G E.Learning distributed representations of concepts[C]∥Proceedings of the Eighth Annual Conference of the Cognitive Science Cociety.1986,1:12.
8Wang M,Manning C D.Effect of non-linear deep architecture in sequence labeling[C]∥Proceedings of the 6th International Joint Conference on Natural Language Processing (IJCNLP).2013.
9Mansur M,Pei W,Chang B.Feature-based Neural LanguageModel and Chinese Word Segmentation[C]∥ International Joint Conference on Natural Language Processing.2013:1271-1277.
10Bengio Y,Ducharme R,Vincent P,et al.A neural probabilistic language model[J].The Journal of Machine Learning Research,2003,3:1137-1155.

共引文献114

1屈丹丹,杨涛,朱垚,胡孔法.基于字向量的BiGRU-CRF肺癌医案四诊信息实体抽取研究[J].世界科学技术-中医药现代化,2021,23(9):3118-3125. 被引量：6
2步一,薛睿,孟凡,黄文彬.知识图谱的关键技术及其在情报学中的应用[J].情报学进展,2022(1):349-384. 被引量：1
3陆晓蕾,倪斌.基于预训练语言模型的BERT-CNN多层级专利分类研究[J].中文信息学报,2021,35(11):70-79. 被引量：19
4程宁,李斌,葛四嘉,郝星月,冯敏萱.基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究[J].中文信息学报,2020(4):1-9. 被引量：21
5王德文,雷倩.基于贝叶斯正则化深度信念网络的电力变压器故障诊断方法[J].电力自动化设备,2018,38(5):129-135. 被引量：47
6王东波,胡昊天,周鑫,朱丹浩.基于深度学习的数据科学招聘实体自动抽取及分析研究[J].图书情报工作,2018,62(13):64-73. 被引量：15
7高强,王明.深度信念网络的等效模型及权值扩展算法研究[J].电测与仪表,2017,54(23):54-59.
8买合木提.买买提,王路路,吐尔根.依布拉音,艾山.吾买尔,卡哈尔江.阿比的热西提.基于条件随机场的维吾尔文机构名识别[J].计算机工程与设计,2019,40(1):273-278. 被引量：5
9殷章志,李欣子,黄德根,李玖一.融合字词模型的中文命名实体识别研究[J].中文信息学报,2019,33(11):95-100. 被引量：41
10曹春萍,关鹏举.基于E-CNN和BLSTM-CRF的临床文本命名实体识别[J].计算机应用研究,2019,36(12):3748-3751. 被引量：16

同被引文献45

1孔锋.我国城市暴雨内涝灾害风险综合治理初探[J].中国减灾,2021,31(17):23-27. 被引量：10
2李春楠,王雷,孙媛媛,林鸿飞.基于BERT的盗窃罪法律文书命名实体识别方法[J].中文信息学报,2021,35(8):73-81. 被引量：19
3王蓬辉,李明正,李思.基于数据增强的中文医疗命名实体识别[J].北京邮电大学学报,2020,43(5):84-90. 被引量：12
4闫萍.基于规则和概率统计相结合的中文命名实体识别研究[J].计算机与数字工程,2011,39(9):88-91. 被引量：11
5潘正高.基于规则和统计相结合的中文命名实体识别研究[J].情报科学,2012,30(5):708-712. 被引量：29
6霍娜,吕国英.基于规则匹配的灾难性追踪事件信息抽取的研究[J].电脑开发与应用,2012,25(6):7-9. 被引量：6
7冯蕴天,张宏军,郝文宁.面向军事文本的命名实体识别[J].计算机科学,2015,42(7):15-18. 被引量：50
8杨培,杨志豪,罗凌,林鸿飞,王健.基于注意机制的化学药物命名实体识别[J].计算机研究与发展,2018,55(7):1548-1556. 被引量：41
9刘淑涵,王艳东,付小康.利用卷积神经网络提取微博中的暴雨灾害信息[J].地球信息科学学报,2019,21(7):1009-1017. 被引量：12
10张晗,郭渊博,李涛.结合GAN与BiLSTM-Attention-CRF的领域命名实体识别[J].计算机研究与发展,2019,56(9):1851-1858. 被引量：31

引证文献4

1方美丽,郑莹莹,陶坤旺,赵习枝,仇阿根,陆文.基于MacBERT和对抗训练的城市内涝信息识别方法[J].集成技术,2023,12(1):56-67. 被引量：2
2王颖洁,张程烨,白凤波,汪祖民,季长清.中文命名实体识别研究综述[J].计算机科学与探索,2023,17(2):324-341. 被引量：23
3戎纪光,任志国,李书强.一种融入领域知识的领域短文本命名实体识别方法[J].指挥控制与仿真,2024,46(3):123-129.
4杨旭,梁志剑.基于多特征融合嵌入与DCNN的临床命名实体识别模型研究[J].中北大学学报（自然科学版）,2024,45(3):265-273.

二级引证文献25

1杨雷,韦韩,龚尚文,赵莺菲.基于LSTM的桥梁养护文本数据的命名实体识别方法[J].公路交通科技,2023,40(S02):187-192.
2樊建平,须成忠,沈鸿,尹凌.序言:政务大数据管理与智能服务[J].集成技术,2023,12(1):1-3.
3胡叮叮,张琛,王之原.基于预训练模型的命名实体识别研究[J].现代信息科技,2023,7(15):78-82. 被引量：1
4乐书豪.基于注意力阅读理解式的中文命名实体识别模型[J].信息与电脑,2023,35(10):16-18.
5杨盈,邱芹军,谢忠,田苗,郑诗语,郑帅.人在回路学习增强的地理命名实体识别[J].测绘通报,2023(8):155-160. 被引量：4
6丁浩,孔令圆,刘清,胡广伟.融合多重特征词嵌入的农业实体命名识别研究[J].现代情报,2023,43(11):135-145.
7刘志豪,金相国,邱芹军,陶留锋,黄振,谢忠.顾及中文汉字多特征的矿产资源实体识别[J].地质科学,2023,58(4):1535-1553. 被引量：3
8李莉,奚雪峰,盛胜利,崔志明,徐家保.深度学习中文命名实体识别研究进展[J].计算机工程与应用,2023,59(24):46-69. 被引量：3
9汪琳,王昊,李晓敏,邓三鸿.融合学习扩展的非遗陶瓷工艺领域术语库构建及应用[J].图书馆论坛,2024,44(2):66-78. 被引量：4
10李超,侯霞,乔秀明.融合知识的文博领域低资源命名实体识别方法研究[J].北京大学学报（自然科学版）,2024,60(1):13-22.

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
2蒋忆睿,裴洋,陈磊,王文乐,代江艳,易玉根.多局部约束自表示的谱聚类算法[J].计算机工程与应用,2020,56(11):172-178. 被引量：1
3罗彬珅,刘利民,董健,刘璟麒.基于多准则融合的雷达干扰源个体特征选择[J].电光与控制,2020,27(5):19-24. 被引量：2
4曹凤.声乐教学中的真假声混合训练方法分析[J].时代教育（下旬）,2020(10):0183-0183.
5郭丽,余方林,赵锋,张悦,朱荫,戴伟东,董春旺,林智.颗粒形绿茶的物理特性与外形品质关联性[J].食品科学,2020,41(19):25-30. 被引量：4

东南大学学报（自然科学版）

2020年第5期

浏览历史

内容加载中请稍等...

多准则融合的中文命名实体识别方法被引量：4

参考文献2

二级参考文献24

共引文献114

同被引文献45

引证文献4

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

多准则融合的中文命名实体识别方法 被引量：4

参考文献2

二级参考文献24

共引文献114

同被引文献45

引证文献4

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

多准则融合的中文命名实体识别方法被引量：4