基于领域适应嵌入的军事命名实体识别被引量：2

Name Entity Recognition for Military Based on Domain Adaptive Embedding

下载PDF

导出

摘要为了解决单一军事领域语料不足导致的领域嵌入空间质量欠佳,使得深度学习神经网络模型识别军事命名实体精度较低的问题,文中从字词分布式表示入手,通过领域自适应方法由额外的领域引入更多有用信息帮助学习军事领域的嵌入。首先建立领域词典,将其与CRF算法结合,对收集到的通用领域语料和军事领域语料进行领域自适应分词,作为嵌入训练语料,并将词向量作为特征与字向量拼接,以丰富嵌入信息并验证分词效果;然后对训练所得的通用领域和军事领域的异构嵌入空间进行领域自适应转换,生成领域自适应嵌入,并作为基础模型BiLSTM-CRF层的输入;最后通过CoNLL-2000进行识别评价。实验结果表明,在相同模型下,输入领域适应嵌入比输入一般分词后的语料训练所得的军事领域嵌入,其模型识别的精确率(P)、召回率(R)、综合F1值(F1)分别提高了2.17%,1.04%,1.59%。 In order to solve the poor quality problem of domain embedding space caused by inadequate military corpus which makes low accuracy of applying deep neural network model to military named entity recognition,this paper introduces a domain adaptive method to help learn the embedding of military fields from more useful information of additional fields through distributed representation of words.First,we establish the domain dictionary and combine CRF algorithm to perform domain adaptive word segment with the collected general domain and military areas corpus as training corpus for embedding,and word vectors are used as features and spliced with character vectors to enrich the embedding information and to validate the effect of word segmentation.Then the domain adaptive transformation is carried out to the heterogeneous embedded space of the general domain and the military domain,and the domain adaptive embedding is generated,as the input to BiLSTM-CRF layer of base model.At last,the recognition evaluation is carried out through CoNLL-2000.The experimental results show that,under the same model,the recognition precision rate(P),recall rate(R),and integrated F1value(F1)of the proposed method are improved by 2.17%,1.04%,and 1.59%,respectively,compared with the military field embedding trained by a corpus which is obtained from general word segmentation.

作者刘凯张宏军陈飞琼 LIU Kai;ZHANG Hong-jun;CHEN Fei-qiong(School of Graduate,Army Engineering University of PLA,Nanjing 210000,China;College of Command and Control Engineering,Army Engineering University of PLA,Nanjing 210000,China)

机构地区陆军工程大学研究生院陆军工程大学指挥控制工程学院

出处《计算机科学》 CSCD 北大核心 2022年第1期292-297,共6页 Computer Science

关键词字向量词向量中文分词领域自适应命名实体识别 Character embedding Word embedding Chinese word segmentation Domain adaptation Named entity recognition

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1徐凯,王崎,李振彰,康培培,谢峰,刘文印.基于结合多头注意力机制BiGRU网络的生物医学命名实体识别[J].计算机应用与软件,2020,37(5):151-155. 被引量：8
2张栋,陈文亮.基于上下文相关字向量的中文命名实体识别[J].计算机科学,2021,48(3):233-238. 被引量：11
3姜文志,顾佼佼,胡文萱,王彦.基于多模型结合的军事命名实体识别[J].兵工自动化,2011,30(10):90-93. 被引量：11
4秦杰,曹雷,彭辉,赖俊.一种面向军事文本的领域特征词向量描述方法[J].计算机工程,2016,42(8):160-165. 被引量：7
5张晓海,操新文,高源.基于深度学习的作战文书命名实体识别[J].指挥控制与仿真,2019,41(4):22-26. 被引量：13
6单义栋,王衡军,黄河,闫倩.基于注意力机制的命名实体识别模型研究——以军事文本为例[J].计算机科学,2019,46(B06):111-114. 被引量：26
7张江.基于规则的分词方法[J].计算机与现代化,2005(4):18-20. 被引量：15
8张梅山,邓知龙,车万翔,刘挺.统计与词典相结合的领域自适应中文分词[J].中文信息学报,2012,26(2):8-12. 被引量：44
9李伟康,李炜,吴云芳.深度学习中汉语字向量和词向量结合方式探究[J].中文信息学报,2017,31(6):140-146. 被引量：16

二级参考文献47

1张海泉.武器家谱[J].当代军事文摘,2005(3):19-19. 被引量：1
2骆正清,陈增武,胡上序.一种改进的MM分词方法的算法设计[J].中文信息学报,1996,10(3):30-36. 被引量：28
3俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：157
4Charles Sutton, Andrew McCallum. An Introduction to Conditional Random Fields[M]. Foundations and Trends in Machine Learning, 2010.
5余军,陈晓鸥.命名实体识别:One-at-a-time or All-at-once? Word-based or Character-based?[C]//萧国政,何炎祥,孙茂松.中国计算技术与语言问题研究:第七届中丈信息处理国际会议论文集.北京:电子工业出版社.2007:81-89.
6CRF++: Yet another crf toolkit, http://crfpp.sourceforge.net/.
7Nianwen Xue.Chinese word segmentation as character tagging[J]. International Journal of Computational Linguistics and Chinese Language Processing,2003,8(1):29-48.
8Huihsin Tseng,Pichuan Chang,Galen Andrew,et al.A conditional random field word segmenter for sighan bakeoff 2005[C]//Proceedings of the fourth SIGHAN workshop.2005:168-171.
9Yue Zhang,Stephen Clark.Chinese segmentation with a word-based perceptron algorithm[C]//Proceedings of the 45th ACL.2007:840-847.
10Xu Sun,Yaozhong Zhang,Takuya Matsuzaki,et al.A discriminative latent variable chinese segmenter with hybrid word/character information[C]//Proceedings of NAACL.2009:56-64.

共引文献138

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
2李书琴,张明美,刘斌.融合字词语义信息的猕猴桃种植领域命名实体识别研究[J].农业机械学报,2022,53(12):323-331. 被引量：5
3才智杰,才让卓玛,孙茂松.一种多基元联合训练的藏文词向量表示方法[J].中文信息学报,2020(5):44-49. 被引量：4
4吴欢,应俊,王逸飞,胡华宇,徐洪丽,郑一琼.乳腺癌病理文本的结构化信息提取[J].解放军医学院学报,2020,41(7):746-751. 被引量：9
5顾佼佼,翟一琛,姬嗣愚,宗富强.基于BERT和知识蒸馏的航空维修领域命名实体识别[J].电子测量技术,2023,46(3):19-24. 被引量：3
6杨延云,杜建强,聂斌,罗计根,贺佳.融合数据增强和注意力机制的中医实体及关系联合抽取[J].智能计算机与应用,2023,13(8):186-191.
7唐坚,刘海燕.作战文书中部队番号的自动识别方法[J].兵器装备工程学报,2020,0(2):143-147. 被引量：1
8丁洁.基于Lucene的中文分词系统设计与实现[J].自动化与仪器仪表,2016(5):208-210. 被引量：5
9张培颖,李村合.基于知识库的交集型歧义字段切分系统[J].计算机系统应用,2006,15(8):42-43. 被引量：1
10高霄云,杨建林.基于规则的中文时间词和数词的自动识别算法[J].现代图书情报技术,2007(3):46-50. 被引量：2

同被引文献17

1李春楠,王雷,孙媛媛,林鸿飞.基于BERT的盗窃罪法律文书命名实体识别方法[J].中文信息学报,2021,35(8):73-81. 被引量：19
2张梅山,邓知龙,车万翔,刘挺.统计与词典相结合的领域自适应中文分词[J].中文信息学报,2012,26(2):8-12. 被引量：44
3王向前,张宝隆,李慧宗.本体研究综述[J].情报杂志,2016,35(6):163-170. 被引量：80
4岳丽欣,刘文云.国内外领域本体构建方法的比较研究[J].情报理论与实践,2016,39(8):119-125. 被引量：59
5王学锋,杨若鹏,朱巍.基于深度学习的军事命名实体识别方法[J].装甲兵工程学院学报,2018,32(4):94-98. 被引量：23
6李健龙,王盼卿,韩琪羽.基于双向LSTM的军事命名实体识别[J].计算机工程与科学,2019,41(4):713-718. 被引量：20
7周彬彬,张宏军,张睿,冯蕴天,徐有为.面向实体标注的军事语料库建设[J].计算机科学,2019,46(B06):540-546. 被引量：7
8张晓海,操新文,高源.基于深度学习的作战文书命名实体识别[J].指挥控制与仿真,2019,41(4):22-26. 被引量：13
9张晓海,操新文,张敏.基于自注意力机制的军事命名实体识别[J].指挥控制与仿真,2019,41(6):29-33. 被引量：8
10尹学振,赵慧,赵俊保,姚婉薇,黄泽林.多神经网络协作的军事领域命名实体识别[J].清华大学学报（自然科学版）,2020,60(8):648-655. 被引量：33

引证文献2

1王航,张宏军,程恺,徐有为,申秋慧,李大硕.面向知识图谱构建的电子战领域语料库建设[J].指挥信息系统与技术,2023,14(2):69-75. 被引量：1
2夏旭东,于荣欢.基于BERT+Bi-LSTM+CRF的航天领域命名实体识别研究[J].兵工自动化,2024,43(2):78-83.

二级引证文献1

1薛孟武,吴晓芳,黄振铭.电子战领域知识图谱的研究现状和展望[J].空天预警研究学报,2024,38(4):300-303.

1李丽双,袁光辉,刘晗喆.基于位置降噪和丰富语义的电子病历实体关系抽取[J].中文信息学报,2021,35(8):89-97. 被引量：5
2张韬政,张家健.一种基于特征迁移的跨领域中文分词模型[J].中国传媒大学学报（自然科学版）,2021,28(3):41-45. 被引量：1
3李波.浅析健康发展视域下的城市口袋公园设计与规划[J].花卉,2022(2):17-19. 被引量：2
4余俊,于文年,彭艳兵.基于ELMo-BiLSTM-CRF模型的中文地址分词[J].电子设计工程,2021,29(20):72-76. 被引量：4
5王晓涵,谭陈琛,相艳,余正涛.基于双嵌入卷积神经网络的涉案微博评价对象抽取[J].计算机科学,2021,48(12):319-323.
6李露琪,刘燕,侯丽.基于对抗神经网络的突发公共卫生事件虚假新闻检测[J].中华医学图书情报杂志,2021,30(7):1-9. 被引量：1
7张巍巍,刘中正,王盛方.南京培育发展颠覆性技术的识别评价与支持机制探析[J].科技中国,2022(1):33-37.
8张晓,李业刚,王栋,史树敏.基于迁移学习的社交评论命名实体识别[J].计算机应用与软件,2022,39(1):143-150. 被引量：4
9王越,冯振.基于CAM与双线性网络的鸟类图像识别方法[J].重庆理工大学学报（自然科学）,2021,35(11):136-141. 被引量：4
10赵怡萌,邱春艳.科研方法信息维度与方法元数据设计研究[J].图书馆学研究,2021(20):68-75.

计算机科学

2022年第1期

浏览历史

内容加载中请稍等...

基于领域适应嵌入的军事命名实体识别被引量：2

参考文献9

二级参考文献47

共引文献138

同被引文献17

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于领域适应嵌入的军事命名实体识别 被引量：2

参考文献9

二级参考文献47

共引文献138

同被引文献17

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于领域适应嵌入的军事命名实体识别被引量：2