基于BSTTC模型的中文命名实体识别被引量：3

Chinese Named Entity Recognition Based on BSTTC Model

下载PDF

导出

摘要大多数中文命名实体识别模型中,语言预处理只关注单个词和字符的向量表示,忽略了它们之间的语义关系,无法解决一词多义问题;Transformer特征抽取模型的并行计算和长距离建模优势提升了许多自然语言理解任务的效果,但全连接结构使得计算复杂度为输入长度的平方,导致其在中文命名实体识别的效果不佳.针对这些问题,提出一种基于BSTTC (BERT-Star-Transformer-TextCNN-CRF)模型的中文命名实体识别方法.首先利用在大规模语料上预训练好的BERT模型根据其输入上下文动态生成字向量序列;然后使用星型Transformer与TextCNN联合模型进一步提取句子特征;最后将特征向量序列输入CRF模型得到最终预测结果.在MSRA中文语料上的实验结果表明,该模型的精确率、召回率和F1值与之前模型相比,均有所提高.与BERT-Transformer-CRF模型相比,训练时间大约节省了65%. In most recognition models of Chinese named entities,language preprocessing only focuses on the vector representation of single words and characters and ignores the semantic relationship between them,hence failing to tackle polysemy.The transformer feature extraction model improves the understanding of natural language due to parallel computing and long-distance modeling,but its fully connected structure makes the computational complexity the square of the input length,which leads to poor recognition of Chinese named entities.A recognition method for Chinese named entities based on the BERT-Star-Transformer-TextCNN-CRF(BSTTC)model is proposed to solve these problems.First,the BERT model pre-trained on a large-scale corpus is used to dynamically generate the word vector sequence according to its input context.Then,the star Transformer-TextCNN model is adopted to further extract sentence features.Finally,the prediction result is received by inputting the feature vector sequence into the CRF model.The experimental results on the Chinese corpus from MSRA show that the accuracy,recall,and F1 value of this model are all higher than those of existing models.Moreover,its training time is 65%shorter than that of the BSTTC model.

作者申晖张英俊谢斌红赵红燕 SHEN Hui;ZHANG Ying-Jun;XIE Bin-Hong;ZHAO Hong-Yan(School of Computer Science and Technology,Taiyuan University of Science and Technology,Taiyuan 030024,China)

机构地区太原科技大学计算机科学与技术学院

出处《计算机系统应用》 2021年第6期262-270,共9页 Computer Systems & Applications

基金山西省重点研发计划重点项目(201703D111027) 山西省重点计划研发项目(201803D121048,201803D121055)。

关键词 BERT 星型Transformer 命名实体识别 TextCNN 条件随机场 BERT Star-Transformer named entity recognition TextCNN Conditional Random Fields(CRF)

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1张晓艳,王挺,陈火旺.命名实体识别研究[J].计算机科学,2005,32(4):44-48. 被引量：66
2张涛,贾真,李天瑞,黄雁勇.基于知识库的开放领域问答系统[J].智能系统学报,2018,13(4):557-563. 被引量：13
3庞亮,兰艳艳,徐君,郭嘉丰,万圣贤,程学旗.深度文本匹配综述[J].计算机学报,2017,40(4):985-1003. 被引量：65
4王鹏远,姬东鸿.基于多标签CRF的疾病名称抽取[J].计算机应用研究,2017,34(1):118-122. 被引量：10
5李业刚,黄河燕,鉴萍.引入混合特征的最大名词短语双向标注融合算法[J].自动化学报,2015,41(7):1274-1282. 被引量：4
6谢腾,杨俊安,刘辉.基于BERT-BiLSTM-CRF模型的中文实体识别[J].计算机系统应用,2020,29(7):48-55. 被引量：90
7李妮,关焕梅,杨飘,董文永.基于BERT-IDCNN-CRF的中文命名实体识别方法[J].山东大学学报（理学版）,2020,55(1):102-109. 被引量：54
8李丽双,郭元凯.基于CNN-BLSTM-CRF模型的生物医学命名实体识别[J].中文信息学报,2018,32(1):116-122. 被引量：123
9周晓磊,赵薛蛟,刘堂亮,宗子潇,王其乐,里剑桥.基于SVM-BiLSTM-CRF模型的财产纠纷命名实体识别方法[J].计算机系统应用,2019,28(1):245-250. 被引量：13
10杨文明,褚伟杰.在线医疗问答文本的命名实体识别[J].计算机系统应用,2019,28(2):8-14. 被引量：23

二级参考文献61

1李妮,关焕梅,杨飘,董文永.基于BERT-IDCNN-CRF的中文命名实体识别方法[J].山东大学学报（理学版）,2020,55(1):102-109. 被引量：54
2吴友政,赵军,段湘煜,徐波.问答式检索技术及评测研究综述[J].中文信息学报,2005,19(3):1-13. 被引量：48
3夏天.汉语词语语义相似度计算研究[J].计算机工程,2007,33(6):191-194. 被引量：63
4Sundheim B M. Named entity task definition, version 2.1. In:Proc. of the Sixth Message Understanding Conf. 1995. 319～332
5Borthwick A. A Maximum Entropy Approach to Named Entity Recognition: [Ph. D]. New York University. Department of Computer Science, Courant Institute 1999
6Humphreys K, Gaizauskas R, Azzam S, et al. Description of the LaSIE-Ⅱ system as used for MUC-7. In:Proc. of the 7th Message Understanding Conference (MUC-7), 1998
7URL http://www. ltg. ed. ac. uk
8Chen H H, Ding Y W, Tsai S C,et al. Description of the NTU System Used for MET2. In: Proc. of 7th Message Understanding Conference, 1998
9Black W J, Rinaldi F,Mowatt D. Facile: Description of the NE System Used For MUC-7. In:Proc. of 7th Message Understanding Conf. 1998
10Fukumoto J, Shimohata M, Masui F, Sasaki M. Oki Electric Industry: Description of the Oki System as Used for MET-2. In:Proc. of 7th Message Understanding Conf. 1998

共引文献409

1彭骁男,周兰江,张建安,周枫.融合多特征的老挝语人名地名命名实体识别[J].中国水运（下半月）,2020,20(3):74-77. 被引量：1
2贺金龙,付立军,姚郑,吕鹏飞,黄徐胜.基于网格LSTM混合算法的地质领域用户意图识别[J].计算机系统应用,2020(10):44-52. 被引量：1
3高原,施元磊,张蕾,曹天奕,冯筠.基于游记文本的游客游览行程重构[J].数据分析与知识发现,2020,4(2):165-172. 被引量：5
4郭嘉欣.基于多源异构数据挖掘的“红色记忆”知识图谱构建[J].知识管理论坛,2020(1):59-68. 被引量：11
5李灿,解丹.中医电子病历入院记录信息自动抽取方法研究[J].世界科学技术-中医药现代化,2023,25(5):1615-1622.
6步一,薛睿,孟凡,黄文彬.知识图谱的关键技术及其在情报学中的应用[J].情报学进展,2022(1):349-384. 被引量：1
7李春楠,王雷,孙媛媛,林鸿飞.基于BERT的盗窃罪法律文书命名实体识别方法[J].中文信息学报,2021,35(8):73-81. 被引量：19
8宋颖毅,叶东升,王坤龙,葛志.无监督的问句相似度匹配方法[J].计算机应用研究,2020,37(S02):69-72. 被引量：2
9林少娃,陈奕汝,顾洁,伍蓓蓓,雍旭龙.基于隐含狄利克雷分布主题模型和特征级异构数据融合的电力故障主动性预警研究[J].电子器件,2022,45(2):432-438. 被引量：11
10王卫红,冯倩,吕红燕,曹玉辉.基于Seq2Seq模型的命名实体识别方法[J].智能计算机与应用,2020(7):141-146.

同被引文献18

1何炎祥,罗楚威,胡彬尧.基于CRF和规则相结合的地理命名实体识别方法[J].计算机应用与软件,2015,32(1):179-185. 被引量：65
2刘浏,王东波.命名实体识别研究综述[J].情报学报,2018,37(3):329-340. 被引量：149
3赵浩新,俞敬松,林杰.基于笔画中文字向量模型设计与研究[J].中文信息学报,2019,33(5):17-23. 被引量：13
4张晗,郭渊博,李涛.结合GAN与BiLSTM-Attention-CRF的领域命名实体识别[J].计算机研究与发展,2019,56(9):1851-1858. 被引量：31
5雷树杰,邢富坤,王闻慧.融合多类型特征的特定领域实体识别研究[J].计算机应用与软件,2019,36(11):210-217. 被引量：3
6王子牛,姜猛,高建瓴,陈娅先.基于BERT的中文命名实体识别方法[J].计算机科学,2019,46(S11):138-142. 被引量：91
7王月,王孟轩,张胜,杜渂.基于BERT的警情文本命名实体识别[J].计算机应用,2020,40(2):535-540. 被引量：43
8李舟军,范宇,吴贤杰.面向自然语言处理的预训练技术研究综述[J].计算机科学,2020,47(3):162-173. 被引量：105
9徐凯,王崎,李振彰,康培培,谢峰,刘文印.基于结合多头注意力机制BiGRU网络的生物医学命名实体识别[J].计算机应用与软件,2020,37(5):151-155. 被引量：8
10董瑞,杨雅婷,蒋同海.融合多种语言学特征的维吾尔语神经网络命名实体识别[J].计算机应用与软件,2020,37(5):183-188. 被引量：4

引证文献3

1陈业明,戴齐,刘捷.融合字位置特征的铁路事故命名实体识别[J].计算机系统应用,2022,31(12):211-219. 被引量：3
2彭雪,赵辉,郑肇谦,庞海婷.融合多种嵌入表示的中文命名实体识别[J].长春工业大学学报,2022,43(1):81-90.
3沈同平,俞磊,束建华,方芳,王元茂.基于多头注意力机制的医学文本实体研究[J].安庆师范大学学报（自然科学版）,2023,29(1):85-91. 被引量：1

二级引证文献4

1孙文涵,王俊杰.基于BERT的施工安全事故文本命名实体识别方法[J].电视技术,2023,47(1):20-26. 被引量：1
2路士杰,庞先海,董驰,顾朝敏,郑宝良.基于BERT-BiLSTM-CRF模型的开关柜设备运维实体抽取方法研究[J].河北电力技术,2023,42(3):85-89.
3曹文斌,赵飞,郭占清.基于命名实体识别的施工限速命令关键信息提取及应用[J].中国铁路,2024(3):57-63.
4武凌,黄淑芹,陈劲松,周健.基于深度学习语义匹配的通用智能问答系统的设计与实现[J].安庆师范大学学报（自然科学版）,2024,30(2):84-89.

1潘俊,吴宗大.词汇分布语义的语言学基础探微[J].浙江社会科学,2019,0(12):99-104. 被引量：1
2万莹,孙连英,赵平,王金锋,涂帅.基于信息增强BERT的关系分类[J].中文信息学报,2021,35(3):69-77. 被引量：10
3宋伯宇,彭玲,池天河,吴同.一种改进的全卷积网络激光点云分类方法[J].测绘科学,2021,46(5):77-83. 被引量：2
4赵世巍,管俊,徐跃杭.基于铁电陶瓷的波导E面T型结[J].重庆邮电大学学报（自然科学版）,2021,33(3):444-448.
5Godfrey Olukya.Shellfish on the Move Kenya lobster exports to China benefit local fishermen[J].ChinAfrica,2021,13(6):36-37.
6石湘,刘萍.基于知识元语义描述模型的领域知识抽取与表示研究——以信息检索领域为例[J].数据分析与知识发现,2021,5(4):123-133. 被引量：14
7Mark J. Henriksen,Scott Dusek.A Lack of Evidence for Global Ram-Pressure Induced Star Formation in the Merging Cluster Abell 3266[J].International Journal of Astronomy and Astrophysics,2021,11(1):95-132.
8李韧,李童,杨建喜,莫天金,蒋仕新,李东.基于Transformer-BiLSTM-CRF的桥梁检测领域命名实体识别[J].中文信息学报,2021,35(4):83-91. 被引量：17
9石隽锋,李济洪,王瑞波.一种改进的GloVe词向量表示学习方法[J].中文信息学报,2021,35(4):16-22. 被引量：6
10张清辉,杨楠,梁政.任务驱动的军事信息服务知识推理研究[J].火力与指挥控制,2021,46(5):64-70. 被引量：5

计算机系统应用

2021年第6期

浏览历史

内容加载中请稍等...

基于BSTTC模型的中文命名实体识别被引量：3

参考文献10

二级参考文献61

共引文献409

同被引文献18

引证文献3

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于BSTTC模型的中文命名实体识别 被引量：3

参考文献10

二级参考文献61

共引文献409

同被引文献18

引证文献3

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于BSTTC模型的中文命名实体识别被引量：3