基于机器阅读理解的BiLSTM-BiDAF命名实体识别被引量：2

BiLSTM-BiDAF Named Entity Recognition Based on Machine Reading Comprehension

下载PDF

导出

摘要命名实体识别是自然语言处理的一项基本任务,对信息提取、机器翻译等具有重要的意义和价值。目前命名实体识别通常使用序列标注方法对文本中单个句子的实体进行抽取,忽略了句子间的语义信息。基于机器阅读理解的命名实体识别方法借助问题编码了实体类别的重要先验信息,更加容易区分出相似的分类标签,降低了模型学习难度,但仍然只在句子级别建模,忽略了句子间的语义信息,容易造成不同句子中实体标注不一致的问题。为此,文中将句子级别的命名实体识别扩展到文本级别的命名实体识别,提出了一种基于机器阅读理解的BiLSTM-BiDAF命名实体识别模型。首先,为了充分挖掘文本的上下文特征,使用NEZHA获取全文语境信息,并进一步通过BiLSTM提取局部特征,以加强模型对局部依赖信息的捕获能力;然后,引入双向注意力机制学习文本与实体类别之间的语义关联;最后,设计基于门控机制的边界检测器加强实体边界的相关关系,预测出实体在文本中的位置,同时通过建立答案数量检测器,将无答案问题识别出来。在CCKS2020中文电子病历数据集和CMeEE数据集上的实验结果表明,文中构建的模型能有效地识别文本中的命名实体,F_(1)值可分别达到84.76%和57.35%。 Named entity recognition is a fundamental task of natural language processing(NLP)and plays an important role in many downstream NLP tasks,including information extraction and machine translation,etc.The existing named entity recognition methods are usually based on sequence labeling and extract entities within a sentence independently.These methods ignore the semantic information between sentences.Named entity recognition methods based on machine reading comprehension encode important prior information about the entity class.It is easier to distinguish similar classification labels,which reduces the difficulty of model learning,but it still only models at the sentence level,ignoring the semantic information between sentences,which is easy to cause the problem of inconsistent entity labeling in different sentences.To this end,this paper extended the sentence-level named entity recognition to the text-level named entity recognition,and then proposed a BiLSTM-BiDAF named entity recognition model based on machine reading comprehension.First,to utilize the context information within the whole text,NEZHA pre-training language model was used to obtain information of the full text and local features were further captured through BiLSTM,so as to strengthen the model’s ability to capture locally dependent information.Then,a bidirectional attention flow was introduce to learn the semantic association between the text and entity category.Finally,to predict the position of entities in the text,a boundary detector based on the gating mechanism was design to strengthen the correlation of the entity boundary.At the same time,an answer count detector was establish to identify the unanswerable questions.Experimental results on the CCKS2020 Chinese electronic medical records dataset and CMeEE dataset show that our model can effectively identify document-level and sentence-level named entities,and F_(1)can reach 84.76%and 57.35%,respectively.

作者王洁夏晓明 WANG Jie;XIA Xiaoming(Faculty of Information Technology,Beijing University of Technology,Beijing 100124,China)

机构地区北京工业大学信息学部

出处《华南理工大学学报（自然科学版）》 EI CAS CSCD 北大核心 2022年第12期80-88,共9页 Journal of South China University of Technology(Natural Science Edition)

基金国家自然科学基金资助项目(61876010)。

关键词双向注意力机制双向长短时记忆网络命名实体识别机器阅读理解自然语言处理 bidirectional attention flow bidirectional long short-term memory named entity recognition machine reading comprehension natural language processing

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1刘奕洋,余正涛,高盛祥,郭军军,张亚飞,聂冰鸽.基于机器阅读理解的中文命名实体识别方法[J].模式识别与人工智能,2020,33(7):653-659. 被引量：7
2郭知鑫,邓小龙.基于BERT-BiLSTM-CRF的法律案件实体智能识别方法[J].北京邮电大学学报,2021,44(4):129-134. 被引量：12

二级参考文献4

1俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：151
2李丽双,郭元凯.基于CNN-BLSTM-CRF模型的生物医学命名实体识别[J].中文信息学报,2018,32(1):116-122. 被引量：119
3赵平,孙连英,万莹,葛娜.基于BERT+BiLSTM+CRF的中文景点命名实体识别[J].计算机系统应用,2020,29(6):169-174. 被引量：17
4张玉帅,赵欢,李博.基于BERT和BiLSTM的语义槽填充[J].计算机科学,2021,48(1):247-252. 被引量：5

共引文献17

1张硕,赵卓峰,刘晨.基于图卷积网络的产业领域科技服务资源命名实体识别[J].计算机与数字工程,2023,51(1):20-27.
2韦入铭,陈若愚,李晗,刘旭红.基于深度学习与文本计量的技术趋势分析[J].计算机科学,2022,49(S02):37-42. 被引量：2
3李瑛玮,翟洁,袁学,范勇琪,杨博涵,龙海朱.基于机器阅读理解模型的护士AI问答系统[J].中国新通信,2021,23(3):230-232.
4黄辉,秦永彬,陈艳平,黄瑞章.基于BERT阅读理解框架的司法要素抽取方法[J].大数据,2021,7(6):19-29. 被引量：2
5田学志,王同喜.基于多视角匹配和比较-聚合框架的文本匹配模型[J].电脑知识与技术,2022,18(4):103-105.
6李珂,陈彦如,郑文蛟,化柏林.基于机器阅读理解的新闻时间线挖掘与展示[J].情报理论与实践,2022,45(4):184-189. 被引量：2
7郭宇,李英娜,刘爱莲,马鑫堃.基于深度学习的电力安全作业实体识别方法[J].电视技术,2022,46(1):67-72. 被引量：6
8傅源坤,柳先辉,赵卫东.基于BERT的智能制造装备命名实体识别方法[J].制造业自动化,2022,44(9):120-124. 被引量：1
9付美玲,薛磊,徐英.基于BERT-BiLSTM-CRF模型的电子目标图谱实体抽取方法[J].空天预警研究学报,2022,36(3):206-210.
10华斌,魏尹娟,吴诺.基于异质信息网络的电子政务平台治理问题发现方法研究[J].情报理论与实践,2023,46(4):184-194.

同被引文献29

1蒋文君,胡晓,张培,邓盛名,肖志怀.基于EEMD近似熵的水电机组振动信号特征提取[J].水力发电学报,2020,39(6):18-27. 被引量：22
2石瑞敏,杨兆建.基于改进EMD的多绳摩擦提升机载荷信息特征提取[J].煤炭学报,2014,39(4):782-788. 被引量：13
3张敏,崔海龙,陈曦晖,程刚.基于IMF能量矩和HSMM模型的滚动轴承故障诊断方法[J].组合机床与自动化加工技术,2015(10):101-103. 被引量：12
4于晓东,潘罗平,安学利.基于VMD和排列熵的水轮机压力脉动信号去噪算法[J].水力发电学报,2017,36(8):78-85. 被引量：28
5王太勇,王廷虎,王鹏,乔卉卉,徐明达.基于注意力机制BiLSTM的设备智能故障诊断方法[J].天津大学学报（自然科学与工程技术版）,2020,53(6):601-608. 被引量：17
6王晓柱,钮赛赛,张凯,印剑飞,闫杰.基于小波变换与特征提取的红外弱小目标图像融合[J].西北工业大学学报,2020,38(4):723-732. 被引量：16
7周小麟,童晓阳.基于CEEMD-SBO-LSSVR的超短期风电功率组合预测[J].电网技术,2021,45(3):855-862. 被引量：30
8焦瀚晖,胡明辉,江志农,冯坤.基于补偿距离评估和一维卷积神经网络的离心泵故障快速智能识别方法[J].振动与冲击,2021,40(10):41-49. 被引量：7
9何葵东,陈伽,金艳,蒋文君,肖志怀.EEMD多尺度熵和ELM在水电机组振动信号特征提取中的应用[J].中国农村水利水电,2021(5):176-182. 被引量：17
10吴建华,胡烈云,赵宇,戴鹏,熊嘉奇.基于BiLSTM-CRF与分类分层标注的微博中突发事件时空信息精细识别方法[J].地理与地理信息科学,2021,37(3):1-8. 被引量：7

引证文献2

1邓晓琴,瞿卫华,陈金保,王云鹤,邹屹东,胡文庆,肖志怀.融合IMF能量矩和BiLSTMNN的水电机组振动故障诊断[J].水力发电学报,2023,42(10):86-95.
2关斯琪,董婷婷,万子敬,何元生.基于BERT-CRF模型的火灾事故案例实体识别研究[J].消防科学与技术,2023,42(11):1529-1534.

1孙劲光,陈倩.融合多层级特征的脑肿瘤图像分割方法[J].光电子．激光,2022,33(11):1215-1224.
2于秒,周思敏,龙佳欣.内隐韵律与语境对汉语均衡型歧义结构歧义消解的作用[J].心理与行为研究,2022,20(6):739-746.
3潘婷婷,刘芳,王斌宇,王建成,鲍卫仁,胡江亮.MIL-101/石墨烯吸附剂的制备及其苯吸附性能研究[J].现代化工,2022,42(S02):174-182.
4刘志刚.小学语文阅读教学渗透劳动教育的路径[J].四川教育,2022(32):34-35. 被引量：2
5寇永升.杖藜扶我过桥东--我的专业成长之路[J].语文教学通讯,2023(1):4-7.
6程永,毛莺池,万旭,王龙宝,朱敏.基于双重注意力的无触发词中文事件检测[J].计算机科学,2023,50(1):276-284.
7张振坤,张冬梅,李江,吴益平.基于多头自注意力机制的LSTM-MH-SA滑坡位移预测模型研究[J].岩土力学,2022,43(S02):477-486. 被引量：7
8董雨奥,冯哲,朱敦如.配位竞争策略制备的两个镁基金属有机骨架及其选择性CO_(2)捕集[J].无机化学学报,2023,39(1):181-190. 被引量：1
9吴思萍,陈松降,陶秀祥,李振,屈进州,张宁宁.活性油泡强化长焰煤浮选的实验研究[J].煤炭学报,2022,47(S01):285-294. 被引量：1

华南理工大学学报（自然科学版）

2022年第12期

浏览历史

内容加载中请稍等...

基于机器阅读理解的BiLSTM-BiDAF命名实体识别被引量：2

参考文献2

二级参考文献4

共引文献17

同被引文献29

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于机器阅读理解的BiLSTM-BiDAF命名实体识别 被引量：2

参考文献2

二级参考文献4

共引文献17

同被引文献29

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于机器阅读理解的BiLSTM-BiDAF命名实体识别被引量：2