期刊文献+
共找到274篇文章
< 1 2 14 >
每页显示 20 50 100
中文领域命名实体识别综述 被引量:41
1
作者 焦凯楠 李欣 朱容辰 《计算机工程与应用》 CSCD 北大核心 2021年第16期1-15,共15页
命名实体识别(Named Entity Recognition,NER)作为自然语言处理领域经典的研究主题,是智能问答、知识图谱等任务的基础技术。领域命名实体识别(Domain Named Entity Recognition,DNER)是面向特定领域的NER方案。在深度学习技术的推动下... 命名实体识别(Named Entity Recognition,NER)作为自然语言处理领域经典的研究主题,是智能问答、知识图谱等任务的基础技术。领域命名实体识别(Domain Named Entity Recognition,DNER)是面向特定领域的NER方案。在深度学习技术的推动下,中文DNER取得了突破性进展。概括了中文DNER的研究框架,从领域数据源的确定、领域实体类型及规范制定、领域数据集的标注规范、中文DNER评估指标四个角度对国内外已有研究成果进行了综合评述;总结了目前常见的中文DNER的技术框架,介绍了基于词典和规则的模式匹配方法、统计机器学习方法、基于深度学习的方法、多方融合的深度学习方法,并重点分析了基于词向量表征和深度学习的中文DNER方法;讨论了中文DNER的典型应用场景,对未来发展方向进行了展望。 展开更多
关键词 自然语言处理 中文领域命名实体识别 深度学习
下载PDF
基于BERT和领域词典融合的中文电子病历命名实体识别 被引量:1
2
作者 叶恩光 张晓如 +3 位作者 张再跃 丁腊春 朱向南 王译 《计算机与数字工程》 2024年第3期746-750,767,共6页
医疗数据挖掘的起始环节为CNER(中文电子病历命名实体识别),将相关实体(解剖部位、药品、影像检查等)识别出非结构化文本是其目标所在。基于CNER准确性提升需要,论文设计了BERT-BiLSTM-CRF模型融合领域词典技术,该技术能将上下文语义关... 医疗数据挖掘的起始环节为CNER(中文电子病历命名实体识别),将相关实体(解剖部位、药品、影像检查等)识别出非结构化文本是其目标所在。基于CNER准确性提升需要,论文设计了BERT-BiLSTM-CRF模型融合领域词典技术,该技术能将上下文语义关系全面结合,一词多义问题同样可以迎刃而解,获取电子病历句子的长距离依赖。CNER采用BERT-BiLSTM-CRF模型融合领域词典技术时的F1值已经被实验结果所证实,对知识图谱的构建、临床决策支持系统和病历质控系统等的研究有着重要意义。 展开更多
关键词 中文电子病历 命名实体识别 BERT-BiLSTM-CRF 领域词典
下载PDF
军事领域中文命名实体识别研究综述
3
作者 赵敏 李辉 +1 位作者 黄松 朱卫星 《信息技术与信息化》 2024年第9期83-90,共8页
军事文本中蕴含大量特定意义的命名实体,这些实体信息的准确识别与提取,对于军事文本的分析、情报的挖掘、决策的制定等具有重要的应用价值。诸多学者对军事领域中文命名实体识别(Chinese named entity recognition in the military dom... 军事文本中蕴含大量特定意义的命名实体,这些实体信息的准确识别与提取,对于军事文本的分析、情报的挖掘、决策的制定等具有重要的应用价值。诸多学者对军事领域中文命名实体识别(Chinese named entity recognition in the military domain,CNER-M)进行了深入研究,并取得了显著进展。首先归纳了CNER-M数据源,分析了实体特点,并对数据集、评价标准、标注方法进行介绍;然后按照命名实体识别(named entity recognition,NER)发展历程对基于规则的方法、基于统计模型的方法和基于深度学习的方法进行分类阐述;最后,基于研究现状探讨了CNER-M未来的发展趋势。 展开更多
关键词 军事领域 命名实体识别 规则 统计模型 深度学习
下载PDF
基于多头注意力机制字词联合的中文命名实体识别
4
作者 王进 王猛旗 +2 位作者 张昕跃 孙开伟 朴昌浩 《江苏大学学报(自然科学版)》 CAS 北大核心 2024年第1期77-84,共8页
针对现有基于字词联合的中文命名实体识别方法会引入冗余词汇干扰、模型网络结构复杂、难以迁移的问题,提出一种基于多头注意力机制字词联合的中文命名实体识别算法.算法采用多头注意力机制融合词汇边界信息,并通过分类融合BIE词集降低... 针对现有基于字词联合的中文命名实体识别方法会引入冗余词汇干扰、模型网络结构复杂、难以迁移的问题,提出一种基于多头注意力机制字词联合的中文命名实体识别算法.算法采用多头注意力机制融合词汇边界信息,并通过分类融合BIE词集降低冗余词汇干扰.建立了多头注意力字词联合模型,包含字词匹配、多头注意力、融合等模块.与现有中文命名实体识别方法相比,本算法避免了设计复杂的序列模型,方便与现有基于字的中文命名实体识别模型结合.采用召回率、精确率以及F 1值作为评价指标,通过消融试验验证模型各个部分的效果.结果表明,本算法在MSRA和Weibo数据集上F 1值分别提升0.28、0.69,在Resume数据集上精确率提升0.07. 展开更多
关键词 中文命名实体识别 词汇冗余 词汇边界信息 字词联合 多头注意力机制 BIE词集
下载PDF
因果关系表示增强的跨领域命名实体识别
5
作者 刘小明 曹梦远 +2 位作者 杨关 刘杰 王杭 《计算机工程与应用》 CSCD 北大核心 2024年第18期176-188,共13页
跨领域命名实体识别在现实应用中,尤其在目标领域数据稀缺的小样本场景中具有重要价值。然而,现有方法主要是通过特征表示或模型参数共享实现的跨领域实体能力迁移,未充分考虑由于样本选择偏差而引起的虚假相关性问题。为了解决跨领域... 跨领域命名实体识别在现实应用中,尤其在目标领域数据稀缺的小样本场景中具有重要价值。然而,现有方法主要是通过特征表示或模型参数共享实现的跨领域实体能力迁移,未充分考虑由于样本选择偏差而引起的虚假相关性问题。为了解决跨领域中的虚假相关性问题,提出一种因果关系表示增强的跨领域命名实体识别模型,将源域的语义特征表示与目标域的语义特征表示进行融合,生成一种增强的上下文语义特征表示。通过结构因果模型捕捉增强后的特征变量与标签之间的因果关系。在目标域中应用因果干预和反事实推断策略,提取存在的直接因果效应,从而进一步缓解特征与标签之间的虚假相关性问题。该方法在公共数据集上进行了实验,实验结果得到了显著提高。 展开更多
关键词 领域命名实体识别 迁移学习 因果关系 结构因果模型 语义特征表示
下载PDF
融合知识的文博领域低资源命名实体识别方法研究
6
作者 李超 侯霞 乔秀明 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第1期13-22,共10页
文物数据的实体嵌套问题明显,实体边界不唯一,且文博领域已标注数据极度缺乏,导致该领域命名实体识别性能较低。针对这些问题,构建一个可用于文物命名实体识别的数据集FewRlicsData,提出一种融合知识的文博领域低资源命名实体识别方法Re... 文物数据的实体嵌套问题明显,实体边界不唯一,且文博领域已标注数据极度缺乏,导致该领域命名实体识别性能较低。针对这些问题,构建一个可用于文物命名实体识别的数据集FewRlicsData,提出一种融合知识的文博领域低资源命名实体识别方法RelicsNER。该方法将类别描述信息的语义知识融入文物文本中,使用基于跨度的方式进行解码,用于改善实体嵌套问题,并采用边界平滑的方式缓解跨度识别模型的过度自信问题。与基线模型相比,该方法在FewRlicsData数据集上的F1值有所提升,在文博领域命名实体识别任务中取得较好的性能。在公开数据集OntoNotes 4.0上的实验结果证明该方法具有较好的泛化性,同时在数据集OntoNotes 4.0和MSRA上进行小规模数据实验,性能均高于基线模型,说明所提方法适用于低资源场景。 展开更多
关键词 文博领域 命名实体识别 知识融合 注意力机制
下载PDF
融合标签知识的中文医学命名实体识别
7
作者 尹宝生 周澎 《计算机科学》 CSCD 北大核心 2024年第S01期128-134,共7页
医学领域命名实体识别是信息抽取任务重要的研究内容之一,其训练数据主要来源于临床实验数据、健康档案、电子病历等非结构化文本,然而标注这些数据需要专业人员耗费大量人力、物力和时间资源。在缺乏大规模医学训练数据的情况下,医学... 医学领域命名实体识别是信息抽取任务重要的研究内容之一,其训练数据主要来源于临床实验数据、健康档案、电子病历等非结构化文本,然而标注这些数据需要专业人员耗费大量人力、物力和时间资源。在缺乏大规模医学训练数据的情况下,医学领域命名实体识别模型很容易出现识别错误的情况。为解决这一难题,文中提出了一种融合标签知识的中文医学命名实体识别方法,即通过专业领域词典获得文本标签的释义后,分别将文本、标签及标签释义编码,基于自适应融合机制进行融合,有效平衡特征提取模块和语义增强模块的信息流,从而提高模型性能。其核心思想在于医学实体标签是通过总结归纳大量医学数据得到的,而标签释义是对标签进行科学解释和说明的结果,模型融入这些蕴含了丰富的医学领域内的先验知识,可以使其更准确地理解实体在医学领域中的语义并提升其识别效果。实验结果表明,该方法在中文医学实体抽取数据集(CMeEE-V2)3个基线模型上分别取得了0.71%,0.53%和1.17%的提升,并且为小样本场景下的实体识别提供了一个有效的解决方案。 展开更多
关键词 中文医学命名实体识别 标签知识 先验知识 自适应融合机制 小样本
下载PDF
位置标签增强的中文医学命名实体级联识别
8
作者 王旭阳 赵丽婕 张继远 《计算机工程与应用》 CSCD 北大核心 2024年第2期121-128,共8页
针对一般领域的命名实体识别方法不能直接用于中文医学专业实体的识别,现有的相关研究只专注于英文文本和扁平结构的医学实体识别等问题,通过对专业领域实体识别方法的研究,结合中文医学实体的特点提出了一种面向中文医学实体的级联识... 针对一般领域的命名实体识别方法不能直接用于中文医学专业实体的识别,现有的相关研究只专注于英文文本和扁平结构的医学实体识别等问题,通过对专业领域实体识别方法的研究,结合中文医学实体的特点提出了一种面向中文医学实体的级联识别方法。将每个字符元素相对于实体的位置标签嵌入模型,并结合中文医学实体跨度内不同元素的重要程度进行实体的融合表示。通过序列标注方法检测字符的位置标签,利用字符的位置信息指导候选实体生成,并进行实体语义分类。模型在CMeEE和CCKS2018数据集以及中文糖尿病科研文献数据集上分别进行扁平实体、嵌套实体和不连续性长实体的识别实验。实验结果表明,该方法能够有效地识别中文医学文本中不同结构的实体。 展开更多
关键词 中文医学命名实体 位置标签嵌入 结合元素重要程度的实体融合表示 级联识别 线性结构
下载PDF
RIB-NER:基于跨度的中文命名实体识别模型
9
作者 田红鹏 吴璟玮 《计算机工程与科学》 CSCD 北大核心 2024年第7期1311-1320,共10页
命名实体识别是自然语言处理领域中诸多下游任务的重要基础。汉语作为重要的国际语言,在许多方面具有独特性。传统上,中文命名实体识别任务模型使用序列标记机制,该机制需要条件随机场捕获标签的依赖性,然而,这种方法容易出现标签的错... 命名实体识别是自然语言处理领域中诸多下游任务的重要基础。汉语作为重要的国际语言,在许多方面具有独特性。传统上,中文命名实体识别任务模型使用序列标记机制,该机制需要条件随机场捕获标签的依赖性,然而,这种方法容易出现标签的错误分类。针对这个问题,提出基于跨度的命名实体识别模型RIB-NER。首先,以RoBERTa-wwm-ext作为模型嵌入层,提供字符级嵌入,以获得更多的上下文语义信息和词汇信息。其次,利用IDCNN的并行卷积核来增强词之间的位置信息,从而使词与词之间联系更加紧密。同时,在模型中融合BiLSTM网络来获取上下文信息。最后,采用双仿射模型对句子中的开始标记和结束标记评分,使用这些标记探索跨度。在MSRA和Weibo 2个语料库上的实验结果表明,RIB-NER能够较为准确地识别实体边界,并分别获得了95.11%和73.94%的F1值。与传统深度学习相比,有更好的识别效果。 展开更多
关键词 中文命名实体识别 双仿射模型 迭代膨胀卷积神经网络 预训练模型 跨度
下载PDF
融合领域词典嵌入的航空不安全事件命名实体识别
10
作者 许雅玺 孟天宇 +1 位作者 王欣 刘炳南 《科学技术与工程》 北大核心 2024年第8期3284-3290,共7页
针对航空不安全事件领域命名实体识别任务,以航空安全信息周报为数据源,分析并构建航空不安全事件命名实体识别数据集和领域词典。为解决传统命名实体识别模型对于捕获领域实体边界性能较差的问题,基于BERT(bidirectional encoder repre... 针对航空不安全事件领域命名实体识别任务,以航空安全信息周报为数据源,分析并构建航空不安全事件命名实体识别数据集和领域词典。为解决传统命名实体识别模型对于捕获领域实体边界性能较差的问题,基于BERT(bidirectional encoder representations from transformers)预训练语言模型提出融合领域词典嵌入的领域语义信息增强的方法。在自建数据集上进行多次对比实验,结果表明:所提出的方法可以进一步提升实体边界的识别率,相较于传统的双向长短期记忆网络-条件随机场(bi-directional long short term memory-conditional random field,BiLSTM-CRF)命名实体识别模型,性能提升约5%。 展开更多
关键词 航空不安全事件 领域词典 命名实体识别 预训练语言模型
下载PDF
中文命名实体识别研究综述 被引量:14
11
作者 赵继贵 钱育蓉 +2 位作者 王魁 侯树祥 陈嘉颖 《计算机工程与应用》 CSCD 北大核心 2024年第1期15-27,共13页
命名实体识别(named entity recognition,NER)是自然语言处理中最基本的任务之一,其主要内容是识别自然语言文本中具有特定意义的实体类型和边界。然而,中文命名实体识别(Chinese named entity recognition,CNER)的数据样本存在词边界... 命名实体识别(named entity recognition,NER)是自然语言处理中最基本的任务之一,其主要内容是识别自然语言文本中具有特定意义的实体类型和边界。然而,中文命名实体识别(Chinese named entity recognition,CNER)的数据样本存在词边界模糊、语义多样化、形态特征模糊以及中文语料库内容较少等问题,导致中文命名实体识别性能难以大幅提升。介绍了CNER的数据集、标注方案和评价指标。按照CNER的研究进程,将CNER方法分为基于规则的方法、基于统计的方法和基于深度学习的方法三类,并对近五年来基于深度学习的CNER主要模型进行总结。探讨CNER的研究趋势,为新方法的提出和未来研究方向提供一定参考。 展开更多
关键词 自然语言处理 中文命名实体识别 深度学习 预训练模型 机器学习
下载PDF
基于多头注意力的中文电子病历命名实体识别 被引量:2
12
作者 肖丹 杨春明 +2 位作者 张晖 赵旭剑 李波 《计算机应用与软件》 北大核心 2024年第1期133-138,160,共7页
针对中文电子病历中复杂医疗实体的识别问题,提出一种联合特征与多头注意力相结合的实体识别方法。该方法使用字符、词性和词典组成的联合特征,利用BiLSTM和多头注意力分别提取句子的全局特征和局部特征,利用CRF结合所有特征完成实体标... 针对中文电子病历中复杂医疗实体的识别问题,提出一种联合特征与多头注意力相结合的实体识别方法。该方法使用字符、词性和词典组成的联合特征,利用BiLSTM和多头注意力分别提取句子的全局特征和局部特征,利用CRF结合所有特征完成实体标签的预测。实验结果表明,该方法F1值达89.16%,其中治疗和疾病两类实体分别达到94.76%和95.56%。 展开更多
关键词 命名实体识别 中文电子病历 多头注意力 长短期记忆网络 条件随机场
下载PDF
基于多粒度字形增强的中文医学命名实体识别 被引量:1
13
作者 刘威 马磊 +1 位作者 李凯 李蓉 《计算机工程》 CAS CSCD 北大核心 2024年第2期337-344,共8页
中文医学命名实体识别(CMNER)旨在从中文非结构化医学文本中提取实体。现有的基于字符的CMNER模型没有从不同角度全面考虑汉字的特点,限制了其应用于CMNER的性能。基于此,提出基于多粒度字形增强的中文医学命名实体识别模型。对于输入... 中文医学命名实体识别(CMNER)旨在从中文非结构化医学文本中提取实体。现有的基于字符的CMNER模型没有从不同角度全面考虑汉字的特点,限制了其应用于CMNER的性能。基于此,提出基于多粒度字形增强的中文医学命名实体识别模型。对于输入的句子,结合汉字的字形空间结构和偏旁部首的表示,同时根据相应的领域词典来匹配字符的领域词信息,增强字符的语义和潜在边界信息,使模型获得更好的实体识别能力;通过门控机制整合领域词和汉字的字形多粒度特征,综合考虑汉字的领域信息和汉字底层信息,从而具有更好的感知医学实体的能力。在此基础上,将多粒度字形增强的字符表示输入到双向长短记忆和条件随机场层,分别进行上下文编码和标签解码。实验结果表明,本文模型较于最佳基线模型在IMCS21和CMeEE数据集上的F1值分别提升了1.04%和0.62%。此外,通过消融实验验证了该模型的每个组成部分的有效性,在识别中文医学命名实体时具有较好的识别性能。 展开更多
关键词 命名实体识别 医学领域 字形结构 门控机制 领域词典
下载PDF
基于BERT的电机领域中文命名实体识别方法 被引量:16
14
作者 顾亦然 霍建霖 +2 位作者 杨海根 卢逸飞 郭玉雯 《计算机工程》 CAS CSCD 北大核心 2021年第8期78-83,92,共7页
针对电机领域实体识别精度较低的问题,提出一种融合BERT预训练语言模型的中文命名实体识别方法。利用BERT预训练语言模型增强字的语义表示并按照上下文特征动态生成字向量,将字向量序列输入双向长短期记忆神经网络进行双向编码,同时通... 针对电机领域实体识别精度较低的问题,提出一种融合BERT预训练语言模型的中文命名实体识别方法。利用BERT预训练语言模型增强字的语义表示并按照上下文特征动态生成字向量,将字向量序列输入双向长短期记忆神经网络进行双向编码,同时通过条件随机场算法标注出实体识别结果。根据电机文本特点对自建数据集进行标注,并将电机领域实体划分为实物、特性描述、问题/故障、方法/技术等4个类别。实验结果表明,与基于Bi LSTM-CRF、Bi LSTM-CNN和Bi GRU的实体识别方法相比,该方法具有更高的准确率、召回率和F1值,并且有效解决了电机领域命名实体识别任务中标注数据不足及实体边界模糊的问题。 展开更多
关键词 命名实体识别 BERT预训练语言模型 电机领域 深度学习 迁移学习
下载PDF
教育领域下多维度特征命名实体识别方法
15
作者 任义 苏博 袁帅 《计算机工程》 CAS CSCD 北大核心 2024年第10期110-118,共9页
信息技术的发展与进步促使“互联网+教育”成为目前教育领域的研究热点,教育教学的各个环节都在向智能化的方向发展。中学数学的命名实体识别(NER)任务的研究,可为后续构建中学数学学科知识图谱及自动问答等任务奠定基础,进而满足中学... 信息技术的发展与进步促使“互联网+教育”成为目前教育领域的研究热点,教育教学的各个环节都在向智能化的方向发展。中学数学的命名实体识别(NER)任务的研究,可为后续构建中学数学学科知识图谱及自动问答等任务奠定基础,进而满足中学生个性化知识获取的需求,助力新型智能化教育体系的构建。目前中学数学知识语义复杂,其NER和研究数据较少,且在当前主流模型特征提取任务中容易忽略掉部分局部特征。为解决该领域的实体识别困难问题,以自建的中学数学知识语料库为研究对象,提出一种融合多头注意力的多维度特征NER方法。该方法首先采用BERT进行文本表征预训练得到词向量,接着引入对抗训练对每个嵌入向量进行扰动,将得到的对抗样本和嵌入向量传送到多维度特征提取层进行特征提取,再将输出的特征进行拼接,通过多头注意力机制进行动态融合,最终经过条件随机场(CRF)修正后输出。实验结果表明,该方法在自建Educ数据集上的识别准确率、召回率以及F1值分别达到96.68%、97.71%和97.19%,证明了该方法在中学数学知识实体识别上的有效性。 展开更多
关键词 命名实体识别 教育领域 对抗训练 多维度特征提取 多头注意力机制
下载PDF
基于局部增强的中文医疗命名实体识别模型
16
作者 陈晶 邢珂萱 +2 位作者 孟伟伦 郭景峰 冯建周 《通信学报》 EI CSCD 北大核心 2024年第7期171-183,共13页
医学实体的识别往往受到其相邻上下文的影响,目前的命名实体识别方法通常依赖于BiLSTM捕捉文本中的全局依赖关系,缺乏对字符之间局部依赖关系的建模。针对这一问题,提出了一种基于局部增强的中文医疗命名实体识别模型LENER。首先,LENER... 医学实体的识别往往受到其相邻上下文的影响,目前的命名实体识别方法通常依赖于BiLSTM捕捉文本中的全局依赖关系,缺乏对字符之间局部依赖关系的建模。针对这一问题,提出了一种基于局部增强的中文医疗命名实体识别模型LENER。首先,LENER使用包括字音、字形和语义在内的多源信息来丰富底层字符表征。然后,结合相对位置编码对滑动窗口划分出的序列片段进行局部注意力计算,并通过非线性计算融合局部信息和BiLSTM得到的全局信息。最后,对识别出的实体头部和尾部进行组合,进而提取出实体。实验结果表明,LENER模型具有良好的实体识别能力,与其他模型相比,LENER模型的F1值提升了0.5%~2.0%。 展开更多
关键词 中文命名实体识别 上下文环境 注意力机制 多源信息 滑动窗口
下载PDF
基于汉字上下文信息增强词典知识融入的中文命名实体识别
17
作者 赵振宇 朱静静 +3 位作者 张宇馨 刘梦珠 陈黎 琚生根 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第4期104-112,共9页
由于中文语言缺少显式的分隔符,使得中文命名实体识别任务面临缺少词语边界信息的难题.为了解决这一问题,现有的主流模型通过引入词典来利用词语边界信息.然而,词典中的词语信息只是根据字词之间的匹配关系融入汉字表示中,忽视了句子信... 由于中文语言缺少显式的分隔符,使得中文命名实体识别任务面临缺少词语边界信息的难题.为了解决这一问题,现有的主流模型通过引入词典来利用词语边界信息.然而,词典中的词语信息只是根据字词之间的匹配关系融入汉字表示中,忽视了句子信息对于词语选择的影响,与句子语义信息无关的词语不可避免地引入到模型中,使模型感知错误的词语边界信息.为了减少无关词语对于实体识别结果的影响,本文提出了一种新的中文命名实体识别方法 ELKI,通过带有句子语义信息的汉字上下文表示来增强词典知识的融入,从而改善模型感知词语边界的精度.具体地,本文设计了一种新型的交叉注意力网络从词典中挖掘与语义信息相关的词语信息.同时,本文构造了一种门控融合网络来动态地将词典知识融入到汉字的上下文表示中.在Resume、MSRA和OntoNotes三个基准数据集上的实验结果表明本文方法优于其它的基线模型. 展开更多
关键词 中文命名实体识别 交叉注意力网络 门控融合网络 信息抽取
下载PDF
基于自注意力机制与词汇增强的中文医学命名实体识别
18
作者 罗歆然 李天瑞 贾真 《计算机应用》 CSCD 北大核心 2024年第2期385-392,共8页
针对中文医学文本实体嵌套导致的单词边界识别困难问题以及现有栅格结构集成词汇特征所面临的语义信息损失严重的情况,提出一种用于中文医学命名实体识别(MNER)的自适应词汇信息增强模型。首先,利用双向长短期记忆(BiLSTM)网络编码字符... 针对中文医学文本实体嵌套导致的单词边界识别困难问题以及现有栅格结构集成词汇特征所面临的语义信息损失严重的情况,提出一种用于中文医学命名实体识别(MNER)的自适应词汇信息增强模型。首先,利用双向长短期记忆(BiLSTM)网络编码字符序列的上下文信息并捕捉较长距离的依赖关系;然后,对字符序列中每个字符的潜在单词信息进行字词对建模,采用自注意力机制实现不同单词之间的内部交互;最后,通过基于双线性注意力机制的词汇适配器将词汇信息集成到文本序列中的每个字符中,有效增强语义信息的同时充分利用单词丰富的边界信息,并抑制相关性低的单词。实验结果表明,所提模型与基于字符的基线模型相比,平均F1值分别提升了1.37~2.38个百分点,并在结合BERT后取得了最优的效果。 展开更多
关键词 医学命名实体识别 中文医学文本 词汇适配器 自注意力机制 双向长短期记忆网络
下载PDF
基于BERT-BiLSTM-CRF模型的油气领域命名实体识别 被引量:5
19
作者 高国忠 李宇 +1 位作者 华远鹏 吴文旷 《长江大学学报(自然科学版)》 2024年第1期57-65,共9页
针对油气领域知识图谱构建过程中命名实体识别使用传统方法存在实体特征信息提取不准确、识别效率低的问题,提出了一种基于BERT-BiLSTM-CRF模型的命名实体识别研究方法。该方法首先利用BERT(bidirectional encoder representations from... 针对油气领域知识图谱构建过程中命名实体识别使用传统方法存在实体特征信息提取不准确、识别效率低的问题,提出了一种基于BERT-BiLSTM-CRF模型的命名实体识别研究方法。该方法首先利用BERT(bidirectional encoder representations from transformers)预训练模型得到输入序列语义的词向量;然后将训练后的词向量输入双向长短期记忆网络(bi-directional long short-term memory,BiLSTM)模型进一步获取上下文特征;最后根据条件随机场(conditional random fields,CRF)的标注规则和序列解码能力输出最大概率序列标注结果,构建油气领域命名实体识别模型框架。将BERT-BiLSTM-CRF模型与其他2种命名实体识别模型(BiLSTM-CRF、BiLSTM-Attention-CRF)在包括3万多条文本语料数据、4类实体的自建数据集上进行了对比实验。实验结果表明,BERT-BiLSTM-CRF模型的准确率(P)、召回率(R)和F_(1)值分别达到91.3%、94.5%和92.9%,实体识别效果优于其他2种模型。 展开更多
关键词 油气领域 命名实体识别 BERT 双向长短期记忆网络 条件随机场 BERT-BiLSTM-CRF模型
下载PDF
基于词汇融合和依存关系的中文命名实体识别
20
作者 唐卓然 柳毅 《计算机工程》 CAS CSCD 北大核心 2024年第10期145-153,共9页
命名实体识别是自然语言处理领域的重要基础任务,为关系抽取、构建知识图谱等众多下游任务提供有价值的数据支撑。针对中文命名实体识别存在分词错误、实体边界模糊和上下文依赖的难点,以及现有方法不能充分利用词汇信息和有效提取文本... 命名实体识别是自然语言处理领域的重要基础任务,为关系抽取、构建知识图谱等众多下游任务提供有价值的数据支撑。针对中文命名实体识别存在分词错误、实体边界模糊和上下文依赖的难点,以及现有方法不能充分利用词汇信息和有效提取文本内部特征等问题,提出一种基于词汇融合和依存关系的中文命名实体识别模型。首先,获取输入文本中每个字符的自匹配词生成词汇特征向量,并根据字符在它的自匹配词上的位置得到词边界信息,利用双仿射注意力机制将字符向量与词汇特征向量进行融合,将词汇信息和词边界信息融入模型的编码过程,从而使模型获得良好的实体识别能力;然后,根据依存句法建立输入文本的依存图结构,利用图注意力网络(GAT)捕获输入文本内部依存关系特征,增强文本内部的语义依赖信息,同时有利于区分实体边界;最后,使用条件随机场(CRF)计算文本的标签。实验结果表明,该模型在CCKS2017、OntoNote4.0和MSRA数据集上分别获得了92.10%、80.76%和95.66%的F1值,优于对比模型。 展开更多
关键词 注意力机制 依存关系 词汇融合 图注意力网络 中文命名实体识别
下载PDF
上一页 1 2 14 下一页 到第
使用帮助 返回顶部