期刊文献+
共找到11,925篇文章
< 1 2 250 >
每页显示 20 50 100
基于命名实体识别的《神农本草经》知识图谱构建及可视化分析
1
作者 佟琳 张华敏 +4 位作者 佟旭 雷蕾 王程 曾子玲 杨洪军 《中国中医药信息杂志》 CAS CSCD 2024年第8期37-43,共7页
目的构建《神农本草经》知识图谱,分析本草知识、挖掘隐性知识并进行可视化展示,为古籍研究提供方法学参考。方法梳理并表述《神农本草经》文献涉及的知识实体类型和实体间关系,应用BIO序列标注方法生产训练语料数据集,使用自主研发的C... 目的构建《神农本草经》知识图谱,分析本草知识、挖掘隐性知识并进行可视化展示,为古籍研究提供方法学参考。方法梳理并表述《神农本草经》文献涉及的知识实体类型和实体间关系,应用BIO序列标注方法生产训练语料数据集,使用自主研发的CNLP文本标注系统进行文本标注,采用BERT模型识别命名实体,基于规则与语义关联设定确定实体间关系,经知识融合后,用Cypher语言导入图数据库Neo4j-community4.4.9进行存储和可视化展示,构建知识图谱。结果《神农本草经》知识图谱包含5273个节点、11064个关系,其模式层包含14种实体类、16种关系类型。可通过Cypher语言查询,从中药分类、药性理论、七情配伍、中药应用方面进行知识的可视化展示。结论本研究构建的知识图谱可直观反映《神农本草经》所载知识及隐性关系,适用于中医药古籍的知识挖掘及直观多维展示。 展开更多
关键词 知识图谱 神农本草经 本草知识 命名实体识别
下载PDF
基于连续提示注入与指针网络的农业病害命名实体识别
2
作者 王春山 张宸硕 +3 位作者 吴华瑞 朱华吉 缪祎晟 张立杰 《农业机械学报》 EI CAS CSCD 北大核心 2024年第6期254-261,共8页
针对农业病害领域命名实体识别过程中存在的预训练语言模型利用不充分、外部知识注入利用率低、嵌套命名实体识别率低的问题,本文提出基于连续提示注入和指针网络的命名实体识别模型CP-MRC(Continuous prompts for machine reading comp... 针对农业病害领域命名实体识别过程中存在的预训练语言模型利用不充分、外部知识注入利用率低、嵌套命名实体识别率低的问题,本文提出基于连续提示注入和指针网络的命名实体识别模型CP-MRC(Continuous prompts for machine reading comprehension)。该模型引入BERT(Bidirectional encoder representation from transformers)预训练模型,通过冻结BERT模型原有参数,保留其在预训练阶段获取到的文本表征能力;为了增强模型对领域数据的适用性,在每层Transformer中插入连续可训练提示向量;为提高嵌套命名实体识别的准确性,采用指针网络抽取实体序列。在自建农业病害数据集上开展了对比实验,该数据集包含2933条文本语料,8个实体类型,共10414个实体。实验结果显示,CP-MRC模型的精确率、召回率、F1值达到83.55%、81.4%、82.4%,优于其他模型;在病原、作物两类嵌套实体的识别率较其他模型F1值提升3个百分点和13个百分点,嵌套实体识别率明显提升。本文提出的模型仅采用少量可训练参数仍然具备良好识别性能,为较大规模预训练模型在信息抽取任务上的应用提供了思路。 展开更多
关键词 农业病害 命名实体识别 连续提示 指针网络 嵌套实体 预训练语言模型
下载PDF
基于RoBERTa-Span-Attack的标签指针网络军事命名实体识别
3
作者 罗兵 张显峰 +1 位作者 段立 陈琳 《海军工程大学学报》 CAS 北大核心 2024年第1期76-82,93,共8页
军事领域文本中存在大量军事实体信息,准确识别这些信息是军事文本信息提取和构建军事知识图谱的基础性任务。首先,提出了一种基于RoBERTa预训练模型、跨度和对抗训练的标签指针网络的融合深度模型(RoBERTa-Span-Attack),用于中文军事... 军事领域文本中存在大量军事实体信息,准确识别这些信息是军事文本信息提取和构建军事知识图谱的基础性任务。首先,提出了一种基于RoBERTa预训练模型、跨度和对抗训练的标签指针网络的融合深度模型(RoBERTa-Span-Attack),用于中文军事命名实体识别;然后,采用了一种基于Span的标签指针网络,同时完成实体的起止位置和类别的识别任务;最后,在模型训练过程中加入对抗训练策略,通过添加一些扰动来生成对抗样本进行训练。在军事领域数据集上的实验结果表明:所提出的军事领域命名实体识别模型相较于BERT-CRF、BERT-Softmax和BERT-Span,在识别准确度上具有更优的效果。 展开更多
关键词 军事命名实体识别 预训练模型 跨度 标签指针网络 对抗训练
下载PDF
基于细粒度原型网络的小样本命名实体识别方法
4
作者 戚荣志 周俊宇 +1 位作者 李水艳 毛莺池 《软件学报》 EI CSCD 北大核心 2024年第10期4751-4765,共15页
原型网络直接应用于小样本命名实体识别(few-shot named entity recognition,FEW-NER)时存在以下问题:非实体之间不具有较强的语义关系,对实体和非实体都采用相同的方式构造原型将会造成非实体原型不能准确表示非实体的语义特征;仅使用... 原型网络直接应用于小样本命名实体识别(few-shot named entity recognition,FEW-NER)时存在以下问题:非实体之间不具有较强的语义关系,对实体和非实体都采用相同的方式构造原型将会造成非实体原型不能准确表示非实体的语义特征;仅使用平均实体向量表示作为原型的计算方式将难以捕捉语义特征相差较大的同类实体.针对上述问题,提出基于细粒度原型网络的小样本命名实体识别(FEW-NER based on fine-grained prototypical networks,FNFP)方法,有助于提高小样本命名实体识别的标注效果.首先,为不同的查询集样本构造不同的非实体原型,捕捉句子中关键的非实体语义特征,得到更为细粒度的原型,提升模型对非实体的识别效果;然后,设计一个不一致性度量模块以衡量同类实体之间的不一致性,对实体与非实体采用不同的度量函数,从而减小同类样本之间的特征表示,提升原型的特征表示能力;最后,引入维特比解码器捕捉标签转换关系,优化最终的标注序列.实验结果表明,采用基于细粒度原型网络的小样本命名实体识别方法,在大规模小样本命名实体识别数据集FEW-NERD上,较基线方法获得提升;同时在跨领域数据集上验证所提方法在不同领域场景下的泛化能力. 展开更多
关键词 小样本命名实体识别 细粒度原型网络 小样本学习 特征表示
下载PDF
因果关系表示增强的跨领域命名实体识别
5
作者 刘小明 曹梦远 +2 位作者 杨关 刘杰 王杭 《计算机工程与应用》 CSCD 北大核心 2024年第18期176-188,共13页
跨领域命名实体识别在现实应用中,尤其在目标领域数据稀缺的小样本场景中具有重要价值。然而,现有方法主要是通过特征表示或模型参数共享实现的跨领域实体能力迁移,未充分考虑由于样本选择偏差而引起的虚假相关性问题。为了解决跨领域... 跨领域命名实体识别在现实应用中,尤其在目标领域数据稀缺的小样本场景中具有重要价值。然而,现有方法主要是通过特征表示或模型参数共享实现的跨领域实体能力迁移,未充分考虑由于样本选择偏差而引起的虚假相关性问题。为了解决跨领域中的虚假相关性问题,提出一种因果关系表示增强的跨领域命名实体识别模型,将源域的语义特征表示与目标域的语义特征表示进行融合,生成一种增强的上下文语义特征表示。通过结构因果模型捕捉增强后的特征变量与标签之间的因果关系。在目标域中应用因果干预和反事实推断策略,提取存在的直接因果效应,从而进一步缓解特征与标签之间的虚假相关性问题。该方法在公共数据集上进行了实验,实验结果得到了显著提高。 展开更多
关键词 跨领域命名实体识别 迁移学习 因果关系 结构因果模型 语义特征表示
下载PDF
基于多头注意力机制字词联合的中文命名实体识别
6
作者 王进 王猛旗 +2 位作者 张昕跃 孙开伟 朴昌浩 《江苏大学学报(自然科学版)》 CAS 北大核心 2024年第1期77-84,共8页
针对现有基于字词联合的中文命名实体识别方法会引入冗余词汇干扰、模型网络结构复杂、难以迁移的问题,提出一种基于多头注意力机制字词联合的中文命名实体识别算法.算法采用多头注意力机制融合词汇边界信息,并通过分类融合BIE词集降低... 针对现有基于字词联合的中文命名实体识别方法会引入冗余词汇干扰、模型网络结构复杂、难以迁移的问题,提出一种基于多头注意力机制字词联合的中文命名实体识别算法.算法采用多头注意力机制融合词汇边界信息,并通过分类融合BIE词集降低冗余词汇干扰.建立了多头注意力字词联合模型,包含字词匹配、多头注意力、融合等模块.与现有中文命名实体识别方法相比,本算法避免了设计复杂的序列模型,方便与现有基于字的中文命名实体识别模型结合.采用召回率、精确率以及F 1值作为评价指标,通过消融试验验证模型各个部分的效果.结果表明,本算法在MSRA和Weibo数据集上F 1值分别提升0.28、0.69,在Resume数据集上精确率提升0.07. 展开更多
关键词 中文命名实体识别 词汇冗余 词汇边界信息 字词联合 多头注意力机制 BIE词集
下载PDF
融合知识的文博领域低资源命名实体识别方法研究
7
作者 李超 侯霞 乔秀明 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第1期13-22,共10页
文物数据的实体嵌套问题明显,实体边界不唯一,且文博领域已标注数据极度缺乏,导致该领域命名实体识别性能较低。针对这些问题,构建一个可用于文物命名实体识别的数据集FewRlicsData,提出一种融合知识的文博领域低资源命名实体识别方法Re... 文物数据的实体嵌套问题明显,实体边界不唯一,且文博领域已标注数据极度缺乏,导致该领域命名实体识别性能较低。针对这些问题,构建一个可用于文物命名实体识别的数据集FewRlicsData,提出一种融合知识的文博领域低资源命名实体识别方法RelicsNER。该方法将类别描述信息的语义知识融入文物文本中,使用基于跨度的方式进行解码,用于改善实体嵌套问题,并采用边界平滑的方式缓解跨度识别模型的过度自信问题。与基线模型相比,该方法在FewRlicsData数据集上的F1值有所提升,在文博领域命名实体识别任务中取得较好的性能。在公开数据集OntoNotes 4.0上的实验结果证明该方法具有较好的泛化性,同时在数据集OntoNotes 4.0和MSRA上进行小规模数据实验,性能均高于基线模型,说明所提方法适用于低资源场景。 展开更多
关键词 文博领域 命名实体识别 知识融合 注意力机制
下载PDF
基于字形特征的血管外科命名实体识别
8
作者 张华青 夏张涛 +1 位作者 陆晓庆 童基均 《计算机工程》 CAS CSCD 北大核心 2024年第8期13-21,共9页
电子病历(EMR)作为医疗信息化建设的核心,蕴含着众多有价值的医疗实体,对电子病历进行命名实体识别有助于推进医学研究。为解决血管外科电子病历研究数据匮乏、实体复杂识别困难等问题,基于某三甲医院血管外科的真实临床数据,构建一个... 电子病历(EMR)作为医疗信息化建设的核心,蕴含着众多有价值的医疗实体,对电子病历进行命名实体识别有助于推进医学研究。为解决血管外科电子病历研究数据匮乏、实体复杂识别困难等问题,基于某三甲医院血管外科的真实临床数据,构建一个小规模的专科数据集作为实验数据集,并提出一种基于字形特征的命名实体识别模型。首先,采用掩码校正的来自Transformer的双向编码器表示(MacBERT)生成动态字向量,引入汉字四角码与汉字五笔两个维度的字形信息;然后,将文本表示传入双向门控循环单元(BiGRU)与门控空洞卷积神经网络(DGCNN)进行特征提取,并对输出结果进行拼接;最后,通过多头自注意力机制捕捉序列内部元素间的关系,利用条件随机场(CRF)进行标签解码。实验结果表明,所提模型在自建血管外科数据集上的精确率、召回率、F1值分别为96.45%、97.77%、97.10%,均优于对比模型,具有更好的实体识别性能。 展开更多
关键词 电子病历 血管外科 命名实体识别 特征融合 深度学习
下载PDF
基于多维特征分析的戏曲类方志文献命名实体识别研究
9
作者 翟姗姗 余华娟 +1 位作者 陈健瑶 夏立新 《情报学报》 CSCD 北大核心 2024年第9期1094-1104,共11页
方志是我国特有的一种具有极高史料价值的地方文献,对其进行数字化处理并实施知识挖掘,对传承传播中华传统文化、建设文化强国具有重要意义。命名实体识别作为一种基础性技术与关键环节,对方志知识组织与发现具有重要影响。目前,虽然方... 方志是我国特有的一种具有极高史料价值的地方文献,对其进行数字化处理并实施知识挖掘,对传承传播中华传统文化、建设文化强国具有重要意义。命名实体识别作为一种基础性技术与关键环节,对方志知识组织与发现具有重要影响。目前,虽然方志命名实体识别已经取得了一定进展,但是仍缺乏适应方志文本特征与领域资源特征的系统化技术方案。基于此,本文提出融合多维特征与Bi-LSTM-CRF的戏曲类方志命名实体识别模型。首先,结合句法特征与符号、尾词、构词、上下文和负例等文本特征,对方志文献中的戏曲类实体特质进行解析;其次,利用在长文本结构中表现优异的Bi-LSTM-CRF模型,借助已解析的戏曲类实体特征,提升实体识别效率;最后,以《楚剧志》为具体对象开展实证研究,结果表明,本文提出的模型在命名实体识别效果上优于基准模型,F1值达到0.869。 展开更多
关键词 方志文献 戏曲类方志 命名实体识别 Bi-LSTM-CRF 多维特征分析
下载PDF
基于混合式迁移学习的命名实体识别算法
10
作者 余肖生 张合欢 陈鹏 《计算机应用与软件》 北大核心 2024年第8期303-310,共8页
针对命名实体识别领域中大量标注数据难于获取而带来的问题,提出基于混合式迁移学习的命名实体识别算法——MT-NER。利用样本之间的距离作为权衡样本相似性的标准,进行样本迁移以扩充目标域样本;利用模型迁移建立带有finetune的新命名... 针对命名实体识别领域中大量标注数据难于获取而带来的问题,提出基于混合式迁移学习的命名实体识别算法——MT-NER。利用样本之间的距离作为权衡样本相似性的标准,进行样本迁移以扩充目标域样本;利用模型迁移建立带有finetune的新命名实体识别网络结构,用扩充后的目标域数据集来训练网络。以医疗领域为例的实验结果分析表明,MT-NER算法在小样本数据中的实体识别效果最佳,精度达到93.31%,召回率达到89.5%,F1值达到0.9317,与BiLSTM-CRF模型相比分别提升了6.33百分点、3.65百分点和0.0891。 展开更多
关键词 命名实体识别 迁移学习 双向LSTM-CRF 分布自适应
下载PDF
基于偏正结构表示的加工命名实体识别方法
11
作者 王素琴 王钰珏 +2 位作者 石敏 朱登明 李兆歆 《计算机集成制造系统》 EI CSCD 北大核心 2024年第3期958-967,共10页
制造企业积累大量的零件加工经验多以文本形式存在,如何从文本中挖掘出高质量的零件加工知识是个尚待解决的问题。针对待识别实体存在的偏正结构特征,导致实体边界界定模糊的问题,提出一种多网络协调的中文命名实体识别方法。在BERT生... 制造企业积累大量的零件加工经验多以文本形式存在,如何从文本中挖掘出高质量的零件加工知识是个尚待解决的问题。针对待识别实体存在的偏正结构特征,导致实体边界界定模糊的问题,提出一种多网络协调的中文命名实体识别方法。在BERT生成字向量的过程中,通过领域自适应方法,提高字向量对工艺实体的表征能力,同时,在BiLSTM-CRF模型中引入注意力机制和多门控制的混合专家网络捕获上下文特征与实体信息。实验表明,较于当前主流的命名实体识别模型,该文提出的方法对机械零件加工实体识别的F1值达到80.15%,取得优于其他模型的最好性能。 展开更多
关键词 中文命名实体识别 机械零件加工 多门控制的混合专家网络 领域自适应
下载PDF
多尺寸注意力的命名实体识别方法
12
作者 唐瑞雪 秦永彬 陈艳平 《计算机科学与探索》 CSCD 北大核心 2024年第2期506-515,共10页
命名实体识别(NER)任务的准确性将促进自然语言领域中诸多下游任务的研究。由于文本中存在大量嵌套语义,导致命名实体识别困难,成为自然语言处理中的难点。以往研究提取特征尺度单一,边界信息利用不够充分,忽略了不同尺度下的许多细节信... 命名实体识别(NER)任务的准确性将促进自然语言领域中诸多下游任务的研究。由于文本中存在大量嵌套语义,导致命名实体识别困难,成为自然语言处理中的难点。以往研究提取特征尺度单一,边界信息利用不够充分,忽略了不同尺度下的许多细节信息,从而造成实体识别错误或遗漏的情况。针对上述问题,提出一种多尺度注意力的命名实体识别方法(MSA-NER)。首先,利用BERT模型得到包含上下文信息的表示向量,并通过BiLSTM网络加强文本的上下文表示。其次,将表示向量进行枚举拼接形成跨度信息矩阵,并融合方向信息获得更丰富的交互信息。然后,利用多头注意力构建多个子空间,通过二维卷积在每个子空间下可选地聚合不同尺度的文本信息,在每个注意力层同时进行多尺度的特征融合。最后,将融合的矩阵进行跨度分类以识别命名实体。实验表明,该方法在GENIA和ACE2005英文数据集上F1分别达到81.7%和86.8%,与现有主流模型相比有更好的识别效果。 展开更多
关键词 命名实体识别(NER) 嵌套语义 多尺度注意力 卷积神经网络 子空间
下载PDF
基于边界感知的工业设备故障命名实体识别方法
13
作者 葛卫京 刘晓丽 杜亚峰 《计算机应用与软件》 北大核心 2024年第6期237-242,249,共7页
命名实体识别在识别工业设备故障方面发挥关键作用,有助于故障预测、维护管理和智能决策。针对工业设备故障数据中存在的嵌套结构和长跨度问题,提出一种边界感知的实体识别方法。该方法通过边界感知精准定位实体跨距,并结合类别预测判... 命名实体识别在识别工业设备故障方面发挥关键作用,有助于故障预测、维护管理和智能决策。针对工业设备故障数据中存在的嵌套结构和长跨度问题,提出一种边界感知的实体识别方法。该方法通过边界感知精准定位实体跨距,并结合类别预测判断实体跨距的所属类别,以提高识别性能。此外,为解决标注数据的缺乏的问题,还构建面向工业设备故障的实体识别数据集。实验结果证明了该方法在工业设备故障实体识别方面的有效性,并为后续数据分析和知识图谱的构建提供了坚实基础。 展开更多
关键词 命名实体识别 预训练语言模型 工业设备 故障信息
下载PDF
新冠病症统一命名的建议 被引量:1
14
作者 朱建平 《中国科技术语》 2024年第1期19-22,共4页
新冠疫情暴发三年多来,国内外出现多种有关新冠病症的名称,如国内有新型冠状病毒肺炎、新型冠状病毒感染等,国外有世卫组织命名的2019冠状病毒病以及倡用的新冠后症状,此外还有长新冠、新冠后综合征、新冠后遗症等较为常见的名称。目前... 新冠疫情暴发三年多来,国内外出现多种有关新冠病症的名称,如国内有新型冠状病毒肺炎、新型冠状病毒感染等,国外有世卫组织命名的2019冠状病毒病以及倡用的新冠后症状,此外还有长新冠、新冠后综合征、新冠后遗症等较为常见的名称。目前已出现一定的混乱,需要正视。通过辨析,提出取舍意见,认为目前应与世卫组织一致,统一使用2019冠状病毒病、新冠后症状。根据术语学有关要求,同时提出规范名词的建议,为进一步审定新冠病症名称提供参考。 展开更多
关键词 新型冠状病毒肺炎 新型冠状病毒感染 2019冠状病毒病 新冠后症状 长新冠 新冠后综合征 新冠后遗症 术语命名
下载PDF
鲁迅小说人物命名中的解/构辩证 被引量:1
15
作者 朱崇科 《玉林师范学院学报》 2024年第1期76-83,共8页
拥有了小说命名权的鲁迅在小说人物命名中别有洞天,呈现出丰富的话语张力与解/建构辩证:在严谨正名(名正言顺)的实践中,他再现了旧的刻板与顽固,也彰显了新的希望与没落;在无名/共名的命名实践中,以洋文命名国人本身既有无处可逃的尴尬... 拥有了小说命名权的鲁迅在小说人物命名中别有洞天,呈现出丰富的话语张力与解/建构辩证:在严谨正名(名正言顺)的实践中,他再现了旧的刻板与顽固,也彰显了新的希望与没落;在无名/共名的命名实践中,以洋文命名国人本身既有无处可逃的尴尬又借之呈现出可能的含混与丰富,而共名背后既有麻木单一,又可能有民间力量的反拨;在《故事新编》中,他又有“去名”的操作,呈现出其时他更繁复而深刻的意图——挣脱旧传统之网罗,即使神仙圣贤也未必能够适应新的时代,而批判与反思更不该就此停止脚步。 展开更多
关键词 鲁迅小说 人物命名 话语 去名 阿Q
下载PDF
命名数据网络中的二分缓存方案
16
作者 张俊敏 金继欢 侯睿 《中南民族大学学报(自然科学版)》 CAS 2024年第2期260-265,共6页
为了解决命名数据网络(Named Data Networking,NDN)中存在的数据冗余,缓存数据内容多样性差以及数据内容请求时延高的问题,提出了一种二分缓存方案.该方案将首次请求的数据内容缓存在中心路由器中,将再次被请求的相同数据内容缓存在内... 为了解决命名数据网络(Named Data Networking,NDN)中存在的数据冗余,缓存数据内容多样性差以及数据内容请求时延高的问题,提出了一种二分缓存方案.该方案将首次请求的数据内容缓存在中心路由器中,将再次被请求的相同数据内容缓存在内容请求者的邻接路由器中,过滤了请求热度不高的数据内容,增加了数据内容被就近请求的概率,降低了数据内容的请求时延.同时该方案将被替换的数据包缓存至上游路由器,使路由器中重复的数据内容逐渐推向内容生产者,减少了数据冗余的同时增加了路由器缓存的数据内容的多样性.仿真结果显示该算法能降低数据内容的平均请求时延,减少服务器负载,有效提升缓存命中率. 展开更多
关键词 命名数据网络 数据冗余 二分缓存
下载PDF
基于XLBIC的石油开采数据命名实体识别研究
17
作者 任伟建 计妍 康朝海 《计算机仿真》 2024年第6期390-395,共6页
在石油领域命名实体识别的任务中,提出了基于XLBIC(XLNet-BiGRU-IDCNN-CRF)的命名实体识别模型。首先采用XLNet预训练模型获取丰富且准确的词向量信息,将获取的词向量信息送入BiGRU和IDCNN网络中进行特征提取。针对膨胀卷积网络(IDCNN)... 在石油领域命名实体识别的任务中,提出了基于XLBIC(XLNet-BiGRU-IDCNN-CRF)的命名实体识别模型。首先采用XLNet预训练模型获取丰富且准确的词向量信息,将获取的词向量信息送入BiGRU和IDCNN网络中进行特征提取。针对膨胀卷积网络(IDCNN)获取特征维度不高,模型计算速度较慢的问题,提出在IDCNN网络中引入门控机制,实现信息的多通道传输和流量控制,提高模型的计算速度。实验表明XLBIC命名实体识别模型在自建石油开采数据集上性能相比其它模型有提高,准确率在90%以上。 展开更多
关键词 命名实体识别 膨胀卷积网络 门控机制
下载PDF
联合多模态与多跨度特征的嵌套命名实体识别
18
作者 邱云飞 邢浩然 +1 位作者 于智龙 张文文 《计算机科学与探索》 CSCD 北大核心 2024年第6期1613-1626,共14页
嵌套命名实体识别(NNER)因日趋重要的现实意义成为信息抽取的研究热点。但是,由于语料资源匮乏、穷举窗口受限以及跨度特征缺失等问题,面向垂直领域的NNER研究进展缓慢且存在实体识别错误或遗漏的问题。针对上述问题,提出一种以矿物学... 嵌套命名实体识别(NNER)因日趋重要的现实意义成为信息抽取的研究热点。但是,由于语料资源匮乏、穷举窗口受限以及跨度特征缺失等问题,面向垂直领域的NNER研究进展缓慢且存在实体识别错误或遗漏的问题。针对上述问题,提出一种以矿物学为研究背景,融合语料感知词典的垂直领域NNER模型。首先,结合点互信息、词频逆文本频率算法与注意力机制自动集成语料感知词典,同时扩展锚文本知识提升模型的训练精度。其次,从共享视角出发,设计三种多模态信息的融合策略,训练编码器学习字符、字形、词汇的扩展向量表示,通过三重积运算和切片注意力机制,筛选整合由多层感知机捕捉到的私有表征,缩小异质特征的空间差距。再次,以自底向上的层级架构确定跨度间的上下文关联,生成建议跨度集合,以双仿射机制和线性分类器获得目标跨度与相邻跨度、目标跨度内部表征、目标跨度边界等特征。最后,为目标跨度分配对应的实体类型标签。在六项数据集上的实验结果表明,相比于基线模型,提出的方法实现了显著的性能提升,能有效提升低资源场景下的NNER任务效果。 展开更多
关键词 嵌套命名实体识别 多模态 多任务 远程监督 矿物学
下载PDF
多尺度视觉语义增强的多模态命名实体识别方法
19
作者 王海荣 徐玺 +1 位作者 王彤 陈芳萍 《自动化学报》 EI CAS CSCD 北大核心 2024年第6期1234-1245,共12页
为解决多模态命名实体识别(Multimodal named entity recognition,MNER)方法研究中存在的图像特征语义缺失和多模态表示语义约束较弱等问题,提出多尺度视觉语义增强的多模态命名实体识别方法(Multi-scale visual semantic enhancement f... 为解决多模态命名实体识别(Multimodal named entity recognition,MNER)方法研究中存在的图像特征语义缺失和多模态表示语义约束较弱等问题,提出多尺度视觉语义增强的多模态命名实体识别方法(Multi-scale visual semantic enhancement for multimodal named entity recognition method,MSVSE).该方法提取多种视觉特征用于补全图像语义,挖掘文本特征与多种视觉特征间的语义交互关系,生成多尺度视觉语义特征并进行融合,得到多尺度视觉语义增强的多模态文本表示;使用视觉实体分类器对多尺度视觉语义特征解码,实现视觉特征的语义一致性约束;调用多任务标签解码器挖掘多模态文本表示和文本特征的细粒度语义,通过联合解码解决语义偏差问题,从而进一步提高命名实体识别准确度.为验证该方法的有效性,在Twitter-2015和Twitter-2017数据集上进行实验,并与其他10种方法进行对比,该方法的平均F1值得到提升. 展开更多
关键词 多模态命名实体识别 多任务学习 多模态融合 TRANSFORMER
下载PDF
融合标签知识的中文医学命名实体识别
20
作者 尹宝生 周澎 《计算机科学》 CSCD 北大核心 2024年第S01期128-134,共7页
医学领域命名实体识别是信息抽取任务重要的研究内容之一,其训练数据主要来源于临床实验数据、健康档案、电子病历等非结构化文本,然而标注这些数据需要专业人员耗费大量人力、物力和时间资源。在缺乏大规模医学训练数据的情况下,医学... 医学领域命名实体识别是信息抽取任务重要的研究内容之一,其训练数据主要来源于临床实验数据、健康档案、电子病历等非结构化文本,然而标注这些数据需要专业人员耗费大量人力、物力和时间资源。在缺乏大规模医学训练数据的情况下,医学领域命名实体识别模型很容易出现识别错误的情况。为解决这一难题,文中提出了一种融合标签知识的中文医学命名实体识别方法,即通过专业领域词典获得文本标签的释义后,分别将文本、标签及标签释义编码,基于自适应融合机制进行融合,有效平衡特征提取模块和语义增强模块的信息流,从而提高模型性能。其核心思想在于医学实体标签是通过总结归纳大量医学数据得到的,而标签释义是对标签进行科学解释和说明的结果,模型融入这些蕴含了丰富的医学领域内的先验知识,可以使其更准确地理解实体在医学领域中的语义并提升其识别效果。实验结果表明,该方法在中文医学实体抽取数据集(CMeEE-V2)3个基线模型上分别取得了0.71%,0.53%和1.17%的提升,并且为小样本场景下的实体识别提供了一个有效的解决方案。 展开更多
关键词 中文医学命名实体识别 标签知识 先验知识 自适应融合机制 小样本
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部