期刊文献+
共找到1,516篇文章
< 1 2 76 >
每页显示 20 50 100
基于RoBERTa-Span-Attack的标签指针网络军事命名实体识别 被引量:1
1
作者 罗兵 张显峰 +1 位作者 段立 陈琳 《海军工程大学学报》 CAS 北大核心 2024年第1期76-82,93,共8页
军事领域文本中存在大量军事实体信息,准确识别这些信息是军事文本信息提取和构建军事知识图谱的基础性任务。首先,提出了一种基于RoBERTa预训练模型、跨度和对抗训练的标签指针网络的融合深度模型(RoBERTa-Span-Attack),用于中文军事... 军事领域文本中存在大量军事实体信息,准确识别这些信息是军事文本信息提取和构建军事知识图谱的基础性任务。首先,提出了一种基于RoBERTa预训练模型、跨度和对抗训练的标签指针网络的融合深度模型(RoBERTa-Span-Attack),用于中文军事命名实体识别;然后,采用了一种基于Span的标签指针网络,同时完成实体的起止位置和类别的识别任务;最后,在模型训练过程中加入对抗训练策略,通过添加一些扰动来生成对抗样本进行训练。在军事领域数据集上的实验结果表明:所提出的军事领域命名实体识别模型相较于BERT-CRF、BERT-Softmax和BERT-Span,在识别准确度上具有更优的效果。 展开更多
关键词 军事命名实体识别 预训练模型 跨度 标签指针网络 对抗训练
下载PDF
基于命名实体识别的《神农本草经》知识图谱构建及可视化分析
2
作者 佟琳 张华敏 +4 位作者 佟旭 雷蕾 王程 曾子玲 杨洪军 《中国中医药信息杂志》 CAS CSCD 2024年第8期37-43,共7页
目的构建《神农本草经》知识图谱,分析本草知识、挖掘隐性知识并进行可视化展示,为古籍研究提供方法学参考。方法梳理并表述《神农本草经》文献涉及的知识实体类型和实体间关系,应用BIO序列标注方法生产训练语料数据集,使用自主研发的C... 目的构建《神农本草经》知识图谱,分析本草知识、挖掘隐性知识并进行可视化展示,为古籍研究提供方法学参考。方法梳理并表述《神农本草经》文献涉及的知识实体类型和实体间关系,应用BIO序列标注方法生产训练语料数据集,使用自主研发的CNLP文本标注系统进行文本标注,采用BERT模型识别命名实体,基于规则与语义关联设定确定实体间关系,经知识融合后,用Cypher语言导入图数据库Neo4j-community4.4.9进行存储和可视化展示,构建知识图谱。结果《神农本草经》知识图谱包含5273个节点、11064个关系,其模式层包含14种实体类、16种关系类型。可通过Cypher语言查询,从中药分类、药性理论、七情配伍、中药应用方面进行知识的可视化展示。结论本研究构建的知识图谱可直观反映《神农本草经》所载知识及隐性关系,适用于中医药古籍的知识挖掘及直观多维展示。 展开更多
关键词 知识图谱 神农本草经 本草知识 命名实体识别
下载PDF
基于命名实体识别的水电工程施工安全规范实体识别模型
3
作者 陈述 张超 +2 位作者 陈云 张光飞 李智 《中国安全科学学报》 CAS CSCD 北大核心 2024年第9期19-26,共8页
为准确识别水电工程施工安全规范实体,通过预训练模型中双向编码器表征法(BERT)挖掘文本中丰富的语义信息,利用双向长短期记忆神经网络(BILSTM)提取规范实体语义特征,依靠条件随机场(CRF)分析实体之间的依赖关系,构建水电工程施工安全... 为准确识别水电工程施工安全规范实体,通过预训练模型中双向编码器表征法(BERT)挖掘文本中丰富的语义信息,利用双向长短期记忆神经网络(BILSTM)提取规范实体语义特征,依靠条件随机场(CRF)分析实体之间的依赖关系,构建水电工程施工安全规范的命名实体识别模型;以《水利水电工程施工安全防护技术规范》(SL714—2015)为例,计算命名实体识别模型精确率。结果表明:BERT-BILSTM-CRF模型准确率为94.35%,相比于3种传统方法,准确率显著提高。研究成果有助于水电工程施工安全规范知识智能管理,为施工安全隐患智能判别提供支撑。 展开更多
关键词 命名实体识别 水电工程施工 安全规范 双向编码器表征法(BERT) 双向长短期记忆神经网络(BILSTM) 条件随机场(CRF)
下载PDF
基于连续提示注入与指针网络的农业病害命名实体识别
4
作者 王春山 张宸硕 +3 位作者 吴华瑞 朱华吉 缪祎晟 张立杰 《农业机械学报》 EI CAS CSCD 北大核心 2024年第6期254-261,共8页
针对农业病害领域命名实体识别过程中存在的预训练语言模型利用不充分、外部知识注入利用率低、嵌套命名实体识别率低的问题,本文提出基于连续提示注入和指针网络的命名实体识别模型CP-MRC(Continuous prompts for machine reading comp... 针对农业病害领域命名实体识别过程中存在的预训练语言模型利用不充分、外部知识注入利用率低、嵌套命名实体识别率低的问题,本文提出基于连续提示注入和指针网络的命名实体识别模型CP-MRC(Continuous prompts for machine reading comprehension)。该模型引入BERT(Bidirectional encoder representation from transformers)预训练模型,通过冻结BERT模型原有参数,保留其在预训练阶段获取到的文本表征能力;为了增强模型对领域数据的适用性,在每层Transformer中插入连续可训练提示向量;为提高嵌套命名实体识别的准确性,采用指针网络抽取实体序列。在自建农业病害数据集上开展了对比实验,该数据集包含2933条文本语料,8个实体类型,共10414个实体。实验结果显示,CP-MRC模型的精确率、召回率、F1值达到83.55%、81.4%、82.4%,优于其他模型;在病原、作物两类嵌套实体的识别率较其他模型F1值提升3个百分点和13个百分点,嵌套实体识别率明显提升。本文提出的模型仅采用少量可训练参数仍然具备良好识别性能,为较大规模预训练模型在信息抽取任务上的应用提供了思路。 展开更多
关键词 农业病害 命名实体识别 连续提示 指针网络 嵌套实体 预训练语言模型
下载PDF
基于多头注意力机制字词联合的中文命名实体识别
5
作者 王进 王猛旗 +2 位作者 张昕跃 孙开伟 朴昌浩 《江苏大学学报(自然科学版)》 CAS 北大核心 2024年第1期77-84,共8页
针对现有基于字词联合的中文命名实体识别方法会引入冗余词汇干扰、模型网络结构复杂、难以迁移的问题,提出一种基于多头注意力机制字词联合的中文命名实体识别算法.算法采用多头注意力机制融合词汇边界信息,并通过分类融合BIE词集降低... 针对现有基于字词联合的中文命名实体识别方法会引入冗余词汇干扰、模型网络结构复杂、难以迁移的问题,提出一种基于多头注意力机制字词联合的中文命名实体识别算法.算法采用多头注意力机制融合词汇边界信息,并通过分类融合BIE词集降低冗余词汇干扰.建立了多头注意力字词联合模型,包含字词匹配、多头注意力、融合等模块.与现有中文命名实体识别方法相比,本算法避免了设计复杂的序列模型,方便与现有基于字的中文命名实体识别模型结合.采用召回率、精确率以及F 1值作为评价指标,通过消融试验验证模型各个部分的效果.结果表明,本算法在MSRA和Weibo数据集上F 1值分别提升0.28、0.69,在Resume数据集上精确率提升0.07. 展开更多
关键词 中文命名实体识别 词汇冗余 词汇边界信息 字词联合 多头注意力机制 BIE词集
下载PDF
融合知识的文博领域低资源命名实体识别方法研究
6
作者 李超 侯霞 乔秀明 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第1期13-22,共10页
文物数据的实体嵌套问题明显,实体边界不唯一,且文博领域已标注数据极度缺乏,导致该领域命名实体识别性能较低。针对这些问题,构建一个可用于文物命名实体识别的数据集FewRlicsData,提出一种融合知识的文博领域低资源命名实体识别方法Re... 文物数据的实体嵌套问题明显,实体边界不唯一,且文博领域已标注数据极度缺乏,导致该领域命名实体识别性能较低。针对这些问题,构建一个可用于文物命名实体识别的数据集FewRlicsData,提出一种融合知识的文博领域低资源命名实体识别方法RelicsNER。该方法将类别描述信息的语义知识融入文物文本中,使用基于跨度的方式进行解码,用于改善实体嵌套问题,并采用边界平滑的方式缓解跨度识别模型的过度自信问题。与基线模型相比,该方法在FewRlicsData数据集上的F1值有所提升,在文博领域命名实体识别任务中取得较好的性能。在公开数据集OntoNotes 4.0上的实验结果证明该方法具有较好的泛化性,同时在数据集OntoNotes 4.0和MSRA上进行小规模数据实验,性能均高于基线模型,说明所提方法适用于低资源场景。 展开更多
关键词 文博领域 命名实体识别 知识融合 注意力机制
下载PDF
基于细粒度原型网络的小样本命名实体识别方法
7
作者 戚荣志 周俊宇 +1 位作者 李水艳 毛莺池 《软件学报》 EI CSCD 北大核心 2024年第10期4751-4765,共15页
原型网络直接应用于小样本命名实体识别(few-shot named entity recognition,FEW-NER)时存在以下问题:非实体之间不具有较强的语义关系,对实体和非实体都采用相同的方式构造原型将会造成非实体原型不能准确表示非实体的语义特征;仅使用... 原型网络直接应用于小样本命名实体识别(few-shot named entity recognition,FEW-NER)时存在以下问题:非实体之间不具有较强的语义关系,对实体和非实体都采用相同的方式构造原型将会造成非实体原型不能准确表示非实体的语义特征;仅使用平均实体向量表示作为原型的计算方式将难以捕捉语义特征相差较大的同类实体.针对上述问题,提出基于细粒度原型网络的小样本命名实体识别(FEW-NER based on fine-grained prototypical networks,FNFP)方法,有助于提高小样本命名实体识别的标注效果.首先,为不同的查询集样本构造不同的非实体原型,捕捉句子中关键的非实体语义特征,得到更为细粒度的原型,提升模型对非实体的识别效果;然后,设计一个不一致性度量模块以衡量同类实体之间的不一致性,对实体与非实体采用不同的度量函数,从而减小同类样本之间的特征表示,提升原型的特征表示能力;最后,引入维特比解码器捕捉标签转换关系,优化最终的标注序列.实验结果表明,采用基于细粒度原型网络的小样本命名实体识别方法,在大规模小样本命名实体识别数据集FEW-NERD上,较基线方法获得提升;同时在跨领域数据集上验证所提方法在不同领域场景下的泛化能力. 展开更多
关键词 小样本命名实体识别 细粒度原型网络 小样本学习 特征表示
下载PDF
因果关系表示增强的跨领域命名实体识别
8
作者 刘小明 曹梦远 +2 位作者 杨关 刘杰 王杭 《计算机工程与应用》 CSCD 北大核心 2024年第18期176-188,共13页
跨领域命名实体识别在现实应用中,尤其在目标领域数据稀缺的小样本场景中具有重要价值。然而,现有方法主要是通过特征表示或模型参数共享实现的跨领域实体能力迁移,未充分考虑由于样本选择偏差而引起的虚假相关性问题。为了解决跨领域... 跨领域命名实体识别在现实应用中,尤其在目标领域数据稀缺的小样本场景中具有重要价值。然而,现有方法主要是通过特征表示或模型参数共享实现的跨领域实体能力迁移,未充分考虑由于样本选择偏差而引起的虚假相关性问题。为了解决跨领域中的虚假相关性问题,提出一种因果关系表示增强的跨领域命名实体识别模型,将源域的语义特征表示与目标域的语义特征表示进行融合,生成一种增强的上下文语义特征表示。通过结构因果模型捕捉增强后的特征变量与标签之间的因果关系。在目标域中应用因果干预和反事实推断策略,提取存在的直接因果效应,从而进一步缓解特征与标签之间的虚假相关性问题。该方法在公共数据集上进行了实验,实验结果得到了显著提高。 展开更多
关键词 跨领域命名实体识别 迁移学习 因果关系 结构因果模型 语义特征表示
下载PDF
基于Wobert与对抗学习的中文命名实体识别
9
作者 倪渊 廖世豪 张健 《计算机工程》 CAS CSCD 北大核心 2024年第11期119-129,共11页
由于自然语言处理(NLP)将中文命名实体识别(NER)任务建模为序列标注任务,将文本中每个字符映射至一个标签,每个字符相对独立且信息有限,因此在NER领域词汇信息的加入能够解决字符间缺乏联系的问题。针对现有中文NER模型多需要额外构建... 由于自然语言处理(NLP)将中文命名实体识别(NER)任务建模为序列标注任务,将文本中每个字符映射至一个标签,每个字符相对独立且信息有限,因此在NER领域词汇信息的加入能够解决字符间缺乏联系的问题。针对现有中文NER模型多需要额外构建词汇表、提取词汇信息方式繁琐、词级嵌入与字级嵌入因来源不同导致信息难以融合的问题,提出一种基于Wobert与对抗学习的中文NER模型ALWAE-BiLSTM-CRF。与传统预训练模型相比,Wobert预训练模型在预训练阶段就已将文本分词,充分学习了词与字两个层次的信息,因此ALWAE-BiLSTM-CRF通过Wobert预训练模型获取字符词向量,再使用Wobert分词器获取预训练模型中已存在的词汇向量,接着使用BiLSTM模型获取两者的时序信息,随后通过多头注意力机制将词汇级别的信息要素融入字符词向量,同时通过对抗学习攻击生成对抗样本以增强模型泛化性,最后使用条件随机场(CRF)层对结果进行约束,获得最佳的预测序列。在Resume数据集与瓷器领域的自建数据集Porcelain上进行对比实验与消融实验,结果表明,ALWAE-BiLSTM-CRF模型的F1值分别达到97.21%与85.7%,证明了其在中文NER任务中的有效性。 展开更多
关键词 深度学习 命名实体识别 注意力机制 特征融合 条件随机场
下载PDF
基于字形特征的血管外科命名实体识别
10
作者 张华青 夏张涛 +1 位作者 陆晓庆 童基均 《计算机工程》 CAS CSCD 北大核心 2024年第8期13-21,共9页
电子病历(EMR)作为医疗信息化建设的核心,蕴含着众多有价值的医疗实体,对电子病历进行命名实体识别有助于推进医学研究。为解决血管外科电子病历研究数据匮乏、实体复杂识别困难等问题,基于某三甲医院血管外科的真实临床数据,构建一个... 电子病历(EMR)作为医疗信息化建设的核心,蕴含着众多有价值的医疗实体,对电子病历进行命名实体识别有助于推进医学研究。为解决血管外科电子病历研究数据匮乏、实体复杂识别困难等问题,基于某三甲医院血管外科的真实临床数据,构建一个小规模的专科数据集作为实验数据集,并提出一种基于字形特征的命名实体识别模型。首先,采用掩码校正的来自Transformer的双向编码器表示(MacBERT)生成动态字向量,引入汉字四角码与汉字五笔两个维度的字形信息;然后,将文本表示传入双向门控循环单元(BiGRU)与门控空洞卷积神经网络(DGCNN)进行特征提取,并对输出结果进行拼接;最后,通过多头自注意力机制捕捉序列内部元素间的关系,利用条件随机场(CRF)进行标签解码。实验结果表明,所提模型在自建血管外科数据集上的精确率、召回率、F1值分别为96.45%、97.77%、97.10%,均优于对比模型,具有更好的实体识别性能。 展开更多
关键词 电子病历 血管外科 命名实体识别 特征融合 深度学习
下载PDF
基于多维特征分析的戏曲类方志文献命名实体识别研究
11
作者 翟姗姗 余华娟 +1 位作者 陈健瑶 夏立新 《情报学报》 CSSCI CSCD 北大核心 2024年第9期1094-1104,共11页
方志是我国特有的一种具有极高史料价值的地方文献,对其进行数字化处理并实施知识挖掘,对传承传播中华传统文化、建设文化强国具有重要意义。命名实体识别作为一种基础性技术与关键环节,对方志知识组织与发现具有重要影响。目前,虽然方... 方志是我国特有的一种具有极高史料价值的地方文献,对其进行数字化处理并实施知识挖掘,对传承传播中华传统文化、建设文化强国具有重要意义。命名实体识别作为一种基础性技术与关键环节,对方志知识组织与发现具有重要影响。目前,虽然方志命名实体识别已经取得了一定进展,但是仍缺乏适应方志文本特征与领域资源特征的系统化技术方案。基于此,本文提出融合多维特征与Bi-LSTM-CRF的戏曲类方志命名实体识别模型。首先,结合句法特征与符号、尾词、构词、上下文和负例等文本特征,对方志文献中的戏曲类实体特质进行解析;其次,利用在长文本结构中表现优异的Bi-LSTM-CRF模型,借助已解析的戏曲类实体特征,提升实体识别效率;最后,以《楚剧志》为具体对象开展实证研究,结果表明,本文提出的模型在命名实体识别效果上优于基准模型,F1值达到0.869。 展开更多
关键词 方志文献 戏曲类方志 命名实体识别 Bi-LSTM-CRF 多维特征分析
下载PDF
基于偏正结构表示的加工命名实体识别方法
12
作者 王素琴 王钰珏 +2 位作者 石敏 朱登明 李兆歆 《计算机集成制造系统》 EI CSCD 北大核心 2024年第3期958-967,共10页
制造企业积累大量的零件加工经验多以文本形式存在,如何从文本中挖掘出高质量的零件加工知识是个尚待解决的问题。针对待识别实体存在的偏正结构特征,导致实体边界界定模糊的问题,提出一种多网络协调的中文命名实体识别方法。在BERT生... 制造企业积累大量的零件加工经验多以文本形式存在,如何从文本中挖掘出高质量的零件加工知识是个尚待解决的问题。针对待识别实体存在的偏正结构特征,导致实体边界界定模糊的问题,提出一种多网络协调的中文命名实体识别方法。在BERT生成字向量的过程中,通过领域自适应方法,提高字向量对工艺实体的表征能力,同时,在BiLSTM-CRF模型中引入注意力机制和多门控制的混合专家网络捕获上下文特征与实体信息。实验表明,较于当前主流的命名实体识别模型,该文提出的方法对机械零件加工实体识别的F1值达到80.15%,取得优于其他模型的最好性能。 展开更多
关键词 中文命名实体识别 机械零件加工 多门控制的混合专家网络 领域自适应
下载PDF
多尺寸注意力的命名实体识别方法
13
作者 唐瑞雪 秦永彬 陈艳平 《计算机科学与探索》 CSCD 北大核心 2024年第2期506-515,共10页
命名实体识别(NER)任务的准确性将促进自然语言领域中诸多下游任务的研究。由于文本中存在大量嵌套语义,导致命名实体识别困难,成为自然语言处理中的难点。以往研究提取特征尺度单一,边界信息利用不够充分,忽略了不同尺度下的许多细节信... 命名实体识别(NER)任务的准确性将促进自然语言领域中诸多下游任务的研究。由于文本中存在大量嵌套语义,导致命名实体识别困难,成为自然语言处理中的难点。以往研究提取特征尺度单一,边界信息利用不够充分,忽略了不同尺度下的许多细节信息,从而造成实体识别错误或遗漏的情况。针对上述问题,提出一种多尺度注意力的命名实体识别方法(MSA-NER)。首先,利用BERT模型得到包含上下文信息的表示向量,并通过BiLSTM网络加强文本的上下文表示。其次,将表示向量进行枚举拼接形成跨度信息矩阵,并融合方向信息获得更丰富的交互信息。然后,利用多头注意力构建多个子空间,通过二维卷积在每个子空间下可选地聚合不同尺度的文本信息,在每个注意力层同时进行多尺度的特征融合。最后,将融合的矩阵进行跨度分类以识别命名实体。实验表明,该方法在GENIA和ACE2005英文数据集上F1分别达到81.7%和86.8%,与现有主流模型相比有更好的识别效果。 展开更多
关键词 命名实体识别(NER) 嵌套语义 多尺度注意力 卷积神经网络 子空间
下载PDF
面向小样本命名实体识别的标签语义增强原型网络
14
作者 黄伟光 宁佐廷 +1 位作者 段俊文 安莹 《中文信息学报》 CSCD 北大核心 2024年第10期95-105,共11页
小样本命名实体识别任务旨在通过有限数量的标注样本来识别并分类文本中的实体。目前,基于两阶段的小样本命名实体识别方法存在泛化能力差和原型类别混淆等问题。为了解决这些问题,该文提出了一种利用标签语义增强实体表示的两阶段方法... 小样本命名实体识别任务旨在通过有限数量的标注样本来识别并分类文本中的实体。目前,基于两阶段的小样本命名实体识别方法存在泛化能力差和原型类别混淆等问题。为了解决这些问题,该文提出了一种利用标签语义增强实体表示的两阶段方法。具体来说,该文使用蕴含语义信息的标签名称增强实体表示,并将其应用于跨度检测和实体分类模型。在跨度检测模型中,采用注意力机制将标签语义融入到文本表示,以减少跨度检测模型泛化能力不足的问题。同时,利用增强后的实体表示构建类别原型,使得原型可以获得更丰富的特征,从而降低了原型间的混淆。实验结果表明,该文方法可以充分利用标签语义信息,并在多个基准数据集上取得了良好的性能表现。 展开更多
关键词 小样本命名实体识别 原型网络 标签语义
下载PDF
基于混合式迁移学习的命名实体识别算法
15
作者 余肖生 张合欢 陈鹏 《计算机应用与软件》 北大核心 2024年第8期303-310,共8页
针对命名实体识别领域中大量标注数据难于获取而带来的问题,提出基于混合式迁移学习的命名实体识别算法——MT-NER。利用样本之间的距离作为权衡样本相似性的标准,进行样本迁移以扩充目标域样本;利用模型迁移建立带有finetune的新命名... 针对命名实体识别领域中大量标注数据难于获取而带来的问题,提出基于混合式迁移学习的命名实体识别算法——MT-NER。利用样本之间的距离作为权衡样本相似性的标准,进行样本迁移以扩充目标域样本;利用模型迁移建立带有finetune的新命名实体识别网络结构,用扩充后的目标域数据集来训练网络。以医疗领域为例的实验结果分析表明,MT-NER算法在小样本数据中的实体识别效果最佳,精度达到93.31%,召回率达到89.5%,F1值达到0.9317,与BiLSTM-CRF模型相比分别提升了6.33百分点、3.65百分点和0.0891。 展开更多
关键词 命名实体识别 迁移学习 双向LSTM-CRF 分布自适应
下载PDF
基于边界感知的工业设备故障命名实体识别方法
16
作者 葛卫京 刘晓丽 杜亚峰 《计算机应用与软件》 北大核心 2024年第6期237-242,249,共7页
命名实体识别在识别工业设备故障方面发挥关键作用,有助于故障预测、维护管理和智能决策。针对工业设备故障数据中存在的嵌套结构和长跨度问题,提出一种边界感知的实体识别方法。该方法通过边界感知精准定位实体跨距,并结合类别预测判... 命名实体识别在识别工业设备故障方面发挥关键作用,有助于故障预测、维护管理和智能决策。针对工业设备故障数据中存在的嵌套结构和长跨度问题,提出一种边界感知的实体识别方法。该方法通过边界感知精准定位实体跨距,并结合类别预测判断实体跨距的所属类别,以提高识别性能。此外,为解决标注数据的缺乏的问题,还构建面向工业设备故障的实体识别数据集。实验结果证明了该方法在工业设备故障实体识别方面的有效性,并为后续数据分析和知识图谱的构建提供了坚实基础。 展开更多
关键词 命名实体识别 预训练语言模型 工业设备 故障信息
下载PDF
CLGLF:置信学习引导标签融合的多模态命名实体识别方法
17
作者 王海荣 王彤 +2 位作者 徐玺 荆博祥 陈芳萍 《电子学报》 EI CAS CSCD 北大核心 2024年第7期2429-2437,共9页
为解决多模态命名实体识别中存在的视觉语义理解和多模态语义的偏差问题,本文提出了置信学习引导标签融合的多模态命名实体识别方法 .该方法调用BLIP-2预训练模型生成图像描述,将其与输入的文本拼接,进行图文联合编码实现多模态特征融合... 为解决多模态命名实体识别中存在的视觉语义理解和多模态语义的偏差问题,本文提出了置信学习引导标签融合的多模态命名实体识别方法 .该方法调用BLIP-2预训练模型生成图像描述,将其与输入的文本拼接,进行图文联合编码实现多模态特征融合,对多模态表征和文本表征解码后得到候选标签和文本标签;在采用KL散度损失函数对齐两组标签的基础上,计算置信分数用来评估多模态表征质量,设置置信阈值辅助筛选出有偏差的候选标签,并使用相应位置的文本标签替换有偏差的候选标签,实现标签的融合,最终完成多模态命名实体识别.为了验证本文方法,在Twitter-2015和Twitter-2017多模态数据集上进行实验,并将实验结果与MSB、UMT等7种主流方法进行对比,实验结果证明了本文方法的有效性. 展开更多
关键词 多模态命名实体识别 图像描述 置信学习 多模态语义偏差 信息抽取
下载PDF
基于XLBIC的石油开采数据命名实体识别研究
18
作者 任伟建 计妍 康朝海 《计算机仿真》 2024年第6期390-395,共6页
在石油领域命名实体识别的任务中,提出了基于XLBIC(XLNet-BiGRU-IDCNN-CRF)的命名实体识别模型。首先采用XLNet预训练模型获取丰富且准确的词向量信息,将获取的词向量信息送入BiGRU和IDCNN网络中进行特征提取。针对膨胀卷积网络(IDCNN)... 在石油领域命名实体识别的任务中,提出了基于XLBIC(XLNet-BiGRU-IDCNN-CRF)的命名实体识别模型。首先采用XLNet预训练模型获取丰富且准确的词向量信息,将获取的词向量信息送入BiGRU和IDCNN网络中进行特征提取。针对膨胀卷积网络(IDCNN)获取特征维度不高,模型计算速度较慢的问题,提出在IDCNN网络中引入门控机制,实现信息的多通道传输和流量控制,提高模型的计算速度。实验表明XLBIC命名实体识别模型在自建石油开采数据集上性能相比其它模型有提高,准确率在90%以上。 展开更多
关键词 命名实体识别 膨胀卷积网络 门控机制
下载PDF
联合多模态与多跨度特征的嵌套命名实体识别
19
作者 邱云飞 邢浩然 +1 位作者 于智龙 张文文 《计算机科学与探索》 CSCD 北大核心 2024年第6期1613-1626,共14页
嵌套命名实体识别(NNER)因日趋重要的现实意义成为信息抽取的研究热点。但是,由于语料资源匮乏、穷举窗口受限以及跨度特征缺失等问题,面向垂直领域的NNER研究进展缓慢且存在实体识别错误或遗漏的问题。针对上述问题,提出一种以矿物学... 嵌套命名实体识别(NNER)因日趋重要的现实意义成为信息抽取的研究热点。但是,由于语料资源匮乏、穷举窗口受限以及跨度特征缺失等问题,面向垂直领域的NNER研究进展缓慢且存在实体识别错误或遗漏的问题。针对上述问题,提出一种以矿物学为研究背景,融合语料感知词典的垂直领域NNER模型。首先,结合点互信息、词频逆文本频率算法与注意力机制自动集成语料感知词典,同时扩展锚文本知识提升模型的训练精度。其次,从共享视角出发,设计三种多模态信息的融合策略,训练编码器学习字符、字形、词汇的扩展向量表示,通过三重积运算和切片注意力机制,筛选整合由多层感知机捕捉到的私有表征,缩小异质特征的空间差距。再次,以自底向上的层级架构确定跨度间的上下文关联,生成建议跨度集合,以双仿射机制和线性分类器获得目标跨度与相邻跨度、目标跨度内部表征、目标跨度边界等特征。最后,为目标跨度分配对应的实体类型标签。在六项数据集上的实验结果表明,相比于基线模型,提出的方法实现了显著的性能提升,能有效提升低资源场景下的NNER任务效果。 展开更多
关键词 嵌套命名实体识别 多模态 多任务 远程监督 矿物学
下载PDF
多尺度视觉语义增强的多模态命名实体识别方法
20
作者 王海荣 徐玺 +1 位作者 王彤 陈芳萍 《自动化学报》 EI CAS CSCD 北大核心 2024年第6期1234-1245,共12页
为解决多模态命名实体识别(Multimodal named entity recognition,MNER)方法研究中存在的图像特征语义缺失和多模态表示语义约束较弱等问题,提出多尺度视觉语义增强的多模态命名实体识别方法(Multi-scale visual semantic enhancement f... 为解决多模态命名实体识别(Multimodal named entity recognition,MNER)方法研究中存在的图像特征语义缺失和多模态表示语义约束较弱等问题,提出多尺度视觉语义增强的多模态命名实体识别方法(Multi-scale visual semantic enhancement for multimodal named entity recognition method,MSVSE).该方法提取多种视觉特征用于补全图像语义,挖掘文本特征与多种视觉特征间的语义交互关系,生成多尺度视觉语义特征并进行融合,得到多尺度视觉语义增强的多模态文本表示;使用视觉实体分类器对多尺度视觉语义特征解码,实现视觉特征的语义一致性约束;调用多任务标签解码器挖掘多模态文本表示和文本特征的细粒度语义,通过联合解码解决语义偏差问题,从而进一步提高命名实体识别准确度.为验证该方法的有效性,在Twitter-2015和Twitter-2017数据集上进行实验,并与其他10种方法进行对比,该方法的平均F1值得到提升. 展开更多
关键词 多模态命名实体识别 多任务学习 多模态融合 TRANSFORMER
下载PDF
上一页 1 2 76 下一页 到第
使用帮助 返回顶部