期刊文献+
共找到1,770篇文章
< 1 2 89 >
每页显示 20 50 100
基于LEBERT的时间信息增强中文命名实体识别
1
作者 张光明 肖然 +3 位作者 张弛 高谦 谈栋华 彭菊红 《湖北大学学报(自然科学版)》 CAS 2025年第1期118-125,共8页
为解决现有预训练模型没有充分考虑汉语词汇的分割特征的问题,提出一种基于LEBERT-ILRN-RA-CRF的中文命名实体识别模型。该模型首先利用LEBERT对输入文本进行词汇表增强和嵌入处理,然后利用ILRN模块提取时间信息,并将字符-词融合与字向... 为解决现有预训练模型没有充分考虑汉语词汇的分割特征的问题,提出一种基于LEBERT-ILRN-RA-CRF的中文命名实体识别模型。该模型首先利用LEBERT对输入文本进行词汇表增强和嵌入处理,然后利用ILRN模块提取时间信息,并将字符-词融合与字向量采集相结合,最后使用条件随机场(CRF)进行结果校正。此外,该模型还引入了词汇量增强和残差门控注意网络来加强时间特征的提取和局部特征的表达,进一步提升了模型的识别效果。在Weibo和Resume两个数据集上分别取得了71.73%和96.51%的宏F1值。实验表明该模型可以考虑到汉语词汇的分割问题,改善中文命名实体识别任务的识别效果。 展开更多
关键词 中文命名实体识别 时间信息增强 LEBERT CRF 残差门控注意力机制
下载PDF
基于视觉与文本语义增强的多模态命名实体识别方法
2
作者 满芳滕 朱艳辉 +2 位作者 张志轩 应旭剑 陈豪 《湖南工业大学学报》 2025年第1期64-71,共8页
为了解决视觉特征和文本特征融合后存在部分语义缺失从而导致视觉信息对文本信息的补充有较大偏差的问题,提出了一种基于视觉与文本语义增强的多模态命名实体识别方法。融合BERT文本特征提取和CLIP(contrastive language–image pre-tra... 为了解决视觉特征和文本特征融合后存在部分语义缺失从而导致视觉信息对文本信息的补充有较大偏差的问题,提出了一种基于视觉与文本语义增强的多模态命名实体识别方法。融合BERT文本特征提取和CLIP(contrastive language–image pre-training)视觉特征提取方法,设计了基于协同交叉注意力机制的特征交互单元,以增强视觉信息和文本信息之间的语义关系。CLIP通过对比学习框架进行预训练,优化模型以正确匹配视觉和对应的文本描述,最大化正样本(匹配的视觉-文本对)的相似性,同时最小化负样本(不匹配的视觉-文本对)的相似性。采用通用领域数据集TWITTER-2015和TWITTER-2017作为实验数据集。实验结果表明,本模型相比传统方法在多模态命名实体识别任务中的准确率、召回率、F1值均有显著提升。 展开更多
关键词 多模态 命名实体识别 特征融合 语义增强
下载PDF
基于SciBERT-BiLSTM-CRF-wordMixup的软件实体识别研究
3
作者 潘雪莲 钱雨菲 王宪雨 《现代情报》 CSSCI 北大核心 2024年第10期75-85,共11页
[目的/意义]软件在现代科学研究中发挥着重要作用,高效识别学术文献中的软件实体对深入认识软件的学术价值、促进软件可持续发展和学术生态体系均衡发展具有重要意义。[方法/过程]本研究首先对软件实体进行定义;然后基于小型知识库的程... [目的/意义]软件在现代科学研究中发挥着重要作用,高效识别学术文献中的软件实体对深入认识软件的学术价值、促进软件可持续发展和学术生态体系均衡发展具有重要意义。[方法/过程]本研究首先对软件实体进行定义;然后基于小型知识库的程序辅助标注方案,构建软件实体识别领域语料库;在此基础上,提出改进的SciBERT-BiLSTM-CRF-wordMixup模型并对该模型的识别效果进行评估。[结果/结论]实验结果显示,本研究提出的改进模型SciBERT-BiLSTM-CRF-wordMixup在软件实体识别任务中表现最优,其整体F1值达到87.5%,说明该模型能够有效地从学术论文文本中识别出软件及其相关信息实体。 展开更多
关键词 软件实体识别 命名实体识别 深度学习 数据增强 SciBERT
下载PDF
中文医疗文本中的嵌套实体识别方法 被引量:2
4
作者 闫璟辉 宗成庆 徐金安 《软件学报》 EI CSCD 北大核心 2024年第6期2923-2935,共13页
实体识别是信息抽取的关键技术.相较于普通文本,中文医疗文本的实体识别任务往往面对大量的嵌套实体.以往识别实体的方法往往忽视了医疗文本本身所特有的实体嵌套规则而直接采用序列标注方法,为此,提出一种融合实体嵌套规则的中文实体... 实体识别是信息抽取的关键技术.相较于普通文本,中文医疗文本的实体识别任务往往面对大量的嵌套实体.以往识别实体的方法往往忽视了医疗文本本身所特有的实体嵌套规则而直接采用序列标注方法,为此,提出一种融合实体嵌套规则的中文实体识别方法.所提方法在训练过程中将实体的识别任务转化为实体的边界识别与边界首尾关系识别的联合训练任务,在解码过程中结合从实际医疗文本中所总结出来的实体嵌套规则对解码结果进行过滤,从而使得识别结果能够符合实际文本中内外层实体嵌套组合的组成规律.在公开的医疗文本实体识别的实验上取得良好的效果.数据集上的实验表明,所提方法在嵌套类型实体识别性能上显著优于已有的方法,在整体准确率方面比最先进的方法提高0.5%. 展开更多
关键词 实体识别 中文文本 医疗领域 嵌套实体识别 边界识别
下载PDF
结合实体边界线索的中文命名实体识别方法 被引量:1
5
作者 黄蓉 陈艳平 +2 位作者 扈应 黄瑞章 秦永彬 《计算机工程与应用》 CSCD 北大核心 2024年第6期199-206,共8页
命名实体识别作为信息抽取领域的一个基础任务,能为机器翻译、关系抽取等下游任务提供有效支撑,具有重要的研究意义。针对中文命名实体识别方法中存在的实体边界模糊的问题,提出了一种结合实体边界线索的命名实体识别模型,模型由边界检... 命名实体识别作为信息抽取领域的一个基础任务,能为机器翻译、关系抽取等下游任务提供有效支撑,具有重要的研究意义。针对中文命名实体识别方法中存在的实体边界模糊的问题,提出了一种结合实体边界线索的命名实体识别模型,模型由边界检测、线索生成、实体分类三个模块组成。利用边界检测模块识别实体边界。在线索生成模块中依据边界信息生成实体跨度,得到带边界线索标签的文本序列,使模型通过边界线索标签感知句子中的实体边界,学习实体边界和上下文的语义依赖特征。将带有边界线索标签的文本序列作为实体分类模块的输入,使用双仿射机制增强标签之间的语义交互,并结合双仿射机制与多层感知机的共同预测作为实体识别的结果。该模型在ACE2005中文数据集和Weibo数据集上的F1值分别达到了90.47%和73.54%,验证了模型对中文命名实体识别的有效性。 展开更多
关键词 命名实体识别 嵌套命名实体识别 线索标签 边界检测
下载PDF
基于RoBERTa-Span-Attack的标签指针网络军事命名实体识别 被引量:1
6
作者 罗兵 张显峰 +1 位作者 段立 陈琳 《海军工程大学学报》 CAS 北大核心 2024年第1期76-82,93,共8页
军事领域文本中存在大量军事实体信息,准确识别这些信息是军事文本信息提取和构建军事知识图谱的基础性任务。首先,提出了一种基于RoBERTa预训练模型、跨度和对抗训练的标签指针网络的融合深度模型(RoBERTa-Span-Attack),用于中文军事... 军事领域文本中存在大量军事实体信息,准确识别这些信息是军事文本信息提取和构建军事知识图谱的基础性任务。首先,提出了一种基于RoBERTa预训练模型、跨度和对抗训练的标签指针网络的融合深度模型(RoBERTa-Span-Attack),用于中文军事命名实体识别;然后,采用了一种基于Span的标签指针网络,同时完成实体的起止位置和类别的识别任务;最后,在模型训练过程中加入对抗训练策略,通过添加一些扰动来生成对抗样本进行训练。在军事领域数据集上的实验结果表明:所提出的军事领域命名实体识别模型相较于BERT-CRF、BERT-Softmax和BERT-Span,在识别准确度上具有更优的效果。 展开更多
关键词 军事命名实体识别 预训练模型 跨度 标签指针网络 对抗训练
下载PDF
融合领域词典嵌入的航空不安全事件命名实体识别 被引量:1
7
作者 许雅玺 孟天宇 +1 位作者 王欣 刘炳南 《科学技术与工程》 北大核心 2024年第8期3284-3290,共7页
针对航空不安全事件领域命名实体识别任务,以航空安全信息周报为数据源,分析并构建航空不安全事件命名实体识别数据集和领域词典。为解决传统命名实体识别模型对于捕获领域实体边界性能较差的问题,基于BERT(bidirectional encoder repre... 针对航空不安全事件领域命名实体识别任务,以航空安全信息周报为数据源,分析并构建航空不安全事件命名实体识别数据集和领域词典。为解决传统命名实体识别模型对于捕获领域实体边界性能较差的问题,基于BERT(bidirectional encoder representations from transformers)预训练语言模型提出融合领域词典嵌入的领域语义信息增强的方法。在自建数据集上进行多次对比实验,结果表明:所提出的方法可以进一步提升实体边界的识别率,相较于传统的双向长短期记忆网络-条件随机场(bi-directional long short term memory-conditional random field,BiLSTM-CRF)命名实体识别模型,性能提升约5%。 展开更多
关键词 航空不安全事件 领域词典 命名实体识别 预训练语言模型
下载PDF
基于命名实体识别的《神农本草经》知识图谱构建及可视化分析
8
作者 佟琳 张华敏 +4 位作者 佟旭 雷蕾 王程 曾子玲 杨洪军 《中国中医药信息杂志》 CAS CSCD 2024年第8期37-43,共7页
目的构建《神农本草经》知识图谱,分析本草知识、挖掘隐性知识并进行可视化展示,为古籍研究提供方法学参考。方法梳理并表述《神农本草经》文献涉及的知识实体类型和实体间关系,应用BIO序列标注方法生产训练语料数据集,使用自主研发的C... 目的构建《神农本草经》知识图谱,分析本草知识、挖掘隐性知识并进行可视化展示,为古籍研究提供方法学参考。方法梳理并表述《神农本草经》文献涉及的知识实体类型和实体间关系,应用BIO序列标注方法生产训练语料数据集,使用自主研发的CNLP文本标注系统进行文本标注,采用BERT模型识别命名实体,基于规则与语义关联设定确定实体间关系,经知识融合后,用Cypher语言导入图数据库Neo4j-community4.4.9进行存储和可视化展示,构建知识图谱。结果《神农本草经》知识图谱包含5273个节点、11064个关系,其模式层包含14种实体类、16种关系类型。可通过Cypher语言查询,从中药分类、药性理论、七情配伍、中药应用方面进行知识的可视化展示。结论本研究构建的知识图谱可直观反映《神农本草经》所载知识及隐性关系,适用于中医药古籍的知识挖掘及直观多维展示。 展开更多
关键词 知识图谱 神农本草经 本草知识 命名实体识别
下载PDF
图文语义增强的多模态命名实体识别方法
9
作者 徐玺 王海荣 +1 位作者 王彤 马赫 《计算机应用研究》 CSCD 北大核心 2024年第6期1679-1685,共7页
为了解决多模态命名实体识别方法中存在的图文语义缺失、多模态表征语义不明确等问题,提出了一种图文语义增强的多模态命名实体识别方法。其中,利用多种预训练模型分别提取文本特征、字符特征、区域视觉特征、图像关键字和视觉标签,以... 为了解决多模态命名实体识别方法中存在的图文语义缺失、多模态表征语义不明确等问题,提出了一种图文语义增强的多模态命名实体识别方法。其中,利用多种预训练模型分别提取文本特征、字符特征、区域视觉特征、图像关键字和视觉标签,以全面描述图文数据的语义信息;采用Transformer和跨模态注意力机制,挖掘图文特征间的互补语义关系,以引导特征融合,从而生成语义补全的文本表征和语义增强的多模态表征;整合边界检测、实体类别检测和命名实体识别任务,构建了多任务标签解码器,该解码器能对输入特征进行细粒度语义解码,以提高预测特征的语义准确性;使用这个解码器对文本表征和多模态表征进行联合解码,以获得全局最优的预测标签。在Twitter-2015和Twitter-2017基准数据集的大量实验结果显示,该方法在平均F 1值上分别提升了1.00%和1.41%,表明该模型具有较强的命名实体识别能力。 展开更多
关键词 多模态命名实体识别 多模态表示 多模态融合 多任务学习 命名实体识别
下载PDF
基于连续提示注入与指针网络的农业病害命名实体识别
10
作者 王春山 张宸硕 +3 位作者 吴华瑞 朱华吉 缪祎晟 张立杰 《农业机械学报》 EI CAS CSCD 北大核心 2024年第6期254-261,共8页
针对农业病害领域命名实体识别过程中存在的预训练语言模型利用不充分、外部知识注入利用率低、嵌套命名实体识别率低的问题,本文提出基于连续提示注入和指针网络的命名实体识别模型CP-MRC(Continuous prompts for machine reading comp... 针对农业病害领域命名实体识别过程中存在的预训练语言模型利用不充分、外部知识注入利用率低、嵌套命名实体识别率低的问题,本文提出基于连续提示注入和指针网络的命名实体识别模型CP-MRC(Continuous prompts for machine reading comprehension)。该模型引入BERT(Bidirectional encoder representation from transformers)预训练模型,通过冻结BERT模型原有参数,保留其在预训练阶段获取到的文本表征能力;为了增强模型对领域数据的适用性,在每层Transformer中插入连续可训练提示向量;为提高嵌套命名实体识别的准确性,采用指针网络抽取实体序列。在自建农业病害数据集上开展了对比实验,该数据集包含2933条文本语料,8个实体类型,共10414个实体。实验结果显示,CP-MRC模型的精确率、召回率、F1值达到83.55%、81.4%、82.4%,优于其他模型;在病原、作物两类嵌套实体的识别率较其他模型F1值提升3个百分点和13个百分点,嵌套实体识别率明显提升。本文提出的模型仅采用少量可训练参数仍然具备良好识别性能,为较大规模预训练模型在信息抽取任务上的应用提供了思路。 展开更多
关键词 农业病害 命名实体识别 连续提示 指针网络 嵌套实体 预训练语言模型
下载PDF
面向小样本命名实体识别的实体语义优先提示学习方法
11
作者 何丽 曾骁勇 +2 位作者 刘杰 段建勇 王昊 《计算机应用研究》 CSCD 北大核心 2024年第12期3622-3627,共6页
近些年来,提示学习在小样本命名实体识别任务上得到了广泛应用。然而,命名实体识别仍然是一个令牌级的标记任务,在通过提示模板调动预训练知识时,很容易忽略新实体类型的语义信息。为此,提出了一个语义优先的提示学习方法。具体来说,首... 近些年来,提示学习在小样本命名实体识别任务上得到了广泛应用。然而,命名实体识别仍然是一个令牌级的标记任务,在通过提示模板调动预训练知识时,很容易忽略新实体类型的语义信息。为此,提出了一个语义优先的提示学习方法。具体来说,首先检测少量示例中实体类型蕴涵的语义信息,然后将实体语义信息和询问实体位置的提示模板输入模型中,利用模型中的非自回归解码器并行预测来提取实体;此外,为了确保语义信息与实体类型的关联性,使用对比学习的方法来训练一个分类器,以去除与实体类型无关的语义信息;最后在两个常用的公共基准数据集上评估了所提方法,实验结果证明了该方法的有效性。 展开更多
关键词 小样本命名实体识别 提示学习 语义信息 对比学习
下载PDF
基于细粒度原型网络的小样本命名实体识别方法
12
作者 戚荣志 周俊宇 +1 位作者 李水艳 毛莺池 《软件学报》 EI CSCD 北大核心 2024年第10期4751-4765,共15页
原型网络直接应用于小样本命名实体识别(few-shot named entity recognition,FEW-NER)时存在以下问题:非实体之间不具有较强的语义关系,对实体和非实体都采用相同的方式构造原型将会造成非实体原型不能准确表示非实体的语义特征;仅使用... 原型网络直接应用于小样本命名实体识别(few-shot named entity recognition,FEW-NER)时存在以下问题:非实体之间不具有较强的语义关系,对实体和非实体都采用相同的方式构造原型将会造成非实体原型不能准确表示非实体的语义特征;仅使用平均实体向量表示作为原型的计算方式将难以捕捉语义特征相差较大的同类实体.针对上述问题,提出基于细粒度原型网络的小样本命名实体识别(FEW-NER based on fine-grained prototypical networks,FNFP)方法,有助于提高小样本命名实体识别的标注效果.首先,为不同的查询集样本构造不同的非实体原型,捕捉句子中关键的非实体语义特征,得到更为细粒度的原型,提升模型对非实体的识别效果;然后,设计一个不一致性度量模块以衡量同类实体之间的不一致性,对实体与非实体采用不同的度量函数,从而减小同类样本之间的特征表示,提升原型的特征表示能力;最后,引入维特比解码器捕捉标签转换关系,优化最终的标注序列.实验结果表明,采用基于细粒度原型网络的小样本命名实体识别方法,在大规模小样本命名实体识别数据集FEW-NERD上,较基线方法获得提升;同时在跨领域数据集上验证所提方法在不同领域场景下的泛化能力. 展开更多
关键词 小样本命名实体识别 细粒度原型网络 小样本学习 特征表示
下载PDF
基于多头注意力机制字词联合的中文命名实体识别
13
作者 王进 王猛旗 +2 位作者 张昕跃 孙开伟 朴昌浩 《江苏大学学报(自然科学版)》 CAS 北大核心 2024年第1期77-84,共8页
针对现有基于字词联合的中文命名实体识别方法会引入冗余词汇干扰、模型网络结构复杂、难以迁移的问题,提出一种基于多头注意力机制字词联合的中文命名实体识别算法.算法采用多头注意力机制融合词汇边界信息,并通过分类融合BIE词集降低... 针对现有基于字词联合的中文命名实体识别方法会引入冗余词汇干扰、模型网络结构复杂、难以迁移的问题,提出一种基于多头注意力机制字词联合的中文命名实体识别算法.算法采用多头注意力机制融合词汇边界信息,并通过分类融合BIE词集降低冗余词汇干扰.建立了多头注意力字词联合模型,包含字词匹配、多头注意力、融合等模块.与现有中文命名实体识别方法相比,本算法避免了设计复杂的序列模型,方便与现有基于字的中文命名实体识别模型结合.采用召回率、精确率以及F 1值作为评价指标,通过消融试验验证模型各个部分的效果.结果表明,本算法在MSRA和Weibo数据集上F 1值分别提升0.28、0.69,在Resume数据集上精确率提升0.07. 展开更多
关键词 中文命名实体识别 词汇冗余 词汇边界信息 字词联合 多头注意力机制 BIE词集
下载PDF
因果关系表示增强的跨领域命名实体识别
14
作者 刘小明 曹梦远 +2 位作者 杨关 刘杰 王杭 《计算机工程与应用》 CSCD 北大核心 2024年第18期176-188,共13页
跨领域命名实体识别在现实应用中,尤其在目标领域数据稀缺的小样本场景中具有重要价值。然而,现有方法主要是通过特征表示或模型参数共享实现的跨领域实体能力迁移,未充分考虑由于样本选择偏差而引起的虚假相关性问题。为了解决跨领域... 跨领域命名实体识别在现实应用中,尤其在目标领域数据稀缺的小样本场景中具有重要价值。然而,现有方法主要是通过特征表示或模型参数共享实现的跨领域实体能力迁移,未充分考虑由于样本选择偏差而引起的虚假相关性问题。为了解决跨领域中的虚假相关性问题,提出一种因果关系表示增强的跨领域命名实体识别模型,将源域的语义特征表示与目标域的语义特征表示进行融合,生成一种增强的上下文语义特征表示。通过结构因果模型捕捉增强后的特征变量与标签之间的因果关系。在目标域中应用因果干预和反事实推断策略,提取存在的直接因果效应,从而进一步缓解特征与标签之间的虚假相关性问题。该方法在公共数据集上进行了实验,实验结果得到了显著提高。 展开更多
关键词 跨领域命名实体识别 迁移学习 因果关系 结构因果模型 语义特征表示
下载PDF
基于RoBERTa_BiLSTM_CRF的文本情报命名实体识别 被引量:1
15
作者 陆泽健 赵文 尹港港 《中国电子科学研究院学报》 2024年第5期442-447,共6页
随着网络信息的爆炸式增长,威胁情报分析作为军事情报分析与战略决策的重要组成部分,其面临着来源多样化和信息结构复杂化的挑战。传统的人工信息提取方法在处理这些大量结构化及非结构化信息时效率低下,准确性有限。文中针对这一挑战,... 随着网络信息的爆炸式增长,威胁情报分析作为军事情报分析与战略决策的重要组成部分,其面临着来源多样化和信息结构复杂化的挑战。传统的人工信息提取方法在处理这些大量结构化及非结构化信息时效率低下,准确性有限。文中针对这一挑战,提出了一种结合RoBERTa、BiLSTM和条件随机场(Conditional Random Fields,CRF)的命名实体识别新算法。此算法通过Ro-BERTa模型深入挖掘文本的语义特征,BiLSTM模型捕捉序列上下文信息,CRF层用于精确的实体标记,从而有效提升信息提取的准确率和效率。本文基于开源情报语料库构建了一个涉及导弹发射事件的命名实体识别数据集,并在此基础上进行了实验,结果表明,该方法在精确率、召回率及F1值等关键指标上相较于主流深度学习方法表现出显著的性能提升,其中F1值高达94.21%。 展开更多
关键词 威胁情报分析 命名实体识别 RoBERTa BiLSTM CRF
下载PDF
基于命名实体识别的水电工程施工安全规范实体识别模型
16
作者 陈述 张超 +2 位作者 陈云 张光飞 李智 《中国安全科学学报》 CAS CSCD 北大核心 2024年第9期19-26,共8页
为准确识别水电工程施工安全规范实体,通过预训练模型中双向编码器表征法(BERT)挖掘文本中丰富的语义信息,利用双向长短期记忆神经网络(BILSTM)提取规范实体语义特征,依靠条件随机场(CRF)分析实体之间的依赖关系,构建水电工程施工安全... 为准确识别水电工程施工安全规范实体,通过预训练模型中双向编码器表征法(BERT)挖掘文本中丰富的语义信息,利用双向长短期记忆神经网络(BILSTM)提取规范实体语义特征,依靠条件随机场(CRF)分析实体之间的依赖关系,构建水电工程施工安全规范的命名实体识别模型;以《水利水电工程施工安全防护技术规范》(SL714—2015)为例,计算命名实体识别模型精确率。结果表明:BERT-BILSTM-CRF模型准确率为94.35%,相比于3种传统方法,准确率显著提高。研究成果有助于水电工程施工安全规范知识智能管理,为施工安全隐患智能判别提供支撑。 展开更多
关键词 命名实体识别 水电工程施工 安全规范 双向编码器表征法(BERT) 双向长短期记忆神经网络(BILSTM) 条件随机场(CRF)
下载PDF
融合知识的文博领域低资源命名实体识别方法研究
17
作者 李超 侯霞 乔秀明 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第1期13-22,共10页
文物数据的实体嵌套问题明显,实体边界不唯一,且文博领域已标注数据极度缺乏,导致该领域命名实体识别性能较低。针对这些问题,构建一个可用于文物命名实体识别的数据集FewRlicsData,提出一种融合知识的文博领域低资源命名实体识别方法Re... 文物数据的实体嵌套问题明显,实体边界不唯一,且文博领域已标注数据极度缺乏,导致该领域命名实体识别性能较低。针对这些问题,构建一个可用于文物命名实体识别的数据集FewRlicsData,提出一种融合知识的文博领域低资源命名实体识别方法RelicsNER。该方法将类别描述信息的语义知识融入文物文本中,使用基于跨度的方式进行解码,用于改善实体嵌套问题,并采用边界平滑的方式缓解跨度识别模型的过度自信问题。与基线模型相比,该方法在FewRlicsData数据集上的F1值有所提升,在文博领域命名实体识别任务中取得较好的性能。在公开数据集OntoNotes 4.0上的实验结果证明该方法具有较好的泛化性,同时在数据集OntoNotes 4.0和MSRA上进行小规模数据实验,性能均高于基线模型,说明所提方法适用于低资源场景。 展开更多
关键词 文博领域 命名实体识别 知识融合 注意力机制
下载PDF
基于字形特征的血管外科命名实体识别
18
作者 张华青 夏张涛 +1 位作者 陆晓庆 童基均 《计算机工程》 CAS CSCD 北大核心 2024年第8期13-21,共9页
电子病历(EMR)作为医疗信息化建设的核心,蕴含着众多有价值的医疗实体,对电子病历进行命名实体识别有助于推进医学研究。为解决血管外科电子病历研究数据匮乏、实体复杂识别困难等问题,基于某三甲医院血管外科的真实临床数据,构建一个... 电子病历(EMR)作为医疗信息化建设的核心,蕴含着众多有价值的医疗实体,对电子病历进行命名实体识别有助于推进医学研究。为解决血管外科电子病历研究数据匮乏、实体复杂识别困难等问题,基于某三甲医院血管外科的真实临床数据,构建一个小规模的专科数据集作为实验数据集,并提出一种基于字形特征的命名实体识别模型。首先,采用掩码校正的来自Transformer的双向编码器表示(MacBERT)生成动态字向量,引入汉字四角码与汉字五笔两个维度的字形信息;然后,将文本表示传入双向门控循环单元(BiGRU)与门控空洞卷积神经网络(DGCNN)进行特征提取,并对输出结果进行拼接;最后,通过多头自注意力机制捕捉序列内部元素间的关系,利用条件随机场(CRF)进行标签解码。实验结果表明,所提模型在自建血管外科数据集上的精确率、召回率、F1值分别为96.45%、97.77%、97.10%,均优于对比模型,具有更好的实体识别性能。 展开更多
关键词 电子病历 血管外科 命名实体识别 特征融合 深度学习
下载PDF
基于Wobert与对抗学习的中文命名实体识别
19
作者 倪渊 廖世豪 张健 《计算机工程》 CAS CSCD 北大核心 2024年第11期119-129,共11页
由于自然语言处理(NLP)将中文命名实体识别(NER)任务建模为序列标注任务,将文本中每个字符映射至一个标签,每个字符相对独立且信息有限,因此在NER领域词汇信息的加入能够解决字符间缺乏联系的问题。针对现有中文NER模型多需要额外构建... 由于自然语言处理(NLP)将中文命名实体识别(NER)任务建模为序列标注任务,将文本中每个字符映射至一个标签,每个字符相对独立且信息有限,因此在NER领域词汇信息的加入能够解决字符间缺乏联系的问题。针对现有中文NER模型多需要额外构建词汇表、提取词汇信息方式繁琐、词级嵌入与字级嵌入因来源不同导致信息难以融合的问题,提出一种基于Wobert与对抗学习的中文NER模型ALWAE-BiLSTM-CRF。与传统预训练模型相比,Wobert预训练模型在预训练阶段就已将文本分词,充分学习了词与字两个层次的信息,因此ALWAE-BiLSTM-CRF通过Wobert预训练模型获取字符词向量,再使用Wobert分词器获取预训练模型中已存在的词汇向量,接着使用BiLSTM模型获取两者的时序信息,随后通过多头注意力机制将词汇级别的信息要素融入字符词向量,同时通过对抗学习攻击生成对抗样本以增强模型泛化性,最后使用条件随机场(CRF)层对结果进行约束,获得最佳的预测序列。在Resume数据集与瓷器领域的自建数据集Porcelain上进行对比实验与消融实验,结果表明,ALWAE-BiLSTM-CRF模型的F1值分别达到97.21%与85.7%,证明了其在中文NER任务中的有效性。 展开更多
关键词 深度学习 命名实体识别 注意力机制 特征融合 条件随机场
下载PDF
基于知识图谱增强的领域多模态实体识别
20
作者 李华昱 张智康 +1 位作者 闫阳 岳阳 《计算机工程》 CAS CSCD 北大核心 2024年第8期31-39,共9页
针对特定领域中文命名实体识别存在的局限性,提出一种利用学科图谱和图像提高实体识别准确率的模型,旨在利用领域图谱和图像提高计算机学科领域短文本中实体识别的准确率。使用基于BERT-BiLSTMAttention的模型提取文本特征,使用ResNet15... 针对特定领域中文命名实体识别存在的局限性,提出一种利用学科图谱和图像提高实体识别准确率的模型,旨在利用领域图谱和图像提高计算机学科领域短文本中实体识别的准确率。使用基于BERT-BiLSTMAttention的模型提取文本特征,使用ResNet152提取图像特征,并使用分词工具获得句子中的名词实体。通过BERT将名词实体与图谱节点进行特征嵌入,利用余弦相似度查找句子中的分词在学科图谱中最相似的节点,保留到该节点距离为1的邻居节点,生成最佳匹配子图,作为句子的语义补充。使用多层感知机(MLP)将文本、图像和子图3种特征映射到同一空间,并通过独特的门控机制实现文本和图像的细粒度跨模态特征融合。最后,通过交叉注意力机制将多模态特征与子图特征进行融合,输入解码器进行实体标记。在Twitter2015、Twitter2017和自建计算机学科数据集上同基线模型进行实验比较,结果显示,所提方法在领域数据集上的精确率、召回率和F1值分别可达88.56%、87.47%和88.01%,与最优基线模型相比,F1值提高了1.36个百分点,表明利用领域知识图谱能有效提升实体识别效果。 展开更多
关键词 命名实体识别 多模态 领域 知识图谱 跨模态特征融合 注意力机制
下载PDF
上一页 1 2 89 下一页 到第
使用帮助 返回顶部