期刊文献+
共找到207篇文章
< 1 2 11 >
每页显示 20 50 100
基于关联记忆网络的中文细粒度命名实体识别 被引量:12
1
作者 琚生根 李天宁 孙界平 《软件学报》 EI CSCD 北大核心 2021年第8期2545-2556,共12页
细粒度命名实体识别是对文本中的实体进行定位,并将其分类至预定义的细粒度类别中.目前,中文细粒度命名实体识别仅使用预训练语言模型对句子中的字符进行上下文编码,并没有考虑到类别的标签信息具有区分实体类别的能力.由于预测句子不... 细粒度命名实体识别是对文本中的实体进行定位,并将其分类至预定义的细粒度类别中.目前,中文细粒度命名实体识别仅使用预训练语言模型对句子中的字符进行上下文编码,并没有考虑到类别的标签信息具有区分实体类别的能力.由于预测句子不带有实体标签,使用关联记忆网络来捕获训练集句子的实体标签信息,并将标签信息融入预测句子的字符表示中.该方法将训练集中带实体标签的句子作为记忆单元,利用预训练语言模型获取原句子和记忆单元句子的上下文表示,再通过注意力机制将记忆单元句子的标签信息与原句子的表示结合,从而提升识别效果.在CLUENER2020中文细粒度命名实体识别任务上,该方法对比基线方法获得了提升. 展开更多
关键词 中文细粒度命名实体识别 关联记忆网络 多头自注意力 预训练语言模型
下载PDF
基于细粒度原型网络的小样本命名实体识别方法
2
作者 戚荣志 周俊宇 +1 位作者 李水艳 毛莺池 《软件学报》 EI CSCD 北大核心 2024年第10期4751-4765,共15页
原型网络直接应用于小样本命名实体识别(few-shot named entity recognition,FEW-NER)时存在以下问题:非实体之间不具有较强的语义关系,对实体和非实体都采用相同的方式构造原型将会造成非实体原型不能准确表示非实体的语义特征;仅使用... 原型网络直接应用于小样本命名实体识别(few-shot named entity recognition,FEW-NER)时存在以下问题:非实体之间不具有较强的语义关系,对实体和非实体都采用相同的方式构造原型将会造成非实体原型不能准确表示非实体的语义特征;仅使用平均实体向量表示作为原型的计算方式将难以捕捉语义特征相差较大的同类实体.针对上述问题,提出基于细粒度原型网络的小样本命名实体识别(FEW-NER based on fine-grained prototypical networks,FNFP)方法,有助于提高小样本命名实体识别的标注效果.首先,为不同的查询集样本构造不同的非实体原型,捕捉句子中关键的非实体语义特征,得到更为细粒度的原型,提升模型对非实体的识别效果;然后,设计一个不一致性度量模块以衡量同类实体之间的不一致性,对实体与非实体采用不同的度量函数,从而减小同类样本之间的特征表示,提升原型的特征表示能力;最后,引入维特比解码器捕捉标签转换关系,优化最终的标注序列.实验结果表明,采用基于细粒度原型网络的小样本命名实体识别方法,在大规模小样本命名实体识别数据集FEW-NERD上,较基线方法获得提升;同时在跨领域数据集上验证所提方法在不同领域场景下的泛化能力. 展开更多
关键词 小样本命名实体识别 细粒度原型网络 小样本学习 特征表示
下载PDF
东北亚舆情文本细粒度命名实体识别方法研究
3
作者 隗昊 刁宏悦 +1 位作者 孔亮宸 邓耀臣 《计算机工程》 CAS CSCD 北大核心 2024年第5期354-362,共9页
东北亚地区的国际形势变化与中国的发展密切相关,面向该地区构建舆情信息知识图谱可以有效地监测舆情热点,这不仅能够引导社会舆论健康发展及协助政府决策,而且对防范政治营销、提升国家语言能力、构建和谐稳定国际关系具有重大价值。... 东北亚地区的国际形势变化与中国的发展密切相关,面向该地区构建舆情信息知识图谱可以有效地监测舆情热点,这不仅能够引导社会舆论健康发展及协助政府决策,而且对防范政治营销、提升国家语言能力、构建和谐稳定国际关系具有重大价值。命名实体识别是构建知识图谱的关键技术和核心任务,受到研究者广泛的关注。以社交媒体、门户网站与东北亚地区相关的实时热点舆情文本作为数据源,充分考虑到东北亚地区的区域特点和地缘结构,建立包含10个大类、35个子类的细粒度命名实体识别数据集,并提出基于预训练语言模型Ro BERTa和多层残差BiL STM-CRF架构(Ro BERTa-Res BiLSTM-CRF)的舆情实体识别模型,同时在模型完成标签预测后设计基于规则模板的后处理策略,以提高整体的实体识别性能。实验结果表明,所提出的舆情命名实体识别模型的性能优于主流的传统神经网络模型,验证了该方法的有效性。 展开更多
关键词 细粒度 命名实体识别 舆情文本 深度学习 预训练语言模型
下载PDF
基于多头注意力机制字词联合的中文命名实体识别
4
作者 王进 王猛旗 +2 位作者 张昕跃 孙开伟 朴昌浩 《江苏大学学报(自然科学版)》 CAS 北大核心 2024年第1期77-84,共8页
针对现有基于字词联合的中文命名实体识别方法会引入冗余词汇干扰、模型网络结构复杂、难以迁移的问题,提出一种基于多头注意力机制字词联合的中文命名实体识别算法.算法采用多头注意力机制融合词汇边界信息,并通过分类融合BIE词集降低... 针对现有基于字词联合的中文命名实体识别方法会引入冗余词汇干扰、模型网络结构复杂、难以迁移的问题,提出一种基于多头注意力机制字词联合的中文命名实体识别算法.算法采用多头注意力机制融合词汇边界信息,并通过分类融合BIE词集降低冗余词汇干扰.建立了多头注意力字词联合模型,包含字词匹配、多头注意力、融合等模块.与现有中文命名实体识别方法相比,本算法避免了设计复杂的序列模型,方便与现有基于字的中文命名实体识别模型结合.采用召回率、精确率以及F 1值作为评价指标,通过消融试验验证模型各个部分的效果.结果表明,本算法在MSRA和Weibo数据集上F 1值分别提升0.28、0.69,在Resume数据集上精确率提升0.07. 展开更多
关键词 中文命名实体识别 词汇冗余 词汇边界信息 字词联合 多头注意力机制 BIE词集
下载PDF
融合标签知识的中文医学命名实体识别
5
作者 尹宝生 周澎 《计算机科学》 CSCD 北大核心 2024年第S01期128-134,共7页
医学领域命名实体识别是信息抽取任务重要的研究内容之一,其训练数据主要来源于临床实验数据、健康档案、电子病历等非结构化文本,然而标注这些数据需要专业人员耗费大量人力、物力和时间资源。在缺乏大规模医学训练数据的情况下,医学... 医学领域命名实体识别是信息抽取任务重要的研究内容之一,其训练数据主要来源于临床实验数据、健康档案、电子病历等非结构化文本,然而标注这些数据需要专业人员耗费大量人力、物力和时间资源。在缺乏大规模医学训练数据的情况下,医学领域命名实体识别模型很容易出现识别错误的情况。为解决这一难题,文中提出了一种融合标签知识的中文医学命名实体识别方法,即通过专业领域词典获得文本标签的释义后,分别将文本、标签及标签释义编码,基于自适应融合机制进行融合,有效平衡特征提取模块和语义增强模块的信息流,从而提高模型性能。其核心思想在于医学实体标签是通过总结归纳大量医学数据得到的,而标签释义是对标签进行科学解释和说明的结果,模型融入这些蕴含了丰富的医学领域内的先验知识,可以使其更准确地理解实体在医学领域中的语义并提升其识别效果。实验结果表明,该方法在中文医学实体抽取数据集(CMeEE-V2)3个基线模型上分别取得了0.71%,0.53%和1.17%的提升,并且为小样本场景下的实体识别提供了一个有效的解决方案。 展开更多
关键词 中文医学命名实体识别 标签知识 先验知识 自适应融合机制 小样本
下载PDF
位置标签增强的中文医学命名实体级联识别
6
作者 王旭阳 赵丽婕 张继远 《计算机工程与应用》 CSCD 北大核心 2024年第2期121-128,共8页
针对一般领域的命名实体识别方法不能直接用于中文医学专业实体的识别,现有的相关研究只专注于英文文本和扁平结构的医学实体识别等问题,通过对专业领域实体识别方法的研究,结合中文医学实体的特点提出了一种面向中文医学实体的级联识... 针对一般领域的命名实体识别方法不能直接用于中文医学专业实体的识别,现有的相关研究只专注于英文文本和扁平结构的医学实体识别等问题,通过对专业领域实体识别方法的研究,结合中文医学实体的特点提出了一种面向中文医学实体的级联识别方法。将每个字符元素相对于实体的位置标签嵌入模型,并结合中文医学实体跨度内不同元素的重要程度进行实体的融合表示。通过序列标注方法检测字符的位置标签,利用字符的位置信息指导候选实体生成,并进行实体语义分类。模型在CMeEE和CCKS2018数据集以及中文糖尿病科研文献数据集上分别进行扁平实体、嵌套实体和不连续性长实体的识别实验。实验结果表明,该方法能够有效地识别中文医学文本中不同结构的实体。 展开更多
关键词 中文医学命名实体 位置标签嵌入 结合元素重要程度的实体融合表示 级联识别 线性结构
下载PDF
RIB-NER:基于跨度的中文命名实体识别模型
7
作者 田红鹏 吴璟玮 《计算机工程与科学》 CSCD 北大核心 2024年第7期1311-1320,共10页
命名实体识别是自然语言处理领域中诸多下游任务的重要基础。汉语作为重要的国际语言,在许多方面具有独特性。传统上,中文命名实体识别任务模型使用序列标记机制,该机制需要条件随机场捕获标签的依赖性,然而,这种方法容易出现标签的错... 命名实体识别是自然语言处理领域中诸多下游任务的重要基础。汉语作为重要的国际语言,在许多方面具有独特性。传统上,中文命名实体识别任务模型使用序列标记机制,该机制需要条件随机场捕获标签的依赖性,然而,这种方法容易出现标签的错误分类。针对这个问题,提出基于跨度的命名实体识别模型RIB-NER。首先,以RoBERTa-wwm-ext作为模型嵌入层,提供字符级嵌入,以获得更多的上下文语义信息和词汇信息。其次,利用IDCNN的并行卷积核来增强词之间的位置信息,从而使词与词之间联系更加紧密。同时,在模型中融合BiLSTM网络来获取上下文信息。最后,采用双仿射模型对句子中的开始标记和结束标记评分,使用这些标记探索跨度。在MSRA和Weibo 2个语料库上的实验结果表明,RIB-NER能够较为准确地识别实体边界,并分别获得了95.11%和73.94%的F1值。与传统深度学习相比,有更好的识别效果。 展开更多
关键词 中文命名实体识别 双仿射模型 迭代膨胀卷积神经网络 预训练模型 跨度
下载PDF
中文命名实体识别研究综述 被引量:14
8
作者 赵继贵 钱育蓉 +2 位作者 王魁 侯树祥 陈嘉颖 《计算机工程与应用》 CSCD 北大核心 2024年第1期15-27,共13页
命名实体识别(named entity recognition,NER)是自然语言处理中最基本的任务之一,其主要内容是识别自然语言文本中具有特定意义的实体类型和边界。然而,中文命名实体识别(Chinese named entity recognition,CNER)的数据样本存在词边界... 命名实体识别(named entity recognition,NER)是自然语言处理中最基本的任务之一,其主要内容是识别自然语言文本中具有特定意义的实体类型和边界。然而,中文命名实体识别(Chinese named entity recognition,CNER)的数据样本存在词边界模糊、语义多样化、形态特征模糊以及中文语料库内容较少等问题,导致中文命名实体识别性能难以大幅提升。介绍了CNER的数据集、标注方案和评价指标。按照CNER的研究进程,将CNER方法分为基于规则的方法、基于统计的方法和基于深度学习的方法三类,并对近五年来基于深度学习的CNER主要模型进行总结。探讨CNER的研究趋势,为新方法的提出和未来研究方向提供一定参考。 展开更多
关键词 自然语言处理 中文命名实体识别 深度学习 预训练模型 机器学习
下载PDF
基于多头注意力的中文电子病历命名实体识别 被引量:2
9
作者 肖丹 杨春明 +2 位作者 张晖 赵旭剑 李波 《计算机应用与软件》 北大核心 2024年第1期133-138,160,共7页
针对中文电子病历中复杂医疗实体的识别问题,提出一种联合特征与多头注意力相结合的实体识别方法。该方法使用字符、词性和词典组成的联合特征,利用BiLSTM和多头注意力分别提取句子的全局特征和局部特征,利用CRF结合所有特征完成实体标... 针对中文电子病历中复杂医疗实体的识别问题,提出一种联合特征与多头注意力相结合的实体识别方法。该方法使用字符、词性和词典组成的联合特征,利用BiLSTM和多头注意力分别提取句子的全局特征和局部特征,利用CRF结合所有特征完成实体标签的预测。实验结果表明,该方法F1值达89.16%,其中治疗和疾病两类实体分别达到94.76%和95.56%。 展开更多
关键词 命名实体识别 中文电子病历 多头注意力 长短期记忆网络 条件随机场
下载PDF
基于BERT和领域词典融合的中文电子病历命名实体识别 被引量:1
10
作者 叶恩光 张晓如 +3 位作者 张再跃 丁腊春 朱向南 王译 《计算机与数字工程》 2024年第3期746-750,767,共6页
医疗数据挖掘的起始环节为CNER(中文电子病历命名实体识别),将相关实体(解剖部位、药品、影像检查等)识别出非结构化文本是其目标所在。基于CNER准确性提升需要,论文设计了BERT-BiLSTM-CRF模型融合领域词典技术,该技术能将上下文语义关... 医疗数据挖掘的起始环节为CNER(中文电子病历命名实体识别),将相关实体(解剖部位、药品、影像检查等)识别出非结构化文本是其目标所在。基于CNER准确性提升需要,论文设计了BERT-BiLSTM-CRF模型融合领域词典技术,该技术能将上下文语义关系全面结合,一词多义问题同样可以迎刃而解,获取电子病历句子的长距离依赖。CNER采用BERT-BiLSTM-CRF模型融合领域词典技术时的F1值已经被实验结果所证实,对知识图谱的构建、临床决策支持系统和病历质控系统等的研究有着重要意义。 展开更多
关键词 中文电子病历 命名实体识别 BERT-BiLSTM-CRF 领域词典
下载PDF
基于局部增强的中文医疗命名实体识别模型
11
作者 陈晶 邢珂萱 +2 位作者 孟伟伦 郭景峰 冯建周 《通信学报》 EI CSCD 北大核心 2024年第7期171-183,共13页
医学实体的识别往往受到其相邻上下文的影响,目前的命名实体识别方法通常依赖于BiLSTM捕捉文本中的全局依赖关系,缺乏对字符之间局部依赖关系的建模。针对这一问题,提出了一种基于局部增强的中文医疗命名实体识别模型LENER。首先,LENER... 医学实体的识别往往受到其相邻上下文的影响,目前的命名实体识别方法通常依赖于BiLSTM捕捉文本中的全局依赖关系,缺乏对字符之间局部依赖关系的建模。针对这一问题,提出了一种基于局部增强的中文医疗命名实体识别模型LENER。首先,LENER使用包括字音、字形和语义在内的多源信息来丰富底层字符表征。然后,结合相对位置编码对滑动窗口划分出的序列片段进行局部注意力计算,并通过非线性计算融合局部信息和BiLSTM得到的全局信息。最后,对识别出的实体头部和尾部进行组合,进而提取出实体。实验结果表明,LENER模型具有良好的实体识别能力,与其他模型相比,LENER模型的F1值提升了0.5%~2.0%。 展开更多
关键词 中文命名实体识别 上下文环境 注意力机制 多源信息 滑动窗口
下载PDF
基于汉字上下文信息增强词典知识融入的中文命名实体识别
12
作者 赵振宇 朱静静 +3 位作者 张宇馨 刘梦珠 陈黎 琚生根 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第4期104-112,共9页
由于中文语言缺少显式的分隔符,使得中文命名实体识别任务面临缺少词语边界信息的难题.为了解决这一问题,现有的主流模型通过引入词典来利用词语边界信息.然而,词典中的词语信息只是根据字词之间的匹配关系融入汉字表示中,忽视了句子信... 由于中文语言缺少显式的分隔符,使得中文命名实体识别任务面临缺少词语边界信息的难题.为了解决这一问题,现有的主流模型通过引入词典来利用词语边界信息.然而,词典中的词语信息只是根据字词之间的匹配关系融入汉字表示中,忽视了句子信息对于词语选择的影响,与句子语义信息无关的词语不可避免地引入到模型中,使模型感知错误的词语边界信息.为了减少无关词语对于实体识别结果的影响,本文提出了一种新的中文命名实体识别方法 ELKI,通过带有句子语义信息的汉字上下文表示来增强词典知识的融入,从而改善模型感知词语边界的精度.具体地,本文设计了一种新型的交叉注意力网络从词典中挖掘与语义信息相关的词语信息.同时,本文构造了一种门控融合网络来动态地将词典知识融入到汉字的上下文表示中.在Resume、MSRA和OntoNotes三个基准数据集上的实验结果表明本文方法优于其它的基线模型. 展开更多
关键词 中文命名实体识别 交叉注意力网络 门控融合网络 信息抽取
下载PDF
基于自注意力机制与词汇增强的中文医学命名实体识别
13
作者 罗歆然 李天瑞 贾真 《计算机应用》 CSCD 北大核心 2024年第2期385-392,共8页
针对中文医学文本实体嵌套导致的单词边界识别困难问题以及现有栅格结构集成词汇特征所面临的语义信息损失严重的情况,提出一种用于中文医学命名实体识别(MNER)的自适应词汇信息增强模型。首先,利用双向长短期记忆(BiLSTM)网络编码字符... 针对中文医学文本实体嵌套导致的单词边界识别困难问题以及现有栅格结构集成词汇特征所面临的语义信息损失严重的情况,提出一种用于中文医学命名实体识别(MNER)的自适应词汇信息增强模型。首先,利用双向长短期记忆(BiLSTM)网络编码字符序列的上下文信息并捕捉较长距离的依赖关系;然后,对字符序列中每个字符的潜在单词信息进行字词对建模,采用自注意力机制实现不同单词之间的内部交互;最后,通过基于双线性注意力机制的词汇适配器将词汇信息集成到文本序列中的每个字符中,有效增强语义信息的同时充分利用单词丰富的边界信息,并抑制相关性低的单词。实验结果表明,所提模型与基于字符的基线模型相比,平均F1值分别提升了1.37~2.38个百分点,并在结合BERT后取得了最优的效果。 展开更多
关键词 医学命名实体识别 中文医学文本 词汇适配器 自注意力机制 双向长短期记忆网络
下载PDF
基于词汇融合和依存关系的中文命名实体识别
14
作者 唐卓然 柳毅 《计算机工程》 CAS CSCD 北大核心 2024年第10期145-153,共9页
命名实体识别是自然语言处理领域的重要基础任务,为关系抽取、构建知识图谱等众多下游任务提供有价值的数据支撑。针对中文命名实体识别存在分词错误、实体边界模糊和上下文依赖的难点,以及现有方法不能充分利用词汇信息和有效提取文本... 命名实体识别是自然语言处理领域的重要基础任务,为关系抽取、构建知识图谱等众多下游任务提供有价值的数据支撑。针对中文命名实体识别存在分词错误、实体边界模糊和上下文依赖的难点,以及现有方法不能充分利用词汇信息和有效提取文本内部特征等问题,提出一种基于词汇融合和依存关系的中文命名实体识别模型。首先,获取输入文本中每个字符的自匹配词生成词汇特征向量,并根据字符在它的自匹配词上的位置得到词边界信息,利用双仿射注意力机制将字符向量与词汇特征向量进行融合,将词汇信息和词边界信息融入模型的编码过程,从而使模型获得良好的实体识别能力;然后,根据依存句法建立输入文本的依存图结构,利用图注意力网络(GAT)捕获输入文本内部依存关系特征,增强文本内部的语义依赖信息,同时有利于区分实体边界;最后,使用条件随机场(CRF)计算文本的标签。实验结果表明,该模型在CCKS2017、OntoNote4.0和MSRA数据集上分别获得了92.10%、80.76%和95.66%的F1值,优于对比模型。 展开更多
关键词 注意力机制 依存关系 词汇融合 图注意力网络 中文命名实体识别
下载PDF
MRC-PBM:一种中文电子病历嵌套命名实体识别方法
15
作者 周佳伦 李琳宇 +1 位作者 马洪彬 姜艳静 《国外电子测量技术》 2024年第1期159-165,共7页
中文电子病历实体包含大量的医学领域词汇并具有明显的嵌套特征。嵌套实体识别时往往存在目标实体定位不完整、不准确的问题。针对这一问题,提出了一种基于机器阅读理解的中文电子病历嵌套命名实体识别模型MRC-PBM(machine reading comp... 中文电子病历实体包含大量的医学领域词汇并具有明显的嵌套特征。嵌套实体识别时往往存在目标实体定位不完整、不准确的问题。针对这一问题,提出了一种基于机器阅读理解的中文电子病历嵌套命名实体识别模型MRC-PBM(machine reading comprehension-position information biaffine and MLP)。该模型将命名实体识别(named entity recognition,NER)转化为机器阅读理解任务,将中文电子病历文本和预定义的查询语句串联作为输入,使用基于医学的预训练模型MC_BERT获取词向量,然后通过双向长短期记忆网络模型(BiLSTM)和多粒度扩张卷积模型分别获取双向的特征信息以及单词之间的信息,得到相应的特征向量,最后使用Hybrid-PBM预测器进行实体预测。在嵌套和平面NER数据集上进行实验。实验表明,该模型在糖尿病语料和公开医学数据集上优于其他主流神经网络模型,F1值比基线模型提高了1.21%~5.80%。 展开更多
关键词 中文电子病历 命名实体识别 机器阅读理解 嵌套实体
下载PDF
融合多特征和句法引导的中文命名实体识别
16
作者 李莉 奚雪峰 +2 位作者 盛胜利 崔志明 周悦尧 《计算机工程与设计》 北大核心 2024年第11期3448-3456,共9页
针对基于字符的中文命名实体识别模型中所存在一词多义和实体边界潜在词歧义的问题,提出一种融合多层语义特征和句法依存引导的中文NER模型。将句法依存引导的注意力机制与双向长短期记忆网络(BiLSTM)结合,获得字特征向量。通过迭代卷... 针对基于字符的中文命名实体识别模型中所存在一词多义和实体边界潜在词歧义的问题,提出一种融合多层语义特征和句法依存引导的中文NER模型。将句法依存引导的注意力机制与双向长短期记忆网络(BiLSTM)结合,获得字特征向量。通过迭代卷积神经网络(IDCNN)提取汉字独有特征:部首与拼音。采用协同注意力机制对句法依存引导的多种向量进行特征融合。使用CRF层来获得最佳标记序列。在多个公开数据集上的实验结果表明了模型的有效性。 展开更多
关键词 中文命名实体识别 多特征融合 句法依存树 BERT 协同注意力机制 一词多义 潜在词歧义
下载PDF
中文电子病历命名实体识别算法BLF-MarkBERT
17
作者 潘旭 余艳梅 +1 位作者 盛西方 陶青川 《现代计算机》 2024年第9期35-38,65,共5页
随着深度学习技术的发展,中文命名实体识别在各个领域取得了显著进展,特别是在中文电子病历领域,它成为了医学信息管理领域的重要任务。中文电子病历命名实体识别从电子病历中自动识别和分类命名实体,提高了医学信息管理效率和临床决策... 随着深度学习技术的发展,中文命名实体识别在各个领域取得了显著进展,特别是在中文电子病历领域,它成为了医学信息管理领域的重要任务。中文电子病历命名实体识别从电子病历中自动识别和分类命名实体,提高了医学信息管理效率和临床决策支持,促进了医学智能信息化发展。为进一步提升效果,对MarkBERT方法进行研究,在其基础上改进并实现了一种融合双向长短时记忆网络和解码方式的深度学习模型BLF-MarkBERT。在CCKS2019数据集上的实验结果表明,BLF-MarkBERT在准确率P、召回率R和F1分数这三个评估指标上均优于对比算法,表明了该模型的优越性。 展开更多
关键词 中文命名实体识别 MarkBERT BiLSTM 中文电子病历
下载PDF
基于深度学习的中文命名实体识别技术研究
18
作者 武文静 岳杰 +1 位作者 王佳丽 刘枫 《河北建筑工程学院学报》 CAS 2024年第3期210-215,共6页
命名实体识别(NER)是NLP领域的一项基础底层任务。针对当前传统的基于规则和统计方法存在特征提取的精准度和模型的可扩展性上不足的问题,中文命名实体识别技术在利用神经网络学习模型时得到了极大地改善。除了通过Bert预训练模型和相... 命名实体识别(NER)是NLP领域的一项基础底层任务。针对当前传统的基于规则和统计方法存在特征提取的精准度和模型的可扩展性上不足的问题,中文命名实体识别技术在利用神经网络学习模型时得到了极大地改善。除了通过Bert预训练模型和相关的公开数据集对文本数据特征提取、识别实体之外还融合了人工标注的地名和组织机构实体的额外数据集来增强模型的词义理解准确度。实验结果表明,模型的实体识别能力有所提高。 展开更多
关键词 自然语言处理 中文命名实体识别 深度学习 中文分词
下载PDF
基于RBBEGP的中文电子病历命名实体识别研究
19
作者 郭振华 宋波 《电脑知识与技术》 2024年第16期6-10,共5页
针对中文电子病历中嵌套命名实体较多以及中英文字词表达差异所导致的传统命名实体识别模型识别准确率低的问题,文章提出了一种基于RoBERTa-wwm-ext-BiGRU-EGP的命名实体识别模型RBBEGP。预训练模型RoBERTawwm-ext将输入的中文电子病历... 针对中文电子病历中嵌套命名实体较多以及中英文字词表达差异所导致的传统命名实体识别模型识别准确率低的问题,文章提出了一种基于RoBERTa-wwm-ext-BiGRU-EGP的命名实体识别模型RBBEGP。预训练模型RoBERTawwm-ext将输入的中文电子病历文本序列转化为动态向量,BiGRU对词向量的双向时序特征信息进行提取以结合上下文语义,最后通过全局指针网络(Efficient Global Pointer,EGP)判断并输出最为可靠的序列作为命名实体的类别。实验结果表明,文章提出的RBBEGP模型在CCKS2019中文电子病历数据集上的精确率、召回率、F1值分别达到了83.36%、83.25%和83.30%,相较于BERT-BiLSTM-CRF等主流模型有所提高。 展开更多
关键词 中文电子病历 命名实体识别 RoBERTa-wwm-ext BiGRU EGP
下载PDF
融合外部知识和位置信息的中文命名实体识别
20
作者 李源 洛桑嘎登 蒋卫丽 《计算机工程与应用》 CSCD 北大核心 2024年第22期162-171,共10页
命名实体识别(named entity recognition,NER)是信息检索和自然语言处理领域重要且基础的任务。与英文不同,目前大部分的中文NER方法,都面临分词困扰、领域知识缺失的问题。针对以上问题,基于Lattice结构,提出一种结合知识图谱嵌入(know... 命名实体识别(named entity recognition,NER)是信息检索和自然语言处理领域重要且基础的任务。与英文不同,目前大部分的中文NER方法,都面临分词困扰、领域知识缺失的问题。针对以上问题,基于Lattice结构,提出一种结合知识图谱嵌入(knowledge graphs embedding,KGE)和带掩码位置信息的中文NER模型。Lattice语义信息的使用,为补充词粒度信息和解决分词问题奠定了结构基础。知识图谱嵌入的使用,为模型补充并定位了其所缺失的领域知识。而带掩码位置信息的使用,则较好地解决了由于知识图谱的引入而带来的知识噪声问题。所提出的方法在通用领域和垂直领域上均能取得较好的表现,在Weibo、Resume以及CCKS 2017上的F1值分别达到了74.01%、96.62%、94.95%。 展开更多
关键词 LATTICE 知识图谱嵌入 位置信息 中文命名实体识别
下载PDF
上一页 1 2 11 下一页 到第
使用帮助 返回顶部