期刊文献+
共找到117篇文章
< 1 2 6 >
每页显示 20 50 100
基于深度学习的中文实体类型边界识别模型研究
1
作者 贺桂娇 陈庆盛 《信息系统工程》 2023年第4期146-148,共3页
如今英文实体类型识别技术得到快速发展,但中文文本整体结构较为复杂,经常存在多义现象,同一个词在不同的句、不同的位置有不同的含义,这为中文实体类型识别技术的研究发展造成严重阻碍。同时,目前常用的实体类型识别模型解码层主要使... 如今英文实体类型识别技术得到快速发展,但中文文本整体结构较为复杂,经常存在多义现象,同一个词在不同的句、不同的位置有不同的含义,这为中文实体类型识别技术的研究发展造成严重阻碍。同时,目前常用的实体类型识别模型解码层主要使用机器学习算法,但算法整体提取精度和维特比算法执行效率较低,难以满足当前需求。基于以上中文实体类型识别难点,基于中文语言特性,提出基于深度学习的中文实体类型边界识别模型。此模型主要采用基于多元卷积解码与二分类模型训练方法,实现所有输入通过自注意力进行提取,可有效提高模型训练的针对性,解决中文实体类型边界识别中词语歧义等问题。 展开更多
关键词 中文实体类型识别 混合神经网络 联合学习 完全自注意力机制
下载PDF
《同义词词林》在中文实体关系抽取中的作用 被引量:25
2
作者 刘丹丹 彭成 +1 位作者 钱龙华 周国栋 《中文信息学报》 CSCD 北大核心 2014年第2期91-99,共9页
语义信息在命名实体间语义关系抽取中具有重要的作用。该文以《同义词词林》为例,系统全面地研究了词汇语义信息对基于树核函数的中文语义关系抽取的有效性,深入探讨了不同级别的语义信息和一词多义等现象对关系抽取的影响,详细分析了... 语义信息在命名实体间语义关系抽取中具有重要的作用。该文以《同义词词林》为例,系统全面地研究了词汇语义信息对基于树核函数的中文语义关系抽取的有效性,深入探讨了不同级别的语义信息和一词多义等现象对关系抽取的影响,详细分析了词汇语义信息和实体类型信息之间的冗余性。在ACE2005中文语料库上的关系抽取实验表明,在未知实体类型的前提下,语义信息能显著提高抽取性能;而在已知实体类型的情况下,语义信息也能明显提高某些关系类型的抽取性能,这说明《词林》语义信息和实体类型信息在中文语义关系抽取中具有一定的互补性。 展开更多
关键词 中文实体关系抽取 树核函数 同义词词林 语义信息
下载PDF
词汇语义信息对中文实体关系抽取影响的比较 被引量:11
3
作者 刘丹丹 彭成 +1 位作者 钱龙华 周国栋 《计算机应用》 CSCD 北大核心 2012年第8期2238-2244,共7页
提出一种将《同义词词林》和《知网》的语义信息融合到基于树核函数的中文关系抽取方法,并比较和分析了两种语义信息对中文实体关系抽取的影响,同时探讨了这两种语义信息与实体类型信息之间的相互关系。实验结果表明,该方法能在一定程... 提出一种将《同义词词林》和《知网》的语义信息融合到基于树核函数的中文关系抽取方法,并比较和分析了两种语义信息对中文实体关系抽取的影响,同时探讨了这两种语义信息与实体类型信息之间的相互关系。实验结果表明,该方法能在一定程度上提高中文关系抽取的性能;同时,《同义词词林》能补充实体类型信息的不足,因而无论是否加入实体类型信息,其语义信息都能大幅度地提高大部分关系类型的抽取性能;而《知网》则和实体类型信息存在冲突,因此在已知实体类型信息的前提下,仅能提高个别关系类型的抽取性能。 展开更多
关键词 中文实体关系抽取 树核 《同义词词林》 《知网》 语义信息
下载PDF
基于核方法的中文实体关系抽取研究 被引量:18
4
作者 黄瑞红 孙乐 +1 位作者 冯元勇 黄云平 《中文信息学报》 CSCD 北大核心 2008年第5期102-108,共7页
命名实体关系抽取是信息抽取领域中的重要研究课题之一。该文探讨了核方法在中文关系抽取上的有效性问题,主要分为三部分:研究了在卷积树核中使用不同的语法树对关系抽取性能的影响;通过构造复合核检查了树核与平面核之间的互补效果;改... 命名实体关系抽取是信息抽取领域中的重要研究课题之一。该文探讨了核方法在中文关系抽取上的有效性问题,主要分为三部分:研究了在卷积树核中使用不同的语法树对关系抽取性能的影响;通过构造复合核检查了树核与平面核之间的互补效果;改进了最短路径依赖核,将核计算建立在原最短依赖路径的最长公共子序列上,以消除原始最短路径依赖核对依赖路径长度相同的过严要求。因为核方法开始被用于英文关系抽取时,F1值也只有40%左右,而我们在ACE2007标准语料集上的实验结果表明,只使用作用在语法树上的卷积核时,中文关系抽取的F1值达到了35%,可见卷积核方法对中文关系抽取也是有效的,同时实验也表明最短路径依赖核对中文关系抽取效果不明显。 展开更多
关键词 计算机应用 中文信息处理 中文实体关系抽取 核方法 卷积树核 复合核 最短路径依赖核
下载PDF
基于依存分析的开放式中文实体关系抽取方法 被引量:27
5
作者 李明耀 杨静 《计算机工程》 CAS CSCD 北大核心 2016年第6期201-207,共7页
实体关系抽取是信息抽取的组成部分,其目标是确定实体之间是否存在某种语义关系。由于中文语法错综复杂、表达方式灵活、语义多样等固有性质的限制,导致在中文中以动词作为关系表述容易引起实体间的关系含糊不清。为此,利用依存分析,提... 实体关系抽取是信息抽取的组成部分,其目标是确定实体之间是否存在某种语义关系。由于中文语法错综复杂、表达方式灵活、语义多样等固有性质的限制,导致在中文中以动词作为关系表述容易引起实体间的关系含糊不清。为此,利用依存分析,提出一种开放式中文实体关系抽取方法。对输入的单句进行依存分析,通过依存分析输出的依存弧判断单句是否为动词谓语句,如果是动词谓语句则结合中文语法启发式规则抽取关系表述。根据距离确定论元位置,对三元组进行评估,输出符合条件的三元组。在Sogou CA和Sogou CS语料库上的实验结果表明,提出的方法适用于大规模语料库,具有较好的性能与可移植性。与基于卷积树核的无监督层次聚类方法相比,F值提高了16.68%。 展开更多
关键词 开放式信息抽取 中文实体关系抽取 依存分析 无监督 启发式规则
下载PDF
中文实体关系抽取研究综述 被引量:16
6
作者 武文雅 陈钰枫 +1 位作者 徐金安 张玉洁 《计算机与现代化》 2018年第8期21-27,34,共8页
作为信息抽取任务中极为关键的一项子任务,实体关系抽取对于语义知识库的构建和知识图谱的发展都有着重要的意义。对于中文而言,语义关系更加复杂,实体关系抽取的作用也就愈加显著,因此,对中文实体关系抽取的研究方法进行详细考察极为... 作为信息抽取任务中极为关键的一项子任务,实体关系抽取对于语义知识库的构建和知识图谱的发展都有着重要的意义。对于中文而言,语义关系更加复杂,实体关系抽取的作用也就愈加显著,因此,对中文实体关系抽取的研究方法进行详细考察极为必要。本文从实体关系抽取的产生和发展开始,对目前基于中文的实体关系抽取技术现状作了阐述;按照关系抽取方法对语料的依赖程度分为4类:有监督的实体关系抽取、无监督的实体关系抽取、半监督的实体关系抽取和开放域的实体关系抽取,并对这4类抽取方法进行具体的分析和比较;最后介绍深度学习在中文实体关系抽取上的应用成果和发展前景。 展开更多
关键词 中文实体关系抽取 有监督方法 无监督方法 半监督方法 开放域实体关系抽取方法 深度学习
下载PDF
基于BERT-GRU-ATT模型的中文实体关系分类 被引量:9
7
作者 赵丹丹 黄德根 +2 位作者 孟佳娜 董宇 张攀 《计算机科学》 CSCD 北大核心 2022年第6期319-325,共7页
实体关系分类作为自然语言处理的基础任务,对知识图谱、智能问答、语义网构建等任务都起到了非常关键的作用。文中构建了BERT-GRU-ATT模型,以进行中文实体关系分类。为消除中文分词歧义对实体关系分类的影响,引入预训练模型BERT作为嵌入... 实体关系分类作为自然语言处理的基础任务,对知识图谱、智能问答、语义网构建等任务都起到了非常关键的作用。文中构建了BERT-GRU-ATT模型,以进行中文实体关系分类。为消除中文分词歧义对实体关系分类的影响,引入预训练模型BERT作为嵌入层,以较好地获得汉字的上下文信息;再通过双向门控循环单元捕获实体在句子中的长距离依赖,通过自注意力机制加强对关系分类贡献明显的字的权重,从而获得较好的实体关系分类结果。为了丰富中文实体关系分类语料,将SemEval2010_Task8英文实体关系评测语料翻译为中文^(1)),该模型在此翻译语料上取得了75.46%的F1值,说明了所提模型的有效性。此外,所提模型在SemEval2010-task8英文数据集上F1值达到了80.55%,证明该模型对英文语料具有一定的泛化能力。 展开更多
关键词 中文实体关系分类 预训练模型 门控循环单元 自注意力机制
下载PDF
基于多头注意力机制字词联合的中文命名实体识别
8
作者 王进 王猛旗 +2 位作者 张昕跃 孙开伟 朴昌浩 《江苏大学学报(自然科学版)》 CAS 北大核心 2024年第1期77-84,共8页
针对现有基于字词联合的中文命名实体识别方法会引入冗余词汇干扰、模型网络结构复杂、难以迁移的问题,提出一种基于多头注意力机制字词联合的中文命名实体识别算法.算法采用多头注意力机制融合词汇边界信息,并通过分类融合BIE词集降低... 针对现有基于字词联合的中文命名实体识别方法会引入冗余词汇干扰、模型网络结构复杂、难以迁移的问题,提出一种基于多头注意力机制字词联合的中文命名实体识别算法.算法采用多头注意力机制融合词汇边界信息,并通过分类融合BIE词集降低冗余词汇干扰.建立了多头注意力字词联合模型,包含字词匹配、多头注意力、融合等模块.与现有中文命名实体识别方法相比,本算法避免了设计复杂的序列模型,方便与现有基于字的中文命名实体识别模型结合.采用召回率、精确率以及F 1值作为评价指标,通过消融试验验证模型各个部分的效果.结果表明,本算法在MSRA和Weibo数据集上F 1值分别提升0.28、0.69,在Resume数据集上精确率提升0.07. 展开更多
关键词 中文命名实体识别 词汇冗余 词汇边界信息 字词联合 多头注意力机制 BIE词集
下载PDF
融合标签知识的中文医学命名实体识别
9
作者 尹宝生 周澎 《计算机科学》 CSCD 北大核心 2024年第S01期128-134,共7页
医学领域命名实体识别是信息抽取任务重要的研究内容之一,其训练数据主要来源于临床实验数据、健康档案、电子病历等非结构化文本,然而标注这些数据需要专业人员耗费大量人力、物力和时间资源。在缺乏大规模医学训练数据的情况下,医学... 医学领域命名实体识别是信息抽取任务重要的研究内容之一,其训练数据主要来源于临床实验数据、健康档案、电子病历等非结构化文本,然而标注这些数据需要专业人员耗费大量人力、物力和时间资源。在缺乏大规模医学训练数据的情况下,医学领域命名实体识别模型很容易出现识别错误的情况。为解决这一难题,文中提出了一种融合标签知识的中文医学命名实体识别方法,即通过专业领域词典获得文本标签的释义后,分别将文本、标签及标签释义编码,基于自适应融合机制进行融合,有效平衡特征提取模块和语义增强模块的信息流,从而提高模型性能。其核心思想在于医学实体标签是通过总结归纳大量医学数据得到的,而标签释义是对标签进行科学解释和说明的结果,模型融入这些蕴含了丰富的医学领域内的先验知识,可以使其更准确地理解实体在医学领域中的语义并提升其识别效果。实验结果表明,该方法在中文医学实体抽取数据集(CMeEE-V2)3个基线模型上分别取得了0.71%,0.53%和1.17%的提升,并且为小样本场景下的实体识别提供了一个有效的解决方案。 展开更多
关键词 中文医学命名实体识别 标签知识 先验知识 自适应融合机制 小样本
下载PDF
位置标签增强的中文医学命名实体级联识别
10
作者 王旭阳 赵丽婕 张继远 《计算机工程与应用》 CSCD 北大核心 2024年第2期121-128,共8页
针对一般领域的命名实体识别方法不能直接用于中文医学专业实体的识别,现有的相关研究只专注于英文文本和扁平结构的医学实体识别等问题,通过对专业领域实体识别方法的研究,结合中文医学实体的特点提出了一种面向中文医学实体的级联识... 针对一般领域的命名实体识别方法不能直接用于中文医学专业实体的识别,现有的相关研究只专注于英文文本和扁平结构的医学实体识别等问题,通过对专业领域实体识别方法的研究,结合中文医学实体的特点提出了一种面向中文医学实体的级联识别方法。将每个字符元素相对于实体的位置标签嵌入模型,并结合中文医学实体跨度内不同元素的重要程度进行实体的融合表示。通过序列标注方法检测字符的位置标签,利用字符的位置信息指导候选实体生成,并进行实体语义分类。模型在CMeEE和CCKS2018数据集以及中文糖尿病科研文献数据集上分别进行扁平实体、嵌套实体和不连续性长实体的识别实验。实验结果表明,该方法能够有效地识别中文医学文本中不同结构的实体。 展开更多
关键词 中文医学命名实体 位置标签嵌入 结合元素重要程度的实体融合表示 级联识别 线性结构
下载PDF
中文命名实体识别研究综述 被引量:2
11
作者 赵继贵 钱育蓉 +2 位作者 王魁 侯树祥 陈嘉颖 《计算机工程与应用》 CSCD 北大核心 2024年第1期15-27,共13页
命名实体识别(named entity recognition,NER)是自然语言处理中最基本的任务之一,其主要内容是识别自然语言文本中具有特定意义的实体类型和边界。然而,中文命名实体识别(Chinese named entity recognition,CNER)的数据样本存在词边界... 命名实体识别(named entity recognition,NER)是自然语言处理中最基本的任务之一,其主要内容是识别自然语言文本中具有特定意义的实体类型和边界。然而,中文命名实体识别(Chinese named entity recognition,CNER)的数据样本存在词边界模糊、语义多样化、形态特征模糊以及中文语料库内容较少等问题,导致中文命名实体识别性能难以大幅提升。介绍了CNER的数据集、标注方案和评价指标。按照CNER的研究进程,将CNER方法分为基于规则的方法、基于统计的方法和基于深度学习的方法三类,并对近五年来基于深度学习的CNER主要模型进行总结。探讨CNER的研究趋势,为新方法的提出和未来研究方向提供一定参考。 展开更多
关键词 自然语言处理 中文命名实体识别 深度学习 预训练模型 机器学习
下载PDF
基于词汇增强和表格填充的中文命名实体识别
12
作者 褚天舒 唐球 +3 位作者 梁军学 徐睿 王明阳 刘涛 《电子技术应用》 2024年第2期23-29,共7页
中文命名实体识别主要包括中文平面命名实体识别和中文嵌套命名实体识别两个任务,其中中文嵌套命名实体识别任务难度更大。提出了一个基于词汇增强和表格填充的统一模型TLEXNER,该模型能够同时处理上述任务。该模型首先针对中文语料分... 中文命名实体识别主要包括中文平面命名实体识别和中文嵌套命名实体识别两个任务,其中中文嵌套命名实体识别任务难度更大。提出了一个基于词汇增强和表格填充的统一模型TLEXNER,该模型能够同时处理上述任务。该模型首先针对中文语料分词困难的问题,使用词典适配器将词汇信息融合到BERT预训练模型,并且将字符与词汇组的相对位置信息集成到BERT的嵌入层中;然后通过条件层归一化和双仿射模型构造并预测字符对表格,使用表格建模字符与字符之间的关系,得到平面实体与嵌套实体的统一表示;最后根据字符对表格上三角区域的数值判断实体类别。提出的模型在平面实体的公开数据集Resume和自行标注的军事领域嵌套实体数据集上F1分别是97.35%和91.96%,证明了TLEXNER模型的有效性。 展开更多
关键词 词汇增强 中文命名实体识别 表格填充
下载PDF
基于深度学习的中文命名实体边界识别算法
13
作者 张子豪 李文敬 李双 《南宁师范大学学报(自然科学版)》 2024年第1期82-87,共6页
为了解决中文命名实体边界识别产生歧义和识别不准确的问题,提出了基于深度学习的中文命名实体边界识别算法。对以“字”和“词”的中文实体边界识别方法存在的缺陷进行分析,根据句子中命名实体的位置编码原理,对每个命名实体的首尾位... 为了解决中文命名实体边界识别产生歧义和识别不准确的问题,提出了基于深度学习的中文命名实体边界识别算法。对以“字”和“词”的中文实体边界识别方法存在的缺陷进行分析,根据句子中命名实体的位置编码原理,对每个命名实体的首尾位置添加标签,以划分每个实体的边界,同时用标签表示命名实体之间的关系,提出了基于位置标注的中文命名实体识别的词汇信息融合方法,并引入注意力机制对词汇信息融合模块进行改进。利用深度学习的优势,将深度学习与词汇信息融合相结合,构建基于深度学习的中文命名实体词汇信息融合模型和基于深度学习的中文命名实体边界识别算法。该算法在Resume等数据集上进行对比实验和消融实验,查准率为95.94%,查全率为96.46%,F1值为96.58%。实验结果表明,该算法与Lattice等算法相比,准确率、查准率、F1值分别提高了1.13%、2.35%、2.12%。该算法在解决目前中文命名实体识别存在的边界识别不准确和存在歧义的问题上更优。 展开更多
关键词 深度学习 中文命名实体 词汇信息融合 边界识别算法
下载PDF
基于词典和字形特征的中文命名实体识别 被引量:1
14
作者 于舒娟 毛新涛 +1 位作者 张昀 黄丽亚 《中文信息学报》 CSCD 北大核心 2023年第3期112-122,共11页
命名实体识别是自然语言处理中的一项基础任务。通过基于词典的方法增强词内语义和词边界信息是中文命名实体识别的主流做法。然而,汉字由象形字演变而来,汉字字形中包含着丰富的实体信息,这些信息在该任务中却很少被使用。该文提出了... 命名实体识别是自然语言处理中的一项基础任务。通过基于词典的方法增强词内语义和词边界信息是中文命名实体识别的主流做法。然而,汉字由象形字演变而来,汉字字形中包含着丰富的实体信息,这些信息在该任务中却很少被使用。该文提出了一个基于词典和字形特征的中文命名实体识别模型,将词信息和结构信息统一地结合起来,提高了实体匹配的准确性。该文首先通过SoftLexicon方法丰富语义信息,并使用改进的部首级嵌入优化字符表示;然后通过门卷积网络加强了对潜在词和上下文信息的提取;最后在四个基准数据集上实验,结果表明与传统模型和最新模型相比,基于词典和字形特征的模型取得了显著的性能提升。 展开更多
关键词 中文命名实体识别 词典 字形特征
下载PDF
基于注意力机制特征融合的中文命名实体识别 被引量:3
15
作者 廖列法 谢树松 《计算机工程》 CAS CSCD 北大核心 2023年第4期256-262,共7页
命名实体识别是自然语言处理领域中信息抽取、信息检索、知识图谱等任务的基础。在命名实体识别任务中,Transformer编码器更加关注全局语义,对位置和方向信息不敏感,而双向长短期记忆(BiLSTM)网络可以提取文本中的方向信息,但缺少全局... 命名实体识别是自然语言处理领域中信息抽取、信息检索、知识图谱等任务的基础。在命名实体识别任务中,Transformer编码器更加关注全局语义,对位置和方向信息不敏感,而双向长短期记忆(BiLSTM)网络可以提取文本中的方向信息,但缺少全局语义信息。为同时获得全局语义信息和方向信息,提出使用注意力机制动态融合Transformer编码器和BiLSTM的模型。使用相对位置编码和修改注意力计算公式对Transformer编码器进行改进,利用改进的Transformer编码器提取全局语义信息,并采用BiLSTM捕获方向信息。结合注意力机制动态调整权重,深度融合全局语义信息和方向信息以获得更丰富的上下文特征。使用条件随机场进行解码,实现实体标注序列预测。此外,针对Word2Vec等传统词向量方法无法表示词的多义性问题,使用RoBERTa-wwm预训练模型作为模型的嵌入层提供字符级嵌入,获得更多的上下文语义信息和词汇信息,增强实体识别效果。实验结果表明,该方法在中文命名实体识别数据集Resume和Weibo上F1值分别达到96.68%和71.29%,相比ID-CNN、BiLSTM、CAN-NER等方法,具有较优的识别效果。 展开更多
关键词 注意力机制 Transformer编码器 特征融合 中文命名实体识别 预训练模型
下载PDF
融合词性与双向时间卷积网络的中文命名实体识别方法
16
作者 张鹏 周志强 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2023年第4期662-670,共9页
针对目前中文命名时实体识别方法中存在的中文边界识别困难、模型梯度、文本特征不够充分等问题,提出了一种融合词性特征与双向时间卷积网络的中文命名时实体识别模型。该模型提出使用XLNet预训练语言模型生成对应的词嵌入表示,融合后... 针对目前中文命名时实体识别方法中存在的中文边界识别困难、模型梯度、文本特征不够充分等问题,提出了一种融合词性特征与双向时间卷积网络的中文命名时实体识别模型。该模型提出使用XLNet预训练语言模型生成对应的词嵌入表示,融合后使用双向时间卷积网络提取文本前向特征与后向特征。实验中对时间卷积网络的空洞因子、卷积层数和卷积核数进行参数实验并分析其影响原因,结果表明,该模型与其他模型相比,能够更准确且有效地提取文本中的实体。 展开更多
关键词 中文命名实体识别 词性特征 时序卷积网络 神经网络
下载PDF
FCG-NNER:一种融合字形信息的中文嵌套命名实体识别方法
17
作者 陈鹏 马洪彬 +2 位作者 周佳伦 李琳宇 余肖生 《重庆理工大学学报(自然科学)》 CAS 北大核心 2023年第12期222-231,共10页
基于跨度的模型是嵌套命名实体识别的主要方法,其核心是将实体识别问题转化为跨度分类问题。而在中文数据集中,由于中文单词不具有明显的分割符号,导致语义和边界信息不明确,进而造成中文嵌套命名实体识别效果不佳。为了解决这一问题,... 基于跨度的模型是嵌套命名实体识别的主要方法,其核心是将实体识别问题转化为跨度分类问题。而在中文数据集中,由于中文单词不具有明显的分割符号,导致语义和边界信息不明确,进而造成中文嵌套命名实体识别效果不佳。为了解决这一问题,提出了融合字形信息的基于跨度的中文嵌套命名实体识别算法——FCG-NNER,首先通过卷积神经网络获取汉字的字形信息,其次通过交叉Biaffine双仿射解码层实现原文信息与字形信息融合,然后通过对角融合CNN层获取不同跨度之间的局部相互作用,最后将交叉Biaffine双仿射解码层的输出与对角融合CNN层的输出相加后输入到全连接层中,得到最终的预测结果。采用2个具有代表性的中文嵌套NER数据集(CMeEE和CLUENER2020)用于实验验证。结果显示,FCG-NNER在CMeEE数据集中的精度为65.02%,召回率为67.93%,F1值达到0.664 4;在CLUENER2020数据集中的精度为79.45%,召回率为82.33%,F1值达到0.808 6,证明FCG-NNER算法的性能明显超过2个数据集的基线。 展开更多
关键词 中文嵌套命名实体识别 字形特征 跨度分类 特征融合
下载PDF
基于RoBERTa-Effg-Adv的实体关系联合抽取方法
18
作者 姚飞杨 刘晓静 《计算机技术与发展》 2024年第3期147-154,共8页
实体关系抽取是构建知识图谱的关键步骤,其目的是抽取文本中的关系三元组。针对现有中文实体关系联合抽取模型无法有效抽取重叠关系三元组及提取性能不足的问题,该文提出了RoBERTa-Effg-Adv的实体关系联合抽取模型,其编码端采用RoBERTa-... 实体关系抽取是构建知识图谱的关键步骤,其目的是抽取文本中的关系三元组。针对现有中文实体关系联合抽取模型无法有效抽取重叠关系三元组及提取性能不足的问题,该文提出了RoBERTa-Effg-Adv的实体关系联合抽取模型,其编码端采用RoBERTa-wwm-ext预训练模型对输入数据进行编码,并采用Efficient GlobalPointer模型来处理嵌套和非嵌套命名实体识别,将实体关系三元组拆分成五元组进行实体关系联合抽取。再结合对抗训练,提升模型的鲁棒性。为了获得机器可读的语料库,对相关文本书籍进行扫描,并进行光学字符识别,再通过人工标注数据的方式,形成该研究所需要的关系抽取数据集REDQTTM,该数据集包含18种实体类型和11种关系类型。实验结果验证了该方法在瞿昙寺壁画领域的中文实体关系联合抽取任务的有效性,在REDQTTM测试集上的精确率达到了94.0%,召回率达到了90.7%,F1值达到了92.3%,相比GPLinker模型,在精确率、召回率和F1值上分别提高了2.4百分点、0.9百分点、1.6百分点。 展开更多
关键词 RoBERTa-wwm-ext 对抗训练 关系抽取 Efficient GlobalPointer 中文实体
下载PDF
基于偏正结构表示的加工命名实体识别方法
19
作者 王素琴 王钰珏 +2 位作者 石敏 朱登明 李兆歆 《计算机集成制造系统》 EI CSCD 北大核心 2024年第3期958-967,共10页
制造企业积累大量的零件加工经验多以文本形式存在,如何从文本中挖掘出高质量的零件加工知识是个尚待解决的问题。针对待识别实体存在的偏正结构特征,导致实体边界界定模糊的问题,提出一种多网络协调的中文命名实体识别方法。在BERT生... 制造企业积累大量的零件加工经验多以文本形式存在,如何从文本中挖掘出高质量的零件加工知识是个尚待解决的问题。针对待识别实体存在的偏正结构特征,导致实体边界界定模糊的问题,提出一种多网络协调的中文命名实体识别方法。在BERT生成字向量的过程中,通过领域自适应方法,提高字向量对工艺实体的表征能力,同时,在BiLSTM-CRF模型中引入注意力机制和多门控制的混合专家网络捕获上下文特征与实体信息。实验表明,较于当前主流的命名实体识别模型,该文提出的方法对机械零件加工实体识别的F1值达到80.15%,取得优于其他模型的最好性能。 展开更多
关键词 中文命名实体识别 机械零件加工 多门控制的混合专家网络 领域自适应
下载PDF
基于词融合与跨度检测的中文嵌套命名实体识别 被引量:1
20
作者 陈淑振 窦全胜 +1 位作者 唐焕玲 姜平 《计算机应用研究》 CSCD 北大核心 2023年第8期2382-2386,2392,共6页
目前中文命名实体识别模型在识别具有嵌套结构的实体时存在误差,无法准确识别。基于跨度的方法能够找出嵌套实体,但在识别过程中经常生成不包含实体的跨度,无法明确划分跨度边界,增加模型负担。针对此问题,提出了基于词汇融合与跨度边... 目前中文命名实体识别模型在识别具有嵌套结构的实体时存在误差,无法准确识别。基于跨度的方法能够找出嵌套实体,但在识别过程中经常生成不包含实体的跨度,无法明确划分跨度边界,增加模型负担。针对此问题,提出了基于词汇融合与跨度边界检测的中文嵌套命名实体识别模型。该模型使用多词融合方法达到文本特征增强的目的,在设计的注入模块中将目标语句中字符相关的多个词汇信息进行合并,之后融入到BERT中,以此获得更全面的上下文信息,提供更好的跨度表示;其次添加跨度边界检测模块,通过感知分类器预测跨度的首尾字符来划分跨度边界。在公共数据集上的实验表明,该模型可有效提升识别准确率。 展开更多
关键词 中文嵌套命名实体识别 BERT模型 多词融合 跨度边界检测
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部