期刊文献+
共找到245篇文章
< 1 2 13 >
每页显示 20 50 100
基于异构图和语义融合的实体关系抽取
1
作者 唐贤伦 丁河长 +2 位作者 唐瑜泽 谢涛 罗洪平 《实验技术与管理》 CAS 北大核心 2024年第8期22-29,共8页
关系抽取是信息抽取中的一项重要任务,其目的是从非结构化文本中抽取出所有关系三元组。然而,如何有效地处理这一问题仍然是一个挑战,特别是对于关系重叠问题。为了有效处理重叠问题,该文提出一种基于异构图和语义融合的实体关系抽取方... 关系抽取是信息抽取中的一项重要任务,其目的是从非结构化文本中抽取出所有关系三元组。然而,如何有效地处理这一问题仍然是一个挑战,特别是对于关系重叠问题。为了有效处理重叠问题,该文提出一种基于异构图和语义融合的实体关系抽取方法:使用异构图将关系信息作为先验知识融入词表示,增强词表示的表示能力,使得模型能有效地处理单词实体重叠问题;使用语义融合模块将不同层次特征融合在一起作为关系分类模型的输入,使得模型能够有效地处理实体对重叠问题。所提方法在NYT和WebNLG数据集上取得了最好的效果,详细的实验也表明所提方法可以处理复杂的场景。 展开更多
关键词 实体关系抽取 异构图 语义融合 关系重叠 实体关系三元组
下载PDF
基于并行异构图和序列注意力机制的中文实体关系抽取模型
2
作者 毛典辉 李学博 +2 位作者 刘峻岭 张登辉 颜文婧 《计算机应用》 CSCD 北大核心 2024年第7期2018-2025,共8页
近年来,随着深度学习技术的快速发展,实体关系抽取在许多领域取得了显著的进展。然而,由于汉语具有复杂的句法结构和语义关系,面向中文的实体关系抽取任务中仍然存在着多项挑战。其中,中文文本中的重叠三元组问题是领域中的重要难题之... 近年来,随着深度学习技术的快速发展,实体关系抽取在许多领域取得了显著的进展。然而,由于汉语具有复杂的句法结构和语义关系,面向中文的实体关系抽取任务中仍然存在着多项挑战。其中,中文文本中的重叠三元组问题是领域中的重要难题之一。针对中文文本中的重叠三元组问题,提出了一种混合神经网络实体关系联合抽取(HNNERJE)模型。HNNERJE模型以并行方式融合序列注意力机制和异构图注意力机制,并结合门控融合策略构建了深度集成框架。该模型不仅可以同时捕获中文文本的语序信息和实体关联信息,还能够自适应地调整主客体标记器的输出,从而有效解决重叠三元组问题。另外,通过引入对抗训练算法提高模型对未见样本和噪声的适应能力。运用SHAP(SHapley Additive exPlanations)方法对HNNERJE模型进行解释分析,基于模型的识别结果解析它在抽取实体和关系时所依据的关键特征。HNNERJE模型在NYT、WebNLG、CMeIE和DuIE数据集上的F1值分别达到了92.17%、93.42%、47.40%和67.98%。实验结果表明:HNNERJE模型可以将非结构化的文本数据转化为结构化的知识表示,有效提取其中蕴含的有价值信息。 展开更多
关键词 实体关系抽取 异构图 注意力机制 对抗训练 SHAP方法
下载PDF
基于卷积神经网络的医疗护理实体关系抽取
3
作者 曹茂俊 胡喆 《电子设计工程》 2024年第8期18-22,共5页
针对医疗护理领域知识复杂性强、数据量大以及对准确度要求较高的问题,该研究提出一种基于卷积神经网络的医疗护理学实体关系抽取方法,实现对护理学语义关系的细粒度文本挖掘。该研究构建了医疗护理学语料标注系统,通过将医疗语料转化... 针对医疗护理领域知识复杂性强、数据量大以及对准确度要求较高的问题,该研究提出一种基于卷积神经网络的医疗护理学实体关系抽取方法,实现对护理学语义关系的细粒度文本挖掘。该研究构建了医疗护理学语料标注系统,通过将医疗语料转化为向量特征矩阵,实现了对医疗语料的自动过滤和标注。通过向神经网络模型嵌入所构建的医疗关系语料库,一定程度上提高了模型疾病分类的准确度。在医疗护理学数据集上的实验表明,基于卷积神经网络的模型在指标精确度、召回率、F1值可达到89.78%、87.59%、89.77%。综上所述,该研究提出的基于卷积神经网络的医疗护理学实体关系抽取方法能够有效地抽取医疗语料数据中的实体关系,优于传统的实体关系抽取模型。 展开更多
关键词 实体关系抽取 卷积神经网络 医疗护理学 词向量 知识图谱
下载PDF
面向文本实体关系抽取研究综述
4
作者 任安琪 柳林 +1 位作者 王海龙 刘静 《计算机科学与探索》 CSCD 北大核心 2024年第11期2848-2871,共24页
信息抽取是知识图谱构建的基础,关系抽取作为信息抽取的关键流程和核心步骤,旨在从文本数据中定位实体并识别实体间的语义联系。因此提高关系抽取的效率可以有效提升信息抽取的质量,进而影响到知识图谱的构建以及后续的下游任务。关系... 信息抽取是知识图谱构建的基础,关系抽取作为信息抽取的关键流程和核心步骤,旨在从文本数据中定位实体并识别实体间的语义联系。因此提高关系抽取的效率可以有效提升信息抽取的质量,进而影响到知识图谱的构建以及后续的下游任务。关系抽取按照抽取文本长度可以分为句子级关系抽取和文档级关系抽取,两种级别的抽取方法在不同应用场景下各有优缺点。句子级关系抽取适用于较小规模数据集的应用场景,而文档级关系抽取适用于新闻事件分析、长篇报告或文章的关系挖掘等场景。不同于已有的关系抽取,介绍了关系抽取的基本概念以及领域内近年来的发展历程,罗列了两种级别关系抽取所采用的数据集,对数据集的特点进行概述;分别对句子级关系抽取和文档级关系抽取进行了阐述,介绍了不同级别关系抽取的优缺点,并分析了各类方法中代表模型的性能以及局限性;总结了当前研究领域中存在的问题并对关系抽取发展前景进行了展望。 展开更多
关键词 信息抽取 实体关系抽取 句子级关系抽取 文档级关系抽取 知识图谱构建
下载PDF
基于伪实体数据增强的高精准率医学领域实体关系抽取
5
作者 郭安迪 贾真 李天瑞 《计算机应用》 CSCD 北大核心 2024年第2期393-402,共10页
针对医学领域知识密集、实体抽取和关系分类存在误差传递的问题,提出一种基于伪实体数据增强的高精准率的实体关系抽取框架。首先,在实体抽取模块添加基于Transformer的特征读取单元捕捉类别信息,以在密集的实体中准确识别医学长实体;其... 针对医学领域知识密集、实体抽取和关系分类存在误差传递的问题,提出一种基于伪实体数据增强的高精准率的实体关系抽取框架。首先,在实体抽取模块添加基于Transformer的特征读取单元捕捉类别信息,以在密集的实体中准确识别医学长实体;其次,在流水线抽取框架的基础上插入关系负例生成模块,通过基于欠采样的伪实体生成模型生成混淆关系分类模型的伪实体,并通过三种数据增强生成策略提升模型鉴别主语宾语颠倒、主语宾语边界错误和关系分类错误的能力;最后,通过基于悬浮标记的关系分类模型缓解数据增强带来的训练时间剧增的问题。在CMeIE数据集中,对比了目前主流的4个模型。实体抽取部分相较于次优模型PL-Marker(Packed Levitated Marker),F1值提升了2.26%;实体关系抽取相较于次优模型CBLUE(Chinese Biomedical Language Understanding Evaluation)提出的流水线抽取模型,F1值提升了5.45%,精准率提升了15.62%。实验结果表明使用特征读取单元和伪实体数据增强模块可有效提高抽取的精准率。 展开更多
关键词 实体关系抽取 数据增强 高精准率 医学领域 关系负例生成
下载PDF
基于RoBERTa和加权图卷积网络的中文地质实体关系抽取
6
作者 张鲁 段友祥 +1 位作者 刘娟 陆誉翕 《计算机科学》 CSCD 北大核心 2024年第8期297-303,共7页
知识是大数据和人工智能的基石,知识图谱的可解释性和可扩展性等优势使其成为智能系统的重要技术。智能决策在各个领域都有迫切的应用需求,为知识图谱提供基于数据分析和推理的决策支持和应用场景,但领域场景复杂、数据多源、知识维度广... 知识是大数据和人工智能的基石,知识图谱的可解释性和可扩展性等优势使其成为智能系统的重要技术。智能决策在各个领域都有迫切的应用需求,为知识图谱提供基于数据分析和推理的决策支持和应用场景,但领域场景复杂、数据多源、知识维度广,因此知识图谱的构建和应用都面临着很多挑战。针对地质领域知识图谱构建过程中领域知识模式完备性差的问题,以及现有实体关系抽取方法在处理非欧氏数据时存在的不足,提出了一种基于图结构的实体关系抽取模型RoGCN-ATT。该模型使用RoBERTa-wwm-ext-large中文预训练模型作为序列编码器,结合BiLSTM获取更丰富的语义信息,使用加权图卷积网络结合注意力机制获取结构依赖信息,以增强模型对关系三元组的抽取性能。在地质数据集上F1值达78.56%,与其他模型的对比实验表明,RoGCN-ATT有效提升了实体关系抽取性能,为地质知识图谱的构建和应用提供了有力的支持。 展开更多
关键词 实体关系抽取 图卷积网络 依存句法分析 注意力机制 地质领域
下载PDF
主实体增强型层叠指针网络在中文医学实体关系抽取中的应用
7
作者 姜植瀚 昝红英 张莉 《计算机科学》 CSCD 北大核心 2024年第S01期97-102,共6页
随着中国医学事业的快速发展,中文医学文本的数量不断增加。为了从这些中文医学文本中提取有价值的信息,并解决中文医学领域的实体关系抽取问题,研究人员已经提出一系列基于双向LSTM的模型。然而,由于双向LSTM的训练速度等问题,文中引... 随着中国医学事业的快速发展,中文医学文本的数量不断增加。为了从这些中文医学文本中提取有价值的信息,并解决中文医学领域的实体关系抽取问题,研究人员已经提出一系列基于双向LSTM的模型。然而,由于双向LSTM的训练速度等问题,文中引入了层叠指针网络框架来处理中文医学文本的实体关系抽取任务。为了弥补层叠指针网络框架中主实体识别能力不足以及解决复用编码层时的梯度问题,文中提出了主实体增强模块,并引入了条件层归一化方法,从而提出了面向中文医学文本的主语增强型层叠指针网络框架(Subject Enhanced Cascade Binary Pointer Tagging Framework for Chinese Medical Text,SE-CAS)。通过引入主实体增强模块,能够精确识别有效的主实体,并排除错误实体。此外,还使用条件层归一化方法来替代原模型中的简单相加方法,并将其应用于编码层和主实体编码层。实验结果证明,所提模型在CMeIE数据集上取得了5.73%的F1值提升。通过消融实验证实,各个模块均能带来性能提升,并且这些提升具有叠加效应。 展开更多
关键词 实体关系抽取 层叠指针网络 医学关系抽取 深度学习 主语识别
下载PDF
一种基于异构图神经网络和文本语义增强的实体关系抽取方法
8
作者 彭勃 李耀东 +1 位作者 龚贤夫 李浩 《计算机科学》 CSCD 北大核心 2024年第S01期256-260,共5页
信息化时代,如何从海量自然语言文本中提取结构化信息已经成为研究热点。电力系统中繁杂的知识信息需要通过构建知识图谱来解决,而实体关系抽取是其上游的信息抽取任务,其完成度直接关系到知识图谱的有效性。而随着深度学习的不断发展,... 信息化时代,如何从海量自然语言文本中提取结构化信息已经成为研究热点。电力系统中繁杂的知识信息需要通过构建知识图谱来解决,而实体关系抽取是其上游的信息抽取任务,其完成度直接关系到知识图谱的有效性。而随着深度学习的不断发展,利用深度学习技术来完成实体关系抽取任务的研究逐渐展开并取得了良好的效果。然而目前依然存在文本语义应用不完全等问题。针对这些问题本文尝试提出了一种基于异构图神经网络和文本语义增强的实体关系抽取方法,该方法使用词节点与关系节点学习语义特征,并通过BRET与预训练任务分别获得两种节点的初始特征,使用多层图网络结构迭代更新,并在每一层中使用基于多头注意力机制的信息传递实现两种节点的交互。通过该模型与其他实体关系抽取在两个公开数据集上实验对比,所提模型取得了预期效果,在多种情境下普遍优于对比模型。 展开更多
关键词 深度学习 自然语言处理 知识图谱 实体关系抽取 异构图神经网络 文本语义增强
下载PDF
基于证据图推理的文档级实体关系抽取
9
作者 张钰 王嘉 +1 位作者 袁建园 张益嘉 《情报杂志》 CSSCI 北大核心 2024年第7期122-130,共9页
[研究目的]为缓解文档级实体关系抽取任务中存在的句子噪声问题,提高文档级实体关系抽取性能,提出一种基于证据图推理的文档级实体关系抽取方法,为文档级实体关系抽取和知识发现研究提供参考。[研究方法]通过启发式规则捕获实体对间关... [研究目的]为缓解文档级实体关系抽取任务中存在的句子噪声问题,提高文档级实体关系抽取性能,提出一种基于证据图推理的文档级实体关系抽取方法,为文档级实体关系抽取和知识发现研究提供参考。[研究方法]通过启发式规则捕获实体对间关系推理所需证据句路径信息;引入图结构学习思想将证据句路径信息融入异构文档图;基于关系图卷积网络进行关系推理以提升文档图对证据句信息的聚合能力;采用前馈神经网络对实体关系进行预测,实现文档级实体关系高效抽取。[研究结论]所提出的模型在国际公开文档级评测数据集CDR和GDA上F1值分别达到71.3%和85.4%,较基准模型EIDER提高1.2%与1.1%。实验结果表明该方法能够有效选择实体关系推理所需证据路径,提升文档级实体关系抽取性能。 展开更多
关键词 文档级实体关系抽取 证据推理路径 图神经网络 启发式规则 知识发现
下载PDF
基于指针标注的跨境民族文化实体关系抽取方法
10
作者 杨振平 毛存礼 +2 位作者 雷雄丽 黄于欣 张勇丙 《中文信息学报》 CSCD 北大核心 2024年第3期75-83,共9页
跨境民族文化领域文本中存在较多的领域词汇,使得模型提取领域信息困难,造成上下文领域信息缺失,在该领域中实体密度分布高,面临实体关系重叠的问题。考虑到领域信息对跨境民族文化文本语义表征有着重要的作用,该文提出一种基于指针标... 跨境民族文化领域文本中存在较多的领域词汇,使得模型提取领域信息困难,造成上下文领域信息缺失,在该领域中实体密度分布高,面临实体关系重叠的问题。考虑到领域信息对跨境民族文化文本语义表征有着重要的作用,该文提出一种基于指针标注的跨境民族文化实体关系抽取方法,在字符向量表示中融入领域词典信息来增强领域信息用于解决领域实体标注不准确问题,通过多层指针标注解决跨境民族文化领域实体关系重叠问题。实验结果表明,在跨境民族文化实体关系抽取数据集上所提出方法相比于基线方法的F_(1)值提升了2.34%。 展开更多
关键词 跨境民族文化 实体关系抽取 指针标注 领域词典信息
下载PDF
融合实体语义的实体关系抽取联合解码
11
作者 张鑫 张思佳 《现代电子技术》 北大核心 2024年第14期41-45,共5页
针对复杂语境中存在多义词或上下文联系不强的实体,导致模型难以正确识别其关系的问题,提出一种基于BERT和联合解码的实体关系抽取模型。该模型首先采用BERT对实体进行语义编码,提取出实体的上下文信息;然后,利用自注意力机制标记出头实... 针对复杂语境中存在多义词或上下文联系不强的实体,导致模型难以正确识别其关系的问题,提出一种基于BERT和联合解码的实体关系抽取模型。该模型首先采用BERT对实体进行语义编码,提取出实体的上下文信息;然后,利用自注意力机制标记出头实体,并对尾实体进行预测;最后,设计联合解码机制,结合实体语义信息和关系抽取任务进行联合解码。实验结果表明,与基准模型相比,所提模型在纽约时报(NYT)数据集和WebNLG数据集上的准确率和F1值均有所提高,能够有效地提高实体关系提取的准确性。 展开更多
关键词 实体关系抽取 实体语义 BERT 联合编码 自注意力机制 知识图谱
下载PDF
最近对寻址的专利实体关系抽取方法
12
作者 李成奇 雷海卫 +1 位作者 李帆 呼文秀 《计算机工程与设计》 北大核心 2024年第4期1100-1108,共9页
针对专利领域没有公开数据集的问题,标注一个中文专利实体关系抽取数据集PERD(patent entity relation dataset)。为完成实体关系抽取任务,提出最近对寻址的实体关系抽取模型NPAM(nearest pair addressing entity relationship extracti... 针对专利领域没有公开数据集的问题,标注一个中文专利实体关系抽取数据集PERD(patent entity relation dataset)。为完成实体关系抽取任务,提出最近对寻址的实体关系抽取模型NPAM(nearest pair addressing entity relationship extraction model),实体位置信息获取方法的改进、注意力机制建模矩阵和实体抽取方法的创新,使该模型在PERD上F1值达到72.74%,相比模型PRGC提升12.64个百分点。实验结果验证了该模型的有效性。 展开更多
关键词 实体关系抽取 专利领域 数据集 最近对寻址 注意力机制 关联性矩阵 全词标记
下载PDF
基于对span的预判断和多轮分类的实体关系抽取
13
作者 佟缘 姚念民 《计算机工程与科学》 CSCD 北大核心 2024年第5期916-928,共13页
针对自然语言处理领域中的实体识别和关系抽取任务,提出一种对词元序列(Token Sequence,又称span)进行预测的模型Smrc。模型整体上利用BERT预训练模型作为编码器,另外包含实体预判断(Pej)、实体多轮分类(Emr)和关系多轮分类(Rmr)3个模块... 针对自然语言处理领域中的实体识别和关系抽取任务,提出一种对词元序列(Token Sequence,又称span)进行预测的模型Smrc。模型整体上利用BERT预训练模型作为编码器,另外包含实体预判断(Pej)、实体多轮分类(Emr)和关系多轮分类(Rmr)3个模块。Smrc模型通过Pej模块的初步判断及Emr模块的多轮实体分类来进行实体识别,再利用Rmr模块的多轮关系分类来判断实体对间的关系,进而完成关系抽取任务。在CoNLL04、SciERC和ADE 3个实验数据集上,Smrc模型的实体识别F1值分别达到89.67%,70.62%和89.56%,关系抽取F1值分别达到73.11%,51.03%和79.89%,相较之前在3个数据集上的最佳模型Spert,Smrc模型凭借实体预判断和实体及关系多轮分类,在2个子任务上其F1值分别提高了0.73%,0.29%,0.61%及1.64%,0.19%,1.05%,表明了该模型的有效性及其优势。 展开更多
关键词 对span的预判断 实体关系抽取 BERT预训练模型 多轮实体分类 多轮关系分类
下载PDF
基于预训练的藏医药实体关系抽取
14
作者 周青 拥措 +1 位作者 拉毛东只 尼玛扎西 《中文信息学报》 CSCD 北大核心 2024年第8期76-83,共8页
藏医药领域的文本主要以非结构化形式保存,藏医药文本的信息抽取对挖掘藏医药的知识有重要作用。针对现有藏文实体关系抽取模型语义表达能力差、嵌套实体抽取准确率低的问题,该文介绍了一种基于预训练模型的实体关系抽取方法,使用Tibeta... 藏医药领域的文本主要以非结构化形式保存,藏医药文本的信息抽取对挖掘藏医药的知识有重要作用。针对现有藏文实体关系抽取模型语义表达能力差、嵌套实体抽取准确率低的问题,该文介绍了一种基于预训练模型的实体关系抽取方法,使用TibetanAI_ALBERT_v2.0预训练语言模型,使得模型更好地识别实体,使用Span方法解决实体嵌套问题。在Dropout的基础上,增加了一个KL散度损失函数项,提升了模型的泛化能力。在TibetanAI_TMIE_v1.0藏医药数据集上进行了实验,实验结果表明,精确率、召回率和F1值分别达到了84.5%、80.1%和82.2%,F1值较基线提升了4.4个百分点,实验结果证明了该文方法的有效性。 展开更多
关键词 藏医药 实体关系抽取 预训练语言模型
下载PDF
矿山知识图谱构建的实体关系抽取方法研究
15
作者 杨森森 李海涛 +1 位作者 杜伟升 薛珊珊 《煤炭技术》 CAS 2024年第11期259-263,共5页
知识图谱描述实体及其关系,对煤矿管理、安全监控等提供支撑。构建煤矿知识图谱面临数据多样性和语义关系挑战。提出一种基于ALBERT-BiLSTM-Att-CRF的方法,通过特征提取、上下文捕捉、注意力机制和CRF层优化实体关系抽取,展示较高的准... 知识图谱描述实体及其关系,对煤矿管理、安全监控等提供支撑。构建煤矿知识图谱面临数据多样性和语义关系挑战。提出一种基于ALBERT-BiLSTM-Att-CRF的方法,通过特征提取、上下文捕捉、注意力机制和CRF层优化实体关系抽取,展示较高的准确率和F1值,为煤矿智能化提供技术支撑。 展开更多
关键词 矿山 知识图谱 实体关系抽取 ALBERT-BiLSTM-Att-CRF模型
下载PDF
双关系预测与特征融合的实体关系抽取模型
16
作者 沈健 夏鸿斌 刘渊 《智能系统学报》 CSCD 北大核心 2024年第2期462-471,共10页
现有分阶段解码的实体关系抽取模型仍存在着阶段间特征融合不充分的问题,会增大曝光偏差对抽取性能的影响。为此,提出一种双关系预测和特征融合的实体关系抽取模型(entity relation extraction model with dual relation prediction and... 现有分阶段解码的实体关系抽取模型仍存在着阶段间特征融合不充分的问题,会增大曝光偏差对抽取性能的影响。为此,提出一种双关系预测和特征融合的实体关系抽取模型(entity relation extraction model with dual relation prediction and feature fusion,DRPFF),该模型使用预训练的基于Transformer的双向编码表示模型(bidirectional encoder representation from transformers,BERT)对文本进行编码,并设计两阶段的双关系预测结构来减少抽取过程中错误三元组的生成。在阶段间通过门控线性单元(gated linear unit,GLU)和条件层规范化(conditional layer normalization,CLN)组合的结构来更好地融合实体之间的特征。在NYT和WebNLG这2个公开数据集上的试验结果表明,该模型相较于基线方法取得了更好的效果。 展开更多
关键词 实体关系抽取 关系三元组 预训练模型 关系预测 指针网络 特征融合 门控线性单元 条件层规范化
下载PDF
基于门控卷积网络和自注意力网络的联合实体关系抽取
17
作者 王梦涛 杜方 +1 位作者 王美静 李婷 《宁夏大学学报(自然科学版)》 CAS 2024年第3期315-324,共10页
实体关系抽取是自然语言处理领域的一个重要任务,其目的是识别文本实体中的目标关系,为知识图谱等下游任务提供结构化数据,近年来得到了广泛关注及持续创新.目前相关实体关系抽取方法的性能已显著提升,如基于潜在关系和全局对应的实体... 实体关系抽取是自然语言处理领域的一个重要任务,其目的是识别文本实体中的目标关系,为知识图谱等下游任务提供结构化数据,近年来得到了广泛关注及持续创新.目前相关实体关系抽取方法的性能已显著提升,如基于潜在关系和全局对应的实体关系抽取方法(PRGC),通过先引入关系判断模块,从而有效解决了关系识别存在冗余操作的问题,但该方法仍存在词特征信息不够丰富,模型泛化能力不强等问题.以PRGC为参考基准,本文提出了一种基于门控卷积网络(GCN)和自注意力网络的联合实体关系抽取方法(EREGS),在编码阶段结合GCN,有效捕获远距离实体特征并学习到更加抽象的特征表示,使模型能够更好地理解文本的语义信息,从而增强特征的提取能力和跨领域的泛化能力.在解码器部分,利用自注意神经网络,帮助模型正确捕捉实体间的关联性,从而提升关系判别的准确性.实验结果表明,本文所构建的模型在NYT语料库和WEBNLG语料库两个通用数据集上的F1值分别达到了93.7%和90.8%,优于所对比的联合实体关系抽取的基线模型.同时,本文在自建的胶质瘤医学数据集GMD上进行了实验验证,结果表明,该模型在医学专用领域也展现出较优的性能和泛化能力. 展开更多
关键词 实体关系抽取 门控卷积网络 自注意力网络
下载PDF
基于主动学习的实体关系抽取的方法研究
18
作者 孙涵 《现代计算机》 2024年第8期77-83,共7页
关系分类是NLP中提取实体间关系的一项重要任务。介绍一种用于大规模的中文信息抽取数据集的方法,该方法将BERT合并到一个新的框架,并将主动学习应用于联合实体关系抽取中。这种模型从四个方面完善了现有的方法。第一,可以解决多个实体... 关系分类是NLP中提取实体间关系的一项重要任务。介绍一种用于大规模的中文信息抽取数据集的方法,该方法将BERT合并到一个新的框架,并将主动学习应用于联合实体关系抽取中。这种模型从四个方面完善了现有的方法。第一,可以解决多个实体属于多个三元组的问题。基于概率图的思想设计了该框架,并研究出一种新的“头尾”标记方法;第二,提出了一种将主动学习应用于关系抽取问题的创新方法;第三,为了在主、谓、宾三种实体之间传输信息,提出了一种新的规范化方法,称为条件层规范化;第四,设计了一个新的损失函数,以避免类不平衡。实验证明,增强了模型的信息提取能力,在单个模型的测试集上的F1⁃score达到0.840,在用完整数据训练的情况下与原始深度模型相比,用更少的数据取得了更好的性能。 展开更多
关键词 BERT 主动学习 联合实体关系抽取
下载PDF
融合依存信息的关系导向型实体关系抽取方法 被引量:4
19
作者 王景慧 卢玲 +2 位作者 段志丽 张亮 王玉柯 《计算机应用研究》 CSCD 北大核心 2023年第5期1410-1415,1440,共7页
中文实体关系抽取多以字符序列处理文本,存在字符语义表征不足、长字符序列语义遗忘等问题,制约了远距离实体的召回率,为此提出了一种融合依存句法信息的关系导向型抽取方法。输入层以字符序列和基于同义词表示的词序列为输入;编码端用... 中文实体关系抽取多以字符序列处理文本,存在字符语义表征不足、长字符序列语义遗忘等问题,制约了远距离实体的召回率,为此提出了一种融合依存句法信息的关系导向型抽取方法。输入层以字符序列和基于同义词表示的词序列为输入;编码端用长短时记忆网络(LSTM)进行文本编码,并加入全局依存信息,用于产生关系门的表示;解码端加入依存类型信息,并在关系门的作用下,用双向长短时记忆网络(BiLSTM)解码得到实体关系三元组。该方法在SanWen、FinRE、DuIE、IPRE中文数据集上的F1值分别较基线方法提高5.84%、2.11%、2.69%和0.39%。消融实验表明,提出的全局依存信息和依存类型信息表示方法均可提升抽取性能,对长句和远距离实体的抽取性能也稳定地优于基线方法。 展开更多
关键词 实体关系抽取 依存句法分析 剪枝 关系导向 同义词
下载PDF
融合关键词提取与远程监督的文物信息资源实体关系抽取方法研究 被引量:1
20
作者 彭博 童兆莉 《现代情报》 CSSCI 2023年第2期30-41,共12页
[目的/意义]“文博热”的到来在互联网中催生了大量与文物有关的信息资源,其中大多数以非结构化数据的形式存在,如何从中抽取实体关系是进行信息资源深度利用、传播文物知识、弘扬中华优秀传统文化的基础。[方法/过程]文章提出了一种利... [目的/意义]“文博热”的到来在互联网中催生了大量与文物有关的信息资源,其中大多数以非结构化数据的形式存在,如何从中抽取实体关系是进行信息资源深度利用、传播文物知识、弘扬中华优秀传统文化的基础。[方法/过程]文章提出了一种利用关键词抽取算法获取信息资源中与文物主题有关的关键词作为外部知识库检索词,使用SPARQL检索获取实体关系并根据语义进行对齐后,利用远程监督自动进行信息资源实体关系抽取的方法。[结果/结论]在与其他方法的对比试验中,该方法在多个关键词阈值下取得了较好的效果,融合了多种关键词抽取方法在获取信息资源内容上的优势与特点,有效解决了远程监督关系抽取带来的噪音以及关系长尾问题,是一种面向网络信息资源自动进行实体关系抽取的可行方法。 展开更多
关键词 关键词提取 远程监督 文本聚类 文本分类 实体关系抽取
下载PDF
上一页 1 2 13 下一页 到第
使用帮助 返回顶部