期刊文献+
共找到129篇文章
< 1 2 7 >
每页显示 20 50 100
基于自适应损失函数的句子级远程监督关系抽取
1
作者 胡峰 杨新瑞 +2 位作者 汤成富 邓维斌 刘群 《智能系统学报》 CSCD 北大核心 2024年第3期697-706,共10页
远程监督关系抽取是一种关系抽取方法,现有方法主要采用多实例学习,在具有相同实体对的样例包上进行关系抽取。但是,包级方法只能缓解却并不能完全解决错误标签问题。基于此,文中首先分析了干净数据和噪声数据的分布,提出了一种新的自... 远程监督关系抽取是一种关系抽取方法,现有方法主要采用多实例学习,在具有相同实体对的样例包上进行关系抽取。但是,包级方法只能缓解却并不能完全解决错误标签问题。基于此,文中首先分析了干净数据和噪声数据的分布,提出了一种新的自适应损失函数;在此基础上,提出了一种基于自适应损失函数的句子级远程监督关系抽取方法。在公开数据集NYT-10以及基于TACRED的合成数据集上的实验结果表明:文中提出的方法优于对比文献中的方法,能够更有效地区分错误标签噪声样例和干净样例,提高了句子级远程监督关系抽取的准确率。 展开更多
关键词 自然语言处理 信息抽取 关系抽取 远程监督 噪声分离 噪声标注 负训练 自适应损失函数
下载PDF
基于BERT的两次注意力机制远程监督关系抽取
2
作者 袁泉 陈昌平 +1 位作者 陈泽 詹林峰 《计算机应用》 CSCD 北大核心 2024年第4期1080-1085,共6页
针对词向量语义信息不完整以及文本特征抽取时的一词多义问题,提出基于BERT(Bidirectional Encoder Representation from Transformer)的两次注意力加权算法(TARE)。首先,在词向量编码阶段,通过构建Q、K、V矩阵使用自注意力机制动态编... 针对词向量语义信息不完整以及文本特征抽取时的一词多义问题,提出基于BERT(Bidirectional Encoder Representation from Transformer)的两次注意力加权算法(TARE)。首先,在词向量编码阶段,通过构建Q、K、V矩阵使用自注意力机制动态编码算法,为当前词的词向量捕获文本前后词语义信息;其次,在模型输出句子级特征向量后,利用定位信息符提取全连接层对应参数,构建关系注意力矩阵;最后,运用句子级注意力机制算法为每个句子级特征向量添加不同的注意力分数,提高句子级特征的抗噪能力。实验结果表明:在NYT-10m数据集上,与基于对比学习框架的CIL(Contrastive Instance Learning)算法相比,TARE的F1值提升了4.0个百分点,按置信度降序排列后前100、200和300条数据精准率Precision@N的平均值(P@M)提升了11.3个百分点;在NYT-10d数据集上,与基于注意力机制的PCNN-ATT(Piecewise Convolutional Neural Network algorithm based on ATTention mechanism)算法相比,精准率与召回率曲线下的面积(AUC)提升了4.8个百分点,P@M值提升了2.1个百分点。在主流的远程监督关系抽取(DSER)任务中,TARE有效地提升了模型对数据特征的学习能力。 展开更多
关键词 远程监督 关系抽取 注意力机制 词向量特征 全连接层
下载PDF
融合知识和约束图的远程监督关系抽取方法
3
作者 刘琼昕 牛文涛 王佳升 《北京理工大学学报》 EI CAS CSCD 北大核心 2024年第7期731-739,共9页
远程监督关系抽取通过自动标注数据减少人工标注成本,但存在句子标签噪声和关系长尾分布两个问题.为解决上述问题,提出一种融合知识图中实体信息以及实体和关系间约束的关系抽取方法.该方法对目标实体和其邻居实体的属性进行编码,对目... 远程监督关系抽取通过自动标注数据减少人工标注成本,但存在句子标签噪声和关系长尾分布两个问题.为解决上述问题,提出一种融合知识图中实体信息以及实体和关系间约束的关系抽取方法.该方法对目标实体和其邻居实体的属性进行编码,对目标实体和邻居实体构成的邻居图进行编码,对实体类型和关系间约束进行编码,并通过多源融合注意力模块进行信息整合,构建关系抽取模型.该方法在NYT-10数据集上的AUC值为0.524,P@100值为94.8%,长尾指标Hits@K较之前最先进模型均有提升,取得了优异表现,表明该方法融合实体信息和约束信息解决远程监督关系抽取两个主要问题的有效性. 展开更多
关键词 远程监督关系抽取 知识上下文 约束图 多源融合注意力
下载PDF
融合相似度负采样的远程监督命名实体识别方法
4
作者 刘杨 线岩团 +1 位作者 相艳 黄于欣 《计算机应用研究》 CSCD 北大核心 2024年第8期2322-2328,共7页
实体漏标是目前远程监督命名实体识别(distantly supervised named entity recognition,DS-NER)存在的一个难点问题。训练集中的漏标实体在模型训练中提供了不正确的监督信息,模型将在后续预测实体类型时更倾向于将该类实体预测为非实体... 实体漏标是目前远程监督命名实体识别(distantly supervised named entity recognition,DS-NER)存在的一个难点问题。训练集中的漏标实体在模型训练中提供了不正确的监督信息,模型将在后续预测实体类型时更倾向于将该类实体预测为非实体,导致模型的实体识别和分类能力下降,同时影响了模型的泛化性能。针对这一问题,提出了融合实体特征相似度计算负采样命名实体识别方法。首先,通过对候选样本和标注实体样本进行相似度计算并打分;其次,以相似度得分作为依据对候选样本进行采样,采样出参与训练的样本。与随机负采样方法相比,该方法通过结合相似度计算,降低了采样到漏标实体的可能性,进而提高了训练数据的质量,从而提升了模型的性能。实验结果表明,该方法在CoNLL03、Wiki、Twitter三个数据集上与其他模型相比,比基线模型平均取得了5%左右的F_(1)值提升,证明了该方法能够有效缓解远程监督条件下实体漏标带来的命名实体识别模型性能下降的问题。 展开更多
关键词 命名实体识别 实体漏标 远程监督 负采样 数据增强
下载PDF
基于类型注意力和GCN的远程监督关系抽取
5
作者 张欢 李卫疆 《计算机工程与科学》 CSCD 北大核心 2024年第2期316-324,共9页
远程监督关系抽取通过自动对齐自然语言文本与知识库生成带有标签的训练数据集,解决样本人工标注的问题。目前的远程监督研究大多没有关注到长尾(long-tail)数据,因此远程监督得到的大多数句包中所含句子太少,不能真实全面地反映数据的... 远程监督关系抽取通过自动对齐自然语言文本与知识库生成带有标签的训练数据集,解决样本人工标注的问题。目前的远程监督研究大多没有关注到长尾(long-tail)数据,因此远程监督得到的大多数句包中所含句子太少,不能真实全面地反映数据的情况。因此,提出基于位置-类型注意力机制和图卷积网络的远程监督关系抽取模型PG+PTATT。利用图卷积网络GCN聚合相似句包的隐含高阶特征,并对句包进行优化以此得到句包更丰富全面的特征信息;同时构建位置-类型注意力机制PTATT,以解决远程监督关系抽取中错误标签的问题。PTATT利用实体词与非实体词的位置关系以及类型关系进行建模,减少噪声词带来的影响。提出的模型在New York Times数据集上进行实验验证,实验结果表明提出的模型能够有效解决远程监督关系抽取中存在的问题;同时,能够有效提升关系抽取的正确率。 展开更多
关键词 远程监督 关系抽取 图卷积网络 注意力机制 类型关系 句包
下载PDF
结合强化学习和DenseNet的远程监督关系抽取模型
6
作者 冯轩闻 袁新瑞 +1 位作者 孙霞 高厦 《计算机应用与软件》 北大核心 2024年第2期138-144,208,共8页
关系抽取是信息获取领域的重要任务之一。为了更好地解决数据集中的噪声问题和句子深层次语义表征,提出一种结合强化学习和密集连接卷积神经网络的远程监督关系抽取模型,模型分为句子选择器和关系分类器。在句子选择器中,基于强化学习... 关系抽取是信息获取领域的重要任务之一。为了更好地解决数据集中的噪声问题和句子深层次语义表征,提出一种结合强化学习和密集连接卷积神经网络的远程监督关系抽取模型,模型分为句子选择器和关系分类器。在句子选择器中,基于强化学习的方法能有效过滤噪声语句,提升输入数据质量;在关系分类器中,通过DenseNet深层网络中的特征复用,学习更丰富的语义特征。在NYT数据集上的实验结果表明句子选择器能够有效过滤噪声,该模型的关系抽取性能相比基线模型得到有效提高。 展开更多
关键词 关系抽取 远程监督 强化学习 卷积神经网络 密集连接
下载PDF
面向远程监督命名实体识别的噪声检测
7
作者 王嘉诚 王凯 +4 位作者 王昊奋 杜渂 何之栋 阮彤 刘井平 《计算机研究与发展》 EI CSCD 北大核心 2024年第4期916-928,共13页
针对远程监督命名实体识别(named entity recognition,NER)任务,目前有许多基于强化学习的方法,利用强化学习的强大决策能力,对远程监督生成的自动标注数据进行噪声过滤.然而,这些方法所使用的策略网络模型架构都较简单,识别噪声能力较... 针对远程监督命名实体识别(named entity recognition,NER)任务,目前有许多基于强化学习的方法,利用强化学习的强大决策能力,对远程监督生成的自动标注数据进行噪声过滤.然而,这些方法所使用的策略网络模型架构都较简单,识别噪声能力较弱,且都以完整的句子样本为单位进行识别,导致句子中的部分正确信息被丢弃.为解决上述问题,提出了一种新的基于强化学习的方法,称为RLTL-DSNER,该方法可以从远程监督生成的带噪数据中,以单词级别识别正确实例,减少噪声实例对远程监督NER的负面影响.具体来说,在策略网络模型中引入了标签置信函数来准确识别实例.此外,提出了一种新颖的NER模型预训练策略,使其能为强化学习的初始训练提供精准的状态表示和有效的奖励值,引导其向正确的方向更新.在4个数据集上的实验结果验证了RLTL-DSNER方法的优越性,在NEWS数据集上,相较于现有最先进的方法,获得了4.28%的F1提升. 展开更多
关键词 命名实体识别 远程监督 深度强化学习 噪声检测 预训练策略
下载PDF
融合位置特征注意力与关系增强机制的远程监督关系抽取
8
作者 郑志蕴 徐亚媚 +2 位作者 李伦 张行进 李钝 《小型微型计算机系统》 CSCD 北大核心 2023年第12期2678-2684,共7页
实体关系抽取是构建知识图谱的主要任务之一,旨在确定句子中实体之间的关系类别.远程监督关系抽取方法通过将远程知识库与文本数据对齐来自动标记数据,已成为处理关系抽取任务的主要方式.为解决远程关系抽取不能充分利用单词之间的位置... 实体关系抽取是构建知识图谱的主要任务之一,旨在确定句子中实体之间的关系类别.远程监督关系抽取方法通过将远程知识库与文本数据对齐来自动标记数据,已成为处理关系抽取任务的主要方式.为解决远程关系抽取不能充分利用单词之间的位置关系信息,并且没有考虑重叠关系之间语义相关性的问题,本文提出一种融合位置特征注意力和关系增强机制的远程监督关系抽取模型.该模型使用基于高斯算法的位置特征注意力机制重新分配句子中单词的权重,并且采用分段卷积神经网络和词级注意力来捕获句子特征.然后,利用基于自注意力的关系增强机制来捕获重叠关系之间的语义关联.在NYT10公共数据集上的实验结果表明,本文模型的性能优于所比较的基线关系抽取模型. 展开更多
关键词 实体关系提取 远程监督 深度神经网络 位置特征注意力 关系增强机制
下载PDF
结合原型网络的远程监督命名实体识别方法
9
作者 罗森林 林朝坤 +1 位作者 潘丽敏 吴舟婷 《北京理工大学学报》 EI CAS CSCD 北大核心 2023年第4期410-416,共7页
针对利用远程监督标注文本实体过程中存在实体类别标注错误问题导致模型难以有效区分各实体的类别特征,影响模型精准度的问题,本文提出一种利用原型网络过滤训练语料中标注错误样本的远程监督命名实体识别方法,利用预训练的原型网络编... 针对利用远程监督标注文本实体过程中存在实体类别标注错误问题导致模型难以有效区分各实体的类别特征,影响模型精准度的问题,本文提出一种利用原型网络过滤训练语料中标注错误样本的远程监督命名实体识别方法,利用预训练的原型网络编码正确标注实体生成类别原型表示,过滤语料中距类别原型较远的样本.实验表明,使用原型网络有效地提高了语料的标注质量,提升了模型性能. 展开更多
关键词 命名实体识别 远程监督 语料自动标注 原型网络 正例-无标注学习
下载PDF
一种针对维汉的跨语言远程监督方法
10
作者 杨振宇 王磊 +4 位作者 马博 杨雅婷 董瑞 艾孜麦提·艾瓦尼尔 王震 《计算机工程》 CAS CSCD 北大核心 2023年第2期271-278,共8页
远程监督是关系抽取领域重要的语料扩充技术,可以在少量已标注语料的基础上快速生成伪标注语料。但是传统的远程监督方法主要应用于单语种文本,维吾尔语等低资源语言并不能使用这类方法得到伪标注语料。针对上述问题,提出一种针对维汉... 远程监督是关系抽取领域重要的语料扩充技术,可以在少量已标注语料的基础上快速生成伪标注语料。但是传统的远程监督方法主要应用于单语种文本,维吾尔语等低资源语言并不能使用这类方法得到伪标注语料。针对上述问题,提出一种针对维汉的跨语言远程监督方法,在无语料的情况下利用现有的汉语语料进行维语语料的自动扩充。将远程监督视为文本语义相似度计算问题而不是简单的文本查找,从实体语义和句子语义2个层面判断维语和汉语句子对是否包含同一关系,若为同一关系则将已有的汉语标注转移到维语句子上,实现维语语料从零开始的自动扩充。此外,为有效捕获实体的上下文和隐藏语义信息,提出一种带有门控机制的交互式匹配方法,通过门控单元控制编码层、注意力层之间的信息传递。人工标记3500条维语句子和600条汉语句子用于模拟远程监督过程并验证模型的性能。实验结果表明,该方法F1值达到73.05%,并且成功构造了包含97949条维语句子的关系抽取伪标注数据集。 展开更多
关键词 关系抽取 语义相似度 语义编码 远程监督 跨语言
下载PDF
融合关键词提取与远程监督的文物信息资源实体关系抽取方法研究
11
作者 彭博 童兆莉 《现代情报》 2023年第2期30-41,共12页
[目的/意义]“文博热”的到来在互联网中催生了大量与文物有关的信息资源,其中大多数以非结构化数据的形式存在,如何从中抽取实体关系是进行信息资源深度利用、传播文物知识、弘扬中华优秀传统文化的基础。[方法/过程]文章提出了一种利... [目的/意义]“文博热”的到来在互联网中催生了大量与文物有关的信息资源,其中大多数以非结构化数据的形式存在,如何从中抽取实体关系是进行信息资源深度利用、传播文物知识、弘扬中华优秀传统文化的基础。[方法/过程]文章提出了一种利用关键词抽取算法获取信息资源中与文物主题有关的关键词作为外部知识库检索词,使用SPARQL检索获取实体关系并根据语义进行对齐后,利用远程监督自动进行信息资源实体关系抽取的方法。[结果/结论]在与其他方法的对比试验中,该方法在多个关键词阈值下取得了较好的效果,融合了多种关键词抽取方法在获取信息资源内容上的优势与特点,有效解决了远程监督关系抽取带来的噪音以及关系长尾问题,是一种面向网络信息资源自动进行实体关系抽取的可行方法。 展开更多
关键词 关键词提取 远程监督 文本聚类 文本分类 实体关系抽取
下载PDF
基于外部知识增强的远程监督关系抽取模型 被引量:1
12
作者 曾碧卿 李砚龙 蔡剑 《计算机系统应用》 2023年第5期253-261,共9页
远程监督关系抽取方法旨在高效的构建大规模的监督语料并应用在关系抽取的任务上.但是由于远程监督构建语料的方式,带来了噪声标签和长尾分布两大问题.本文提出了一种新颖的远程监督关系抽取模型架构,与以往的基于管道的训练形式不同,... 远程监督关系抽取方法旨在高效的构建大规模的监督语料并应用在关系抽取的任务上.但是由于远程监督构建语料的方式,带来了噪声标签和长尾分布两大问题.本文提出了一种新颖的远程监督关系抽取模型架构,与以往的基于管道的训练形式不同,除了句子编码器模块,新添加了外部知识增强模块.通过对知识库中已存在的实体类型与关系进行预处理和编码,为模型提供句包文本所没有的外部知识.有利于缓解数据集中存在部分长尾关系示例不足所导致的信息不足的问题,以及提升了模型对噪声示例的判别能力.通过在基准数据集NYT和GDS上的大量实验,相较于主流最优模型在AUC值上分别提升了0.9%和5.7%,证明了外部知识增强模块的有效性. 展开更多
关键词 远程监督 关系抽取 图卷积神经网络 外部知识
下载PDF
基于知识图谱的远程监督关系抽取降噪方法
13
作者 赵晋斌 王琦 +1 位作者 马黎雨 李学思 《火力与指挥控制》 CSCD 北大核心 2023年第10期160-169,共10页
关系抽取任务的研究往往需要人工标注大量训练数据去支撑,而远程监督可以通过自动构建训练数据的方式降低人工的成本和压力,但自动构建的数据集存在着严重的错误标注问题。针对这一问题,提出一种基于知识图谱的远程监督关系抽取降噪方... 关系抽取任务的研究往往需要人工标注大量训练数据去支撑,而远程监督可以通过自动构建训练数据的方式降低人工的成本和压力,但自动构建的数据集存在着严重的错误标注问题。针对这一问题,提出一种基于知识图谱的远程监督关系抽取降噪方法。利用生成对抗网络对数据集进行清洗;融入知识图谱中的实体信息,构建异构信息图;最后利用图注意力网络对异构信息图进行编码,实现关系抽取。在公开数据集NYT10上,相较于主流最优模型在精确率、召回率和F1值上均有所提高,证明知识图谱信息对远程监督关系抽取的重要性。 展开更多
关键词 关系抽取 远程监督 知识图谱 错误标注
下载PDF
基于多层注意力机制的农业病虫害远程监督关系抽取研究 被引量:7
14
作者 乐毅 王文宇 +5 位作者 张凯 梁振京 刘飞 陈祎琼 吴云志 张友华 《安徽农业大学学报》 CAS CSCD 2020年第4期682-686,共5页
针对大多数现有关系抽取模型存在对语义特征提取不充分、速度慢且数据集匮乏的缺点,提出一种PCNN(piecewise convolutional neural network)模型和多层注意力机制相结合的远程监督关系抽取方法进行农业病虫害领域的关系抽取。模型由两... 针对大多数现有关系抽取模型存在对语义特征提取不充分、速度慢且数据集匮乏的缺点,提出一种PCNN(piecewise convolutional neural network)模型和多层注意力机制相结合的远程监督关系抽取方法进行农业病虫害领域的关系抽取。模型由两个实体把句子分成三段,对卷积后的每一段进行最大池化获得特征,同时在实例和池化特征层面上分别引入注意力机制有效降低信息噪声。在F1评价指标上比传统方法提高了5.75%,在耗时上是传统方法的10.93%,且减少了手工标注数据集的成本。 展开更多
关键词 关系抽取 农业病虫害 注意力机制 卷积神经网络 远程监督
下载PDF
采用多尺度注意力机制的远程监督关系抽取 被引量:12
15
作者 蔡强 郝佳云 +1 位作者 曹健 李海生 《中文信息学报》 CSCD 北大核心 2018年第1期96-101,共6页
针对目前大多数关系抽取模型中局部特征及全局特征利用不充分的缺点,该文提出一种采用多尺度注意力机制的远程监督关系抽取模型。在词语层面,通过在池化层构建权重矩阵来衡量词语与关系的相关程度,从而捕捉句子中重要的语义特征;在句子... 针对目前大多数关系抽取模型中局部特征及全局特征利用不充分的缺点,该文提出一种采用多尺度注意力机制的远程监督关系抽取模型。在词语层面,通过在池化层构建权重矩阵来衡量词语与关系的相关程度,从而捕捉句子中重要的语义特征;在句子层面,采用注意力机制将预测关系与句子进行相关性比较,获得句子级别的重要信息。模型在NYT数据集上平均准确率达到78%,表明该模型能够有效地利用多尺度特征,并且提高远程关系抽取任务的准确率。 展开更多
关键词 多尺度 注意力机制 远程监督模型 关系抽取
下载PDF
利用中文在线资源的远程监督人物关系抽取 被引量:13
16
作者 潘云 布勒布丽汗.伊沙巴依 +1 位作者 杨静 尹敏 《小型微型计算机系统》 CSCD 北大核心 2015年第4期701-706,共6页
人物关系抽取是信息抽取研究中的一个重要领域,针对需要预先定义人物关系类型的不足,提出一种利用中文在线资源的远程监督人物关系抽取方法.该方法首先利用Web上已经通过半人工化方式形成的在线百科网站自动构建知识库,以获取尽可能全... 人物关系抽取是信息抽取研究中的一个重要领域,针对需要预先定义人物关系类型的不足,提出一种利用中文在线资源的远程监督人物关系抽取方法.该方法首先利用Web上已经通过半人工化方式形成的在线百科网站自动构建知识库,以获取尽可能全面且准确的关系类型及其人物关系实例.接着提取语料库中所有共现的人名对以及上下文特征,并将人名对与知识库中关系实例相互匹配,得到标记关系的人名对集合和未标记的人名对集合.最后,引入标签传播算法实现未标记人名对的关系匹配.在Sogou C、sohu和baidu语料库上进行实验,结果表明该方法能够充分利用在线百科中丰富的关系类型,并且都可获得近70%的准确率. 展开更多
关键词 人物关系抽取 远程监督 人物关系知识库 标签传播算法
下载PDF
基于多层次注意力机制的远程监督关系抽取模型 被引量:6
17
作者 李浩 刘永坚 +1 位作者 解庆 唐伶俐 《计算机科学》 CSCD 北大核心 2019年第10期252-257,共6页
实体关系抽取作为信息抽取的主要任务之一,其目的在于确定无结构文本中两个实体的关系类别。目前准确率较高的有监督方法由于需要大量的人工标注语料而受到了限制,而远程监督方法则通过知识库与文本集进行启发式对齐来获取大量关系三元... 实体关系抽取作为信息抽取的主要任务之一,其目的在于确定无结构文本中两个实体的关系类别。目前准确率较高的有监督方法由于需要大量的人工标注语料而受到了限制,而远程监督方法则通过知识库与文本集进行启发式对齐来获取大量关系三元组,这是解决大规模关系抽取任务的主要途径。针对目前远程监督关系抽取的研究未能充分利用句子上下文词语的高层语义,以及未考虑关系之间的依赖包含关系的问题,文中提出了一种基于多层次注意力机制的远程监督关系抽取模型。该模型首先通过双向GRU(Gate Recurrent Unit)神经网络对句子词向量进行编码来获取句子高维语义;其次通过引入词语层注意力来计算两个实体与上下文词语的相关程度,从而充分捕捉句子中实体上下文的语义信息;然后在多个实例上构建句子层的注意力来减少标签错误标注的问题;最后通过关系层的注意力自动学习不同关系之间的依赖包含关系。在FreeBase+NYT公共数据集上的实验结果表明,在双向GRU模型的基础上引入词语层、句子层和关系层注意力机制对提高远程监督关系抽取的效果都起到了促进作用;将三层注意力机制进行融合得到的多层次注意力机制关系抽取模型的准确率和召回率相较于现有的主流方法提高了4%左右,更好地实现了关系抽取,从而为进一步构建知识图谱、智能问答等应用奠定了理论基础。 展开更多
关键词 远程监督 关系抽取 双向GRU 词向量 注意力机制
下载PDF
基于同义词词林和规则的中文远程监督人物关系抽取方法 被引量:6
18
作者 谢明鸿 冉强 王红斌 《计算机工程与科学》 CSCD 北大核心 2021年第9期1660-1667,共8页
远程监督是一种根据知识库自动对齐实体进行大规模语料标注的方法,但过强的假设导致获取的语料混有大量的噪声。针对这一问题,提出了一种基于同义词词林和规则的中文远程监督人物关系抽取方法,该方法基于多示例学习思想将人物关系句子... 远程监督是一种根据知识库自动对齐实体进行大规模语料标注的方法,但过强的假设导致获取的语料混有大量的噪声。针对这一问题,提出了一种基于同义词词林和规则的中文远程监督人物关系抽取方法,该方法基于多示例学习思想将人物关系句子划分为包(bag)级,利用同义词词林对人物关系触发词做词频统计,确定最大词频候选关系和次大词频候选关系,再结合特定的人物关系判别规则判断人物关系。对bag判断出某个人物关系后,再对其进一步进行多关系预测,最终得到人物关系预测结果。在大规模的中文远程监督人物关系抽取公开数据集(IPRE)上的实验结果表明,所提方法得到的结果具有较好的F1值,并且能识别远程监督数据测试集标签所没标注出的人物关系。 展开更多
关键词 同义词词林 规则 远程监督 人物关系 关系抽取
下载PDF
结合注意力机制和本体的远程监督关系抽取 被引量:2
19
作者 李艳娟 臧明哲 +2 位作者 刘晓燕 刘扬 郭茂祖 《计算机科学与探索》 CSCD 北大核心 2020年第9期1554-1562,共9页
关系抽取是从非结构化的文本中抽取关系,并以结构化的形式输出。为了提高抽取准确性并降低对人工标注的依赖,提出了基于注意力机制和本体的远程监督关系抽取模型(APCNNs+OR)。该模型分为特征工程提取模块、分类器模块、本体约束层。在... 关系抽取是从非结构化的文本中抽取关系,并以结构化的形式输出。为了提高抽取准确性并降低对人工标注的依赖,提出了基于注意力机制和本体的远程监督关系抽取模型(APCNNs+OR)。该模型分为特征工程提取模块、分类器模块、本体约束层。在分类器模块中,引入并改进了实例级注意力机制,更好地学习数据袋中每个句子的权重,有效地降低了远程监督假设引入的噪声干扰及句子中实体间的词语信息干扰。在本体约束层,通过引入领域本体对抽取结果进行约束,提高了抽取关系的准确性。SemMed和GoldStandard语料实验结果表明,该模型可有效降低错误标签的噪声干扰,比现有模型具有更好的关系抽取性能。 展开更多
关键词 关系抽取 本体 远程监督 注意力机制
下载PDF
基于聚焦损失与残差网络的远程监督关系抽取 被引量:3
20
作者 蔡强 李晶 郝佳云 《计算机工程》 CAS CSCD 北大核心 2019年第12期166-170,共5页
基于卷积神经网络的远程监督关系抽取方法提取的特征单一,且标准交叉熵损失函数未能较好处理数据集中正负样本比例不均衡的情况。为此,提出一种基于深度残差神经网络的远程监督关系抽取模型,通过改进交叉熵聚焦损失函数,提取句子中的深... 基于卷积神经网络的远程监督关系抽取方法提取的特征单一,且标准交叉熵损失函数未能较好处理数据集中正负样本比例不均衡的情况。为此,提出一种基于深度残差神经网络的远程监督关系抽取模型,通过改进交叉熵聚焦损失函数,提取句子中的深层语义特征,同时降低损失函数中负样本的权重,避免在NYT-Freebase标准数据集中引入NA关系类别的噪音。实验结果表明,该模型能增强深度残差神经网络对含噪音数据的表示学习能力,有效提高远程监督关系抽取任务的分类准确率。 展开更多
关键词 交叉熵损失函数 残差学习 远程监督模型 关系抽取 卷积神经网络
下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部