期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
关系抽取中基于本体的远监督样本扩充 被引量:7
1
作者 欧阳丹彤 瞿剑峰 叶育鑫 《软件学报》 EI CSCD 北大核心 2014年第9期2088-2101,共14页
远监督学习是适合大数据下关系抽取任务的一种学习算法.它通过对齐知识库中的关系实例和文本集中的自然语句,为学习算法提供大规模样本数据.利用本体进行关系实例的自动扩充,用于解决基于远监督学习的关系抽取任务中部分待抽取关系的实... 远监督学习是适合大数据下关系抽取任务的一种学习算法.它通过对齐知识库中的关系实例和文本集中的自然语句,为学习算法提供大规模样本数据.利用本体进行关系实例的自动扩充,用于解决基于远监督学习的关系抽取任务中部分待抽取关系的实例匮乏问题.该方法首先通过定义关系覆盖率和公理容积率,来寻找与关系抽取任务关联性大的本体;然后,借助本体推理中的实例查询增加待抽取关系下的关系实例;最后,通过对齐新增关系实例和文本集中的自然语句,达到扩充样本的效果.实验结果表明:基于本体的远监督学习样本扩充方法能够有效完成样本匮乏的关系抽取任务,进一步提升远监督学习方法在大数据环境下的关系抽取能力. 展开更多
关键词 远监督 关系抽取 本体
下载PDF
基于带噪观测的远监督神经网络关系抽取 被引量:9
2
作者 叶育鑫 薛环 +1 位作者 王璐 欧阳丹彤 《软件学报》 EI CSCD 北大核心 2020年第4期1025-1038,共14页
远监督关系抽取的最大优势是通过知识库和自然语言文本的自动对齐生成标记数据.这种简单的自动对齐机制在将人从繁重的样本标注工作中解放出来的同时,不可避免地会产生各种错误数据标记,进而影响构建高质量的关系抽取模型.针对远监督关... 远监督关系抽取的最大优势是通过知识库和自然语言文本的自动对齐生成标记数据.这种简单的自动对齐机制在将人从繁重的样本标注工作中解放出来的同时,不可避免地会产生各种错误数据标记,进而影响构建高质量的关系抽取模型.针对远监督关系抽取任务中的标记噪声问题,提出“最终句子对齐的标签是基于某些未知因素所生成的带噪观测结果”这一假设.并在此假设的基础上,构建由编码层、基于噪声分布的注意力层、真实标签输出层和带噪观测层的新型关系抽取模型.模型利用自动标记的数据学习真实标签到噪声标签的转移概率,并在测试阶段,通过真实标签输出层得到最终的关系分类.随后,研究带噪观测模型与深度神经网络的结合,重点讨论基于深度神经网络编码的噪声分布注意力机制以及深度神经网络框架下不均衡样本的降噪处理.通过以上研究,进一步提升基于带噪观测远监督关系抽取模型的抽取精度和鲁棒性.最后,在公测数据集和同等参数设置下进行带噪观测远监督关系抽取模型的验证实验,通过分析样本噪声的分布情况,对在各种样本噪声分布下的带噪观测模型进行性能评价,并与现有的主流基线方法进行比较.结果显示,所提出的带噪观测模型具有更高的准确率和召回率. 展开更多
关键词 远监督 关系抽取 噪声标签
下载PDF
基于远监督的语义知识资源扩展研究
3
作者 卢达威 王星友 袁毓林 《中文信息学报》 CSCD 北大核心 2016年第6期147-155,共9页
语义知识资源蕴含了深刻的语言学理论,是语言学知识和语言工程的重要接口。该文以形容词句法语义词典为研究对象,探索对语义知识资源自动扩展的方法。该文的目标是利用大规模语料库,扩展原有词典的词表及其对应的句法格式。具体方法是... 语义知识资源蕴含了深刻的语言学理论,是语言学知识和语言工程的重要接口。该文以形容词句法语义词典为研究对象,探索对语义知识资源自动扩展的方法。该文的目标是利用大规模语料库,扩展原有词典的词表及其对应的句法格式。具体方法是根据词的句法格式将词典的词分类,将待扩展的新词通过分类器映射到原有词典的词中,以此把词典扩展问题转化为多类分类问题。依据的原理是词典词和待扩展新词在大规模语料中句法结构的相似性。该文通过远监督的方法构造训练数据,避免大量的人工标注。训练过程结合了浅层机器学习方法和深度神经网络,取得了有意义的成果。实验结果显示,深度神经网络能够习得句法结构信息,有效提升匹配的准确率。 展开更多
关键词 资源扩展 远监督 语义知识资源
下载PDF
快速收敛截断核范数矩阵填充方法的远监督关系抽取
4
作者 王烨 张百强 《电子技术与软件工程》 2020年第7期197-199,共3页
本文使用截断核范数代替核范数,进行基于低秩矩阵填充技术的关系抽取,改善远监督关系抽取存在较多噪声数据的问题。该方法具有准确率高、容噪性好的特点,能够更好的保留矩阵的主要成分,并且对于矩阵的秩函数有更好的逼近效果。本文利用... 本文使用截断核范数代替核范数,进行基于低秩矩阵填充技术的关系抽取,改善远监督关系抽取存在较多噪声数据的问题。该方法具有准确率高、容噪性好的特点,能够更好的保留矩阵的主要成分,并且对于矩阵的秩函数有更好的逼近效果。本文利用具有快速收敛特性的TNNR-ADMMAP算法求解最小化截断核范数的凸优化子问题。 展开更多
关键词 远监督学习 关系抽取 快速收敛 低秩矩阵填充 截断核范数
下载PDF
关系抽取中远监督错误标注消除 被引量:1
5
作者 汝承森 唐晋韬 +2 位作者 谢松县 李莎莎 王挺 《国防科技大学学报》 EI CAS CSCD 北大核心 2018年第3期148-152,共5页
目前远监督方法被广泛应用于关系抽取任务。然而,远监督方法中存在大量错误标注现象,给远监督方法的学习效果带来了很大的影响。提出利用语义Jaccard度量关系短语与依存词间语义相似性的错误标注消除方法。消除错误标注后的训练数据用... 目前远监督方法被广泛应用于关系抽取任务。然而,远监督方法中存在大量错误标注现象,给远监督方法的学习效果带来了很大的影响。提出利用语义Jaccard度量关系短语与依存词间语义相似性的错误标注消除方法。消除错误标注后的训练数据用于训练模型,完成关系抽取。实验结果表明:该方法可以有效消除错误标注,提高关系抽取的性能。 展开更多
关键词 关系抽取 远监督 错误标注 语义相似性
下载PDF
结合特殊领域实体识别的远监督话语领域分类 被引量:1
6
作者 何宇虹 黄沛杰 +3 位作者 杜泽峰 刘威 朱建恺 章锦川 《中文信息学报》 CSCD 北大核心 2020年第5期10-18,共9页
近年来,基于注意力(attention)机制的循环神经网络在文本分类中表现出显著的性能。然而,当训练集数据有限时,测试集数据中许多领域实体指称项在训练集中处于低频,甚至从未出现,如中文话语领域分类任务。该文提出结合特殊领域实体识别的... 近年来,基于注意力(attention)机制的循环神经网络在文本分类中表现出显著的性能。然而,当训练集数据有限时,测试集数据中许多领域实体指称项在训练集中处于低频,甚至从未出现,如中文话语领域分类任务。该文提出结合特殊领域实体识别的远监督话语分类模型。首先,通过远监督(distant supervision)的方式获取数据集中的领域知识,显著地减少了人工操作;其次,利用特殊领域实体识别和本地构建的补充性知识库去补全远监督获取的领域知识,旨在为模型提供更加全面的领域知识;最后,对基于上下文的语义特征和知识特征这两种异构信息提出了细粒度拼接机制,在词级上融合了预训练词汇语义表达和领域知识表达,有效提升了分类模型的性能。通过与研究进展的文本分类模型的对比实验表明,该文模型在中文话语领域分类基准数据集的实验上取得了较高的正确率,特别是在知识敏感型领域,较研究进展方法具有显著优势。 展开更多
关键词 领域分类 外部知识 远监督 话语表达 神经分类器
下载PDF
基于模式的远监督关系抽取算法 被引量:3
7
作者 王加楠 鲁强 《中文信息学报》 CSCD 北大核心 2017年第4期122-131,共10页
远监督关系抽取算法能够自动将关系库中的关系与无标注的文本对齐,以进行文本中的关系抽取。目前提出的远监督关系抽取算法中,大多数是基于特征的。然而,此类算法在将实例转换为特征时,经常会出现关键信息不突出、数据集线性不可分等问... 远监督关系抽取算法能够自动将关系库中的关系与无标注的文本对齐,以进行文本中的关系抽取。目前提出的远监督关系抽取算法中,大多数是基于特征的。然而,此类算法在将实例转换为特征时,经常会出现关键信息不突出、数据集线性不可分等问题,影响关系抽取的效果。该文提出了一种基于模式的远监督关系抽取算法,其中引入了基于模式的向量,并使用了基于核的机器学习算法来克服上述问题。实验结果表明,该文提出的基于模式的远监督关系抽取算法,能够有效地提升远监督关系抽取的准确率。 展开更多
关键词 远监督 关系抽取 模式 核方法
下载PDF
远监督关系抽取去噪研究综述
8
作者 李艳斌 《现代计算机》 2020年第7期51-54,共4页
现有的关系抽取方法大多数为有监督学习方法,需要大量的标注数据,远监督方法解决该问题,可以高效地标注大量的训练数据,使得关系抽取任务得以快速发展。但是,远监督标注的数据集中存在大量的噪声数据,这些噪声数据会影响关系抽取模型的... 现有的关系抽取方法大多数为有监督学习方法,需要大量的标注数据,远监督方法解决该问题,可以高效地标注大量的训练数据,使得关系抽取任务得以快速发展。但是,远监督标注的数据集中存在大量的噪声数据,这些噪声数据会影响关系抽取模型的效果。为了避免噪声影响,如何去除选监督数据集中的噪声成为近年来关系抽取任务的一个研究热点。介绍远监督关系抽取去噪的研究历程、方法和相关数据集。 展开更多
关键词 关系抽取 远监督 去噪
下载PDF
基于实体对弱约束的远监督关系抽取 被引量:5
9
作者 欧阳丹彤 肖君 叶育鑫 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2019年第3期912-919,共8页
为缓解远监督关系抽取中的假阳性问题并进一步提高关系抽取的准确率和召回率,提出基于实体对弱约束的远监督关系抽取模型。首先,从知识库和文本中获取实体对的约束信息,约束信息由实体对关键词和实体类型两部分组成;然后,通过训练神经... 为缓解远监督关系抽取中的假阳性问题并进一步提高关系抽取的准确率和召回率,提出基于实体对弱约束的远监督关系抽取模型。首先,从知识库和文本中获取实体对的约束信息,约束信息由实体对关键词和实体类型两部分组成;然后,通过训练神经网络模型自动获取不同关系所对应的实体对约束信息的特征;最后,将这些特征用作弱约束联合语句特征一起进行关系预测。在对比实验中,基于实体对弱约束的模型达到了更高的准确率和召回率,表明了实体对弱约束能有效缓解假阳性问题、加强关系抽取。 展开更多
关键词 人工智能 远监督关系抽取 神经网络 实体对弱约束 注意力机制
原文传递
基于高速多核网络的远监督关系抽取方法 被引量:1
10
作者 李威 陈曙东 +2 位作者 欧阳小叶 杜蓉 王荣 《北京邮电大学学报》 EI CAS CSCD 北大核心 2020年第5期71-76,共6页
远监督作为一种能够快速大量产生标注数据的技术,在关系抽取任务中的应用愈加广泛,但仍存在文本特征提取不足、包内噪声过多等问题.对此,提出了一种基于高速多核网络的远监督关系抽取方法.首先通过高速网络和多核卷积对句子特征进行深... 远监督作为一种能够快速大量产生标注数据的技术,在关系抽取任务中的应用愈加广泛,但仍存在文本特征提取不足、包内噪声过多等问题.对此,提出了一种基于高速多核网络的远监督关系抽取方法.首先通过高速网络和多核卷积对句子特征进行深层提取;然后采用包内注意力机制提高包内正确标注的句子权重,降低包内噪声,实现包级向量化;使用包间注意力机制降低包间噪声,得到组级向量化;最后,将组作为训练样本训练分类器,实现关系抽取.实验结果表明,该方法比现有方法具有更好的关系抽取性能. 展开更多
关键词 关系抽取 远监督 注意力机制 神经网络 高速多核网络模型
原文传递
基于远距离监督和模式匹配的职衔履历属性抽取 被引量:2
11
作者 于东 刘春花 田悦 《计算机应用》 CSCD 北大核心 2016年第2期455-459,464,共6页
针对从非结构化文本中抽取指定人物职衔履历属性问题,提出一种基于远距离监督和模式匹配的属性抽取方法。该方法从字符串模式和依存模式两个层面描述人物职衔履历特征,将问题分为两阶段。首先利用远距离监督知识和人工标注知识,挖掘具... 针对从非结构化文本中抽取指定人物职衔履历属性问题,提出一种基于远距离监督和模式匹配的属性抽取方法。该方法从字符串模式和依存模式两个层面描述人物职衔履历特征,将问题分为两阶段。首先利用远距离监督知识和人工标注知识,挖掘具有高覆盖度的模式库,用于发现职衔履历属性和抽取候选集;其次利用职衔机构等属性间的文字接续关系,以及特定人物与候选属性的依存关系,设计候选集的过滤规则对候选项进行筛选,实现高准确度的属性抽取。实验结果显示,所提方法在CLP2014-PAE测试集上的F值达到55.37%,显著高于评测最好成绩(F值34.38%)和基于条件随机场(CRF)的有监督序列标注方法(F值43.79%),表明该方法能高覆盖度挖掘并抽取非结构化文档中的职衔履历属性。 展开更多
关键词 人物属性抽取 职衔履历信息 距离监督 模式匹配 规则过滤
下载PDF
语音反演远端监督学习模型研究 被引量:1
12
作者 陈英 张少白 《计算机技术与发展》 2013年第3期105-108,共4页
针对发音信息在话音环境中并不容易得到的问题,提出了一种从听觉信号中预测发音信息的语音反演方法。论文应用远端监督学习(DSL),对语音反演机器学习策略进行研究,并对其实验背景和理论依据进行了分析。论文在提出一种对远端监督学习逆... 针对发音信息在话音环境中并不容易得到的问题,提出了一种从听觉信号中预测发音信息的语音反演方法。论文应用远端监督学习(DSL),对语音反演机器学习策略进行研究,并对其实验背景和理论依据进行了分析。论文在提出一种对远端监督学习逆模进行全局优化的方法的同时,通过应用八个声道变量作为发音信息来模拟语音动力学,对语音信号分别被参数化为声学参数(APs)和梅尔频率倒谱系数(MFCCs)时的预测结果进行了比较。结果表明远端监督学习对声道变量有较好的预测性能。 展开更多
关键词 发音信息 语音反演 监督学习 声道变量
下载PDF
基于词频统计的蛋白质交互关系识别 被引量:3
13
作者 蔡松成 牛耘 《计算机技术与发展》 2019年第2期65-68,72,共5页
目前,基于远监督的蛋白质交互关系抽取方法通过将知识库中的实体对与文本中的实体进行匹配来产生大规模的训练数据,有效地解决了标注数据不足的问题。在基于最大期望算法的蛋白质交互识别的基础上,提出了一种基于词频统计的蛋白质交互... 目前,基于远监督的蛋白质交互关系抽取方法通过将知识库中的实体对与文本中的实体进行匹配来产生大规模的训练数据,有效地解决了标注数据不足的问题。在基于最大期望算法的蛋白质交互识别的基础上,提出了一种基于词频统计的蛋白质交互关系识别。该方法对每一个蛋白质对签名档进行处理,取出两个目标蛋白质中间的单词;然后对其进行词性标注,只保留名词和动词,同时进行词干提取;最终得到每个蛋白质对签名档下的词频统计。利用得到的词频信息设定阈值来获取签名档的高频词,改进最大期望算法的初始化过程。实验结果表明,通过加入高频词信息的干预来进一步获取句子的类别作为初始值较原始的基于最大期望算法的模型,取得了更高且均衡的精确度和召回率,对目前基于远监督的蛋白质交互关系识别方法进行了明显的改进。 展开更多
关键词 远监督 蛋白质交互 最大期望算法 词频统计
下载PDF
基于交叉预测的蛋白质交互识别
14
作者 闵庆凯 蔡松成 《计算机技术与发展》 2018年第4期17-20,共4页
目前,基于远监督的蛋白质交互关系抽取方法通过将知识库中的实体对与文本中的实体进行匹配来产生大规模的训练数据,有效地解决了标注数据不足的问题。然而,通过远监督产生的训练数据存在大量的噪音,因此文中提出了一种交叉预测的方法来... 目前,基于远监督的蛋白质交互关系抽取方法通过将知识库中的实体对与文本中的实体进行匹配来产生大规模的训练数据,有效地解决了标注数据不足的问题。然而,通过远监督产生的训练数据存在大量的噪音,因此文中提出了一种交叉预测的方法来清除训练数据中的噪音。首先将训练数据随机分为k组,取1组数据作为预测集,其余k-1组数据作为训练集,依次轮换训练集和预测集k次,每组数据都利用其余k-1组数据训练得到的模型来预测并去噪;然后将去噪后的数据重新组合得到新的训练数据,并用去噪前和去噪后的训练数据分别进行训练得到模型;最后用人工标注的语料分别对这两个模型进行测试。实验结果证明,交叉预测的方法可以有效识别出训练数据中的噪音,从而提高蛋白质交互关系的识别效果。 展开更多
关键词 蛋白质交互 远监督 交叉预测 去噪
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部