期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
基于多核学习的医学文献蛋白质关系抽取 被引量:13
1
作者 唐楠 杨志豪 +1 位作者 林鸿飞 李彦鹏 《计算机工程》 CAS CSCD 北大核心 2011年第10期184-186,共3页
从生物医学文献中抽取蛋白质交互作用关系对蛋白质知识网络的建立、新药的研制等均具有重要的意义。为此,提出一种基于多核学习的方法,用于从文献中自动抽取蛋白质关系信息。该方法融合基于特征的核、树核以及图核,并扩展最短路径依存... 从生物医学文献中抽取蛋白质交互作用关系对蛋白质知识网络的建立、新药的研制等均具有重要的意义。为此,提出一种基于多核学习的方法,用于从文献中自动抽取蛋白质关系信息。该方法融合基于特征的核、树核以及图核,并扩展最短路径依存树以及依存路径以利用更多的上下文关系信息。在AImed语料上的实验得到63.9%的F值和87.83%的AUC值,表明该方法具有较好的性能。 展开更多
关键词 文本挖掘 信息抽取 蛋白质关系抽取 核方法 多核学习
下载PDF
基于上下文环境和句法分析的蛋白质关系抽取 被引量:2
2
作者 王健 冀明辉 +1 位作者 林鸿飞 杨志豪 《计算机应用》 CSCD 北大核心 2012年第4期1074-1077,共4页
针对蛋白质交互作用关系(PPI)抽取方法中特征利用的片面性问题,提出了一种从上下文环境和句法结构中抽取特征的方法。该方法抽取词法特征、位置特征、距离特征、依存句法特征和深层句法特征等丰富特征构成特征集,并且使用支持向量机(SVM... 针对蛋白质交互作用关系(PPI)抽取方法中特征利用的片面性问题,提出了一种从上下文环境和句法结构中抽取特征的方法。该方法抽取词法特征、位置特征、距离特征、依存句法特征和深层句法特征等丰富特征构成特征集,并且使用支持向量机(SVM)分类器进行PPI抽取。方法在5个公开的PPI语料上进行了评估。实验结果表明,丰富特征有效地利用了更为全面的信息,避免丢失重要特征的危险,得到了较好的PPI抽取性能。即在AImed语料上的实验取得了59.2%的F值和85.6%的曲线下面积(AUC)值。 展开更多
关键词 信息抽取 自然语言处理 蛋白质关系抽取 特征 支持向量机
下载PDF
依存信息在蛋白质关系抽取中的作用 被引量:2
3
作者 刘兵 钱龙华 +1 位作者 徐华 周国栋 《中文信息学报》 CSCD 北大核心 2011年第2期21-26,共6页
基于核函数的蛋白质关系(PPI)抽取可以捕获结构化信息,取得了较高的性能,但其计算复杂度过高。该文结合词汇、句法等信息,重点探讨了依存信息对基于特征向量的蛋白质关系(PPI)抽取的影响。在多个PPI语料库上的实验表明,依存信息和基本... 基于核函数的蛋白质关系(PPI)抽取可以捕获结构化信息,取得了较高的性能,但其计算复杂度过高。该文结合词汇、句法等信息,重点探讨了依存信息对基于特征向量的蛋白质关系(PPI)抽取的影响。在多个PPI语料库上的实验表明,依存信息和基本短语块信息可以有效提高基于特征向量的PPI抽取性能。特别要指出,在AIMed语料上的PPI抽取取得了54.7的F测度,是目前基于特征向量的PPI抽取系统的最好水平。 展开更多
关键词 蛋白质关系抽取 支持向量机 依存信息
下载PDF
生物医学文献中的蛋白质关系抽取研究 被引量:6
4
作者 赵哲焕 杨志豪 +1 位作者 孙聪 林鸿飞 《中文信息学报》 CSCD 北大核心 2018年第7期82-90,共9页
蛋白质关系抽取研究对于生命科学各领域的研究具有广泛的应用价值。但是,基于机器学习的蛋白质关系抽取方法普遍停留在二元关系抽取,失去了丰富的关系类型信息,而基于规则的开放式信息抽取方法可以抽取完整的蛋白质关系("蛋白质1,... 蛋白质关系抽取研究对于生命科学各领域的研究具有广泛的应用价值。但是,基于机器学习的蛋白质关系抽取方法普遍停留在二元关系抽取,失去了丰富的关系类型信息,而基于规则的开放式信息抽取方法可以抽取完整的蛋白质关系("蛋白质1,关系词,蛋白质2"),但是召回率较低。针对以上问题,该文提出了一种混合机器学习和规则方法的蛋白质关系抽取框架。该框架先利用机器学习方法完成命名实体识别和二元关系抽取,然后利用基于句法模板和词典匹配的方法抽取表示当前两个蛋白质间关系类型的关系词。该方法在AImed语料上取得了40.18%的F值,远高于基于规则的Stanford Open IE方法。 展开更多
关键词 关系抽取 蛋白质实体识别 蛋白质关系抽取
下载PDF
基于监督学习和半监督学习的蛋白质关系抽取 被引量:1
5
作者 王艳华 杨志豪 +2 位作者 李彦鹏 唐利娟 林鸿飞 《江西师范大学学报(自然科学版)》 CAS 北大核心 2013年第4期392-396,共5页
提出了一种将监督学习和半监督学习融合的方法,并用于从文献中自动抽取蛋白质关系.在AImed语料上的实验得到63.2%的F值,这表明该方法达到目前较好的性能.
关键词 文本挖掘 信息抽取 蛋白质关系抽取 监督学习 半监督学习
下载PDF
基于最短依存路径和集成学习的化学物蛋白质关系抽取 被引量:3
6
作者 程威 邵一帆 +1 位作者 钱龙华 周国栋 《中文信息学报》 CSCD 北大核心 2021年第4期58-65,共8页
化学物与蛋白质之间的相互作用关系抽取对精准医学和药物发现等方面的研究有着重要作用。该文提出了一种基于最短依存路径和注意力机制的双向LSTM模型,并将其应用于化学物蛋白质关系抽取。在特征上综合考虑了最短依存路径上的词性、位... 化学物与蛋白质之间的相互作用关系抽取对精准医学和药物发现等方面的研究有着重要作用。该文提出了一种基于最短依存路径和注意力机制的双向LSTM模型,并将其应用于化学物蛋白质关系抽取。在特征上综合考虑了最短依存路径上的词性、位置和依存关系类型等。在BioCreative VI CHEMPROT任务上的实验表明,该方法在基于依存信息的系统中获得了较好的F1值性能。同时,集成学习也进一步提高了化学物蛋白质关系抽取性能。 展开更多
关键词 实体关系抽取 化学物蛋白质关系抽取 最短依存路径 注意力机制
下载PDF
利用词表示和深层神经网络抽取蛋白质关系 被引量:4
7
作者 李丽双 蒋振超 +1 位作者 万佳 黄德根 《中文信息学报》 CSCD 北大核心 2017年第1期31-40,共10页
蛋白质关系抽取是生物医学信息抽取领域的重要分支。目前研究中,基于特征和核函数方法的蛋白质关系抽取已被充分研究,并且达到了很高的F-值,通过改进特征和核函数进一步优化实例表示变得十分困难。该文结合词表示和深层神经网络,提出了... 蛋白质关系抽取是生物医学信息抽取领域的重要分支。目前研究中,基于特征和核函数方法的蛋白质关系抽取已被充分研究,并且达到了很高的F-值,通过改进特征和核函数进一步优化实例表示变得十分困难。该文结合词表示和深层神经网络,提出了一种实例表示模型。该模型能够充分利用词表示的语义表示能力和深层神经网络的表示优化能力;同时引入主成分分析和特征选择进行特征优化,并且通过比较多种传统的分类器,寻找适合蛋白质关系抽取的分类器。该方法在AIMed语料、BioInfer语料和HPRD50语料上的F-值分别取得了70.5%、82.2%和80.0%,在蛋白质关系抽取任务上达到了目前最好的抽取水平。 展开更多
关键词 蛋白质关系抽取 词表示 深层神经网络
下载PDF
基于组合核的蛋白质交互关系抽取 被引量:7
8
作者 李丽双 刘洋 黄德根 《中文信息学报》 CSCD 北大核心 2013年第1期86-92,128,共8页
蛋白质交互关系(PPI)抽取是生物医学信息抽取领域的一个重要部分,具有很高的应用价值和实际意义。该文使用一种基于SVM的组合核方法进行蛋白质关系抽取,将基于特征的平面核和基于结构的卷积树核组合。一棵完整的句法解析树中包含了较多... 蛋白质交互关系(PPI)抽取是生物医学信息抽取领域的一个重要部分,具有很高的应用价值和实际意义。该文使用一种基于SVM的组合核方法进行蛋白质关系抽取,将基于特征的平面核和基于结构的卷积树核组合。一棵完整的句法解析树中包含了较多噪声,需对其修剪以提高PPI抽取效果。首先讨论不同的树的剪裁策略对实验结果的影响,分别使用完全树、最小完全树、最小树和最短路径闭包树进行实验,最短路径闭包树效果最好;然后在最短路径闭包树的基础上提出一种动态拓展树,该树取得了明显优于其他解析树的效果。最后基于组合核在AIMED上进行10倍交叉实验,精确率、召回率和F值分别达到了82.40%、51.30%和63.23%。 展开更多
关键词 蛋白质交互关系抽取 SVM 树核 组合核 修剪策略
下载PDF
基于迁移学习的蛋白质交互关系抽取 被引量:5
9
作者 李丽双 郭瑞 +1 位作者 黄德根 周惠巍 《中文信息学报》 CSCD 北大核心 2016年第2期160-167,共8页
作为生物医学信息抽取领域的重要分支,蛋白质交互关系(Protein-Protein Interaction,PPI)抽取具有重要的研究意义。目前的研究大多采用统计机器学习方法,需要大规模标注语料进行训练。训练语料过少,会降低关系抽取系统的性能,而人工标... 作为生物医学信息抽取领域的重要分支,蛋白质交互关系(Protein-Protein Interaction,PPI)抽取具有重要的研究意义。目前的研究大多采用统计机器学习方法,需要大规模标注语料进行训练。训练语料过少,会降低关系抽取系统的性能,而人工标注语料需要耗费巨大的成本。该文采用迁移学习的方法,用大量已标注的源领域(其它领域)语料来辅助少量标注的目标领域语料(本领域)进行蛋白质交互关系抽取。但是,不同领域的数据分布存在差异,容易导致负迁移,该文借助实例的相对分布来调整权重,避免了负迁移的发生。在公共语料库AIMed上实验,两种迁移学习方法获得了明显优于基准算法的性能;同样方法在语料库IEPA上实验时,TrAdaboost算法发生了负迁移,而改进的DisTrAdaboost算法仍保持良好迁移效果。 展开更多
关键词 蛋白质交互关系抽取 迁移学习 负迁移
下载PDF
基于TSVM与主动学习融合的蛋白质交互作用关系抽取
10
作者 刘健苗 王浩畅 赵铁军 《高技术通讯》 EI CAS CSCD 北大核心 2009年第5期480-486,共7页
针对蛋白质交互作用关系(PPI)抽取研究中已标注语料有限而未标注生物医学自由文本易得的问题,进行了基于直推式支持向量机(TSVM)与主动学习融合的蛋白质交互作用关系抽取研究。通过自主选择最优的未标注样本加入到TSVM的训练过程中,最... 针对蛋白质交互作用关系(PPI)抽取研究中已标注语料有限而未标注生物医学自由文本易得的问题,进行了基于直推式支持向量机(TSVM)与主动学习融合的蛋白质交互作用关系抽取研究。通过自主选择最优的未标注样本加入到TSVM的训练过程中,最大程度地提高了系统的性能。实验结果表明,TSVM与主动学习融合的算法在少量已标注样本和大量未标注样本组成的混合样本集上取得了较好的学习效果,与传统的支持向量机(SVM)和TSVM算法相比,能有效地减少学习样本数,提高分类精度,在AImed语料上取得了F测度为64.12%的较好性能。 展开更多
关键词 蛋白质交互作用关系抽取 半监督学习 直推式支持向量机(TSVM) 主动学习
下载PDF
基于自训练的蛋白质相互作用关系抽取方法
11
作者 张宏涛 黄民烈 朱小燕 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2012年第3期380-384,共5页
基于有监督机器学习算法的蛋白质相互作用关系抽取方法仍然面临一个问题:标注数据集有限,导致算法无法得到充分学习。该文首先构造了一个丰富的特征空间,包括句法、词汇、词性等特征;然后,该文对不同数据集数据分布的不一致性进行了分析... 基于有监督机器学习算法的蛋白质相互作用关系抽取方法仍然面临一个问题:标注数据集有限,导致算法无法得到充分学习。该文首先构造了一个丰富的特征空间,包括句法、词汇、词性等特征;然后,该文对不同数据集数据分布的不一致性进行了分析,在此基础上提出了一种基于自训练的数据添加算法,通过不断从未标注数据集中选择置信度高的样本加入到已标注数据集中,扩大数据集规模,提高算法效率。实验结果表明:在5个常用的蛋白质相互作用关系数据集上,该方法均有助于提高抽取性能。 展开更多
关键词 蛋白质相互作用关系抽取 自训练 数据分布不一致性
原文传递
基于多特征与多分类器融合的PPIE方法 被引量:1
12
作者 王健 刘敏捷 林鸿飞 《计算机工程》 CAS CSCD 北大核心 2015年第11期207-212,共6页
从生物医学文献中自动地抽取蛋白质相互作用(PPI)关系是文本挖掘的一项重要任务。考虑到特征和分类器的选择对于PPI任务的重要性,提出一种基于丰富特征和多分类器融合的蛋白质关系抽取方法。选取15种词法、句法及语义特征,融合3种分类器... 从生物医学文献中自动地抽取蛋白质相互作用(PPI)关系是文本挖掘的一项重要任务。考虑到特征和分类器的选择对于PPI任务的重要性,提出一种基于丰富特征和多分类器融合的蛋白质关系抽取方法。选取15种词法、句法及语义特征,融合3种分类器,采用文档级别的10倍交叉验证方法,在5个公开的PPI基准语料上进行评估实验,结果表明,该方法在AIMed语料上取得的F值和AUC值分别为63.7%和87.8%,具有良好的抽取性能。 展开更多
关键词 蛋白质相互作用关系抽取 丰富特征 支持向量机 最大熵 图核
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部