-
题名基于关键词的蛋白质交互关系识别
- 1
-
-
作者
毛宇薇
牛耘
-
机构
南京航空航天大学计算机科学与技术学院
-
出处
《计算机技术与发展》
2019年第3期18-22,共5页
-
基金
国家自然科学基金(61202132)
-
文摘
蛋白质交互关系(PPI)是生物医学领域的重要研究内容之一,目前通过生物医学实验得到的PPI信息主要以文本的形式存储在相关文献中。随着生物医学文献数量的飞速增长,人工识别PPI的方式已经难以满足实际应用需求。文中采用基于弱监督的PPI识别基础框架,以少量有交互关系的蛋白质对作为种子集,通过对种子集的不断迭代扩充,最终实现蛋白质交互关系识别。相比于现有的其他方法,该方法仅需少量有标注数据实现了较好的识别效果,节省了大量人力物力。在此基础上,利用词向量对现有的表达交互关系的关键词进行扩充,并对关键词的可靠性进行评分,根据扩充后的关键词集合对基础框架的聚类过程做了改进,将聚类的输入词汇模式集合根据所包含的关键词分数做降序排序。实验结果表明,基础的PPI识别框架仅有少量有标注数据取得了较好的结果,在此基础上改进后的关键词扩充算法进一步提高了PPI识别结果,第一次迭代后的F值最高为67.20%,比改进前的算法提高了1.54%,三次迭代后的F值为69.05%。
-
关键词
蛋白质交互关系
弱监督
分布式假设
词向量
关键词
-
Keywords
protein-protein interaction
weak supervision
distributional hypothesis
word embedding
keywords
-
分类号
TP31
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于分布式假设的弱监督蛋白质交互关系识别
- 2
-
-
作者
毛宇薇
牛耘
-
机构
南京航空航天大学计算机科学与技术学院
-
出处
《计算机技术与发展》
2018年第9期34-37,共4页
-
基金
国家自然科学基金(61202132)
-
文摘
蛋白质交互(protein-protein interaction)是生物医学领域一项重要的研究内容,目前由生物医学进行的PPI实验结果主要以文献的形式存储,随着生物医学文献的大量增加,以手工收集信息的方式已经难以满足实际需求。对此,提出一种基于分布式假设的弱监督蛋白质交互识别方法。首先,从描述蛋白质交互关系的上下文中提取表达语义关系的词汇模式,以少量有交互关系的蛋白质对构成初始种子集,基于分布式假设理论,根据词汇模式在种子集中的分布构建向量空间模型。然后依据相似性对词汇模式进行聚类,形成具有语义相似性的模式簇,利用这些簇在语料中找到新的具有相似分布的模式加入候选集。最后对候选集里的蛋白质对及其模式进行评估,挑选出满足条件的蛋白质对加入种子集进行迭代,最终得到有交互关系的蛋白质对。相比于现有方法,该方法考虑了上下文的语义相关性,实验结果表明,该方法以很小的种子集规模取得了较高的精确度与召回率。
-
关键词
蛋白质交互
分布式假设
弱监督算法
关系相似性
-
Keywords
protein-protein interaction
distribution hypothesis
weakly-supervised method
relational similarity
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-