基于相似性混合模型的蛋白质交互识别被引量：2

Identification of Protein-protein Interaction Based on Hybrid Similarity Model

下载PDF

导出

摘要现有采用机器学习方法的蛋白质交互关系识别系统仅以单句为依据,并且存在标注数据缺乏导致训练集规模小的问题。为此,基于相似性混合模型提出一种新的蛋白质交互识别方法。采用基本的关系相似性(RS)模型做初始判断,利用大规模文本计算单词特征间的相似性,在基本RS模型的基础上通过特征聚类方式引入单词相似性模型,从而建立一个混合模型。实验结果表明,该方法能够取得较高且较均衡的精确度和召回率,而单词相似性的引入又进一步提高了F值,并且其直接利用已有的交互信息,可避免额外的人工标注。 Current machine learning-based Protein-protein Interaction （PPI）identification systems make predictions solely on evidence within a single sentence and suffer from small training set. In this paper, a hybrid similarity model- based approach is proposed to address these issues. A basic Relational Similarity （RS） model is established to make initial predictions. Word similarity matrices are constructed using a corpus-based approach. A clustering algorithm is applied to group words according to their similarity. The obtained word clusters are introduced to the basic RS model to build a hybrid model. Experimental results show that the basic RS model achieves higher and well-balanced precision and recall, and the introduction of the word similarity model further improves the F-score. This approach makes use of known PPI information, thus releases the burden of manual annotation.

作者王宇伟牛耘魏欧

机构地区南京航空航天大学计算机科学与技术学院

出处《计算机工程》 CAS CSCD 北大核心 2015年第7期25-30,35,共7页 Computer Engineering

基金国家自然科学基金资助项目(61202132 61170043)

关键词蛋白质交互关系相似性单词相似性 K近邻分类层次聚类 Protein-protein Interaction（PPI） Relational Similarity （RS） word similarity K-nearest Neighbor（KNN） classification hierarchical clustering

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1唐楠,杨志豪,林鸿飞,李彦鹏.基于多核学习的医学文献蛋白质关系抽取[J].计算机工程,2011,37(10):184-186. 被引量：13
2杨志豪,洪莉,林鸿飞,李彦鹏.基于支持向量机的生物医学文献蛋白质关系抽取[J].智能系统学报,2008,3(4):361-369. 被引量：20
3崔宝今,林鸿飞,张霄.基于半监督学习的蛋白质关系抽取研究[J].山东大学学报（工学版）,2009,39(3):16-21. 被引量：12
4封二英,牛耘,魏欧,蔡昕烨.基于关系相似性的蛋白质交互自动识别[J].计算机科学,2013,40(6):229-232. 被引量：4
5王煜,白石,王正欧.用于Web文本分类的快速KNN算法[J].情报学报,2007,26(1):60-64. 被引量：33
6许幸,张启蕊.基于KNN算法的医药信息文本分类系统的研究[J].计算机技术与发展,2009,19(4):206-209. 被引量：6
7Peng Chen,Jianyi Guo,Zhengtao Yu,Sichao Wei,Feng Zhou,Xin Yan.Protein-Protein Interaction Extraction Based on Convex Combination Kernel Function[J].Journal of Computer and Communications,2013,1(5):9-13. 被引量：1

二级参考文献81

1王煜,王正欧.基于模糊决策树的文本分类规则抽取[J].计算机应用,2005,25(7):1634-1637. 被引量：13
2王煜,白石,王正欧.用于Web文本分类的快速KNN算法[J].情报学报,2007,26(1):60-64. 被引量：33
3印鉴,谭焕云.基于χ~2统计量的kNN文本分类算法[J].小型微型计算机系统,2007,28(6):1094-1097. 被引量：13
4Sebastiani F. Machine learning in automated text categorization[J ]. ACM Computing Surveys, 2002, 34(1):1 -47.
5杨超.分词技术研究报告[R/OL].2008-03.教学资源网,计算机网络专栏,http://www.tingko.com/Lunwen/86083.html.
6国家食品药品监督管理局.处方药与非处方药分类管理办法[S/OL].1999-06-11.http://www.sda.gov.on/WS01/CLD288/24524.html.
7CHAPELLE O, SCHOLKOPF B, ZIEN A.Semi-supervised learning[M]. Cambridge MA: M1T Press, 2006.
8BLUM A, MITCHELL T. Combining labeled and unlabeled data with co-training[C]//Proceedings of the 11th Annual Conference on Computational Learning Theory. New York: ACM Press, 1998: 92-100.
9DEMPSTER A P, LAIRD N M, RUBIN D B. Maximum likelihood from incomplete data via the EM algorithm[J]. Journal of the Royal Statistical Society: Series B, 1977, 39(1):1-38.
10JOACHIMS T. Transductive inference for text classification using support vector machines[C]//Proceedings of the 16th International Conference on Machine Learning. San Fransisco: [s.n.], 1999: 200-209.

共引文献65

1刘海峰,王元元,张学仁.文本分类中一种改进的特征选择方法[J].情报科学,2007,25(10):1534-1537. 被引量：9
2刘海峰,王元元,刘守生.一种组合型中文文本分类特征选择方法[J].广西师范大学学报（自然科学版）,2007,25(4):208-211. 被引量：9
3刘希宋,喻登科,李玥.基于客户知识的客户CABOSFV聚类[J].情报杂志,2008,27(2):7-9. 被引量：3
4刘海峰,王元元,姚泽清.一种基于类别分布信息的中文文本分类模型[J].图书情报工作,2008,52(1):73-76. 被引量：1
5周朴雄.基于神经网络集成的WEB文档分类研究[J].图书情报工作,2008,52(7):110-112. 被引量：4
6周朴雄.基于最优权重的神经网络集成文本分类研究[J].计算机应用研究,2008,25(10):2982-2983.
7吴春颖,王士同.一种改进的KNN Web文本分类方法[J].计算机应用研究,2008,25(11):3275-3277. 被引量：9
8许幸,张启蕊.基于KNN算法的医药信息文本分类系统的研究[J].计算机技术与发展,2009,19(4):206-209. 被引量：6
9吴春颖,王士同,杨林波.一种结合层次结构和KNN的Web文本分类方法[J].小型微型计算机系统,2009,30(8):1555-1560. 被引量：2
10谭建奇,廖贤平,黄孝庭,陈振洲.SVM在临床医学中的应用[J].海南医学,2009,20(9):134-137. 被引量：2

同被引文献5

1杨志豪,洪莉,林鸿飞,李彦鹏.基于支持向量机的生物医学文献蛋白质关系抽取[J].智能系统学报,2008,3(4):361-369. 被引量：20
2刘雨娇,范勇,高琳,酉霞.基于时空深度特征的人体行为识别算法[J].计算机工程,2015,41(5):259-263. 被引量：10
3时增林,叶阳东,吴云鹏,娄铮铮.基于序的空间金字塔池化网络的人群计数方法[J].自动化学报,2016,42(6):866-874. 被引量：38
4李富,孙子文.手势识别身份认证的连续隐马尔可夫模型[J].小型微型计算机系统,2018,39(3):474-477. 被引量：5
5夏胡云,叶学义,罗宵晗,王鹏.多尺度空间金字塔池化PCANet的行人检测[J].计算机工程,2019,45(2):270-277. 被引量：9

引证文献2

1蓝敏.基于视图间鉴别相关性分析的手语图像识别[J].电脑知识与技术,2020,16(15):19-21. 被引量：1
2李培媛,黄迟.基于CSPPNet与集成学习的人类蛋白质图像分类方法[J].计算机工程,2020,46(8):235-242. 被引量：3

二级引证文献4

1胡松.暖心手语——基于Andriod的手语教学翻译APP浅述[J].科学与信息化,2020(22):9-9.
2唐浩漾,张小媛,钱萌,王燕.压缩激励卷积神经网络的蛋白质亚细胞定位[J].计算机仿真,2022,39(7):461-465.
3罗红郊,张永敏,马晓琴.基于改进自注意力机制的电力场景目标检测技术[J].微型电脑应用,2024,40(1):5-8.
4刘达,朱兆优,叶海鹏,黄熙,王海洋.基于改进YOLOv5的酒瓶缺陷检测方法研究[J].机电工程技术,2024,53(3):211-215.

1封二英,牛耘,魏欧,蔡昕烨.基于关系相似性的蛋白质交互自动识别[J].计算机科学,2013,40(6):229-232. 被引量：4
2王宇伟,牛耘.基于关系相似性的蛋白质交互作用识别[J].计算机技术与发展,2015,25(2):42-46. 被引量：3
3吴红梅,牛耘.基于词性加权和单词相似性的蛋白质交互识别[J].计算机技术与发展,2015,25(12):6-9.
4吴红梅,牛耘.基于特征加权的蛋白质交互识别[J].计算机技术与发展,2016,26(2):114-117. 被引量：3
5伍之昂,庄毅,王有权,曹杰.基于特征选择的推荐系统托攻击检测算法[J].电子学报,2012,40(8):1687-1693. 被引量：23
6钟春香,汪国有.汽车二维图像的一种K近邻分类识别方法[J].模式识别与人工智能,1992,5(4):327-330. 被引量：2
7封二英,牛耘,魏欧.基于大规模文本的蛋白质交互关系自动提取[J].计算机应用,2012,32(A01):147-150. 被引量：6
8周彦利,周创明,王晓丹.基于核的K近邻法[J].航空计算技术,2006,36(5):62-64. 被引量：1
9李娜.基于样本的棉花异性纤维识别算法[J].陕西科技大学学报（自然科学版）,2012,30(4):110-113.
10贾忠涛,吴颖川,刘志勤.一种协同过滤算法在网络干扰过滤中的应用[J].计算机仿真,2016,33(1):284-287. 被引量：5

计算机工程

2015年第7期

浏览历史

内容加载中请稍等...

基于相似性混合模型的蛋白质交互识别被引量：2

参考文献7

二级参考文献81

共引文献65

同被引文献5

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于相似性混合模型的蛋白质交互识别 被引量：2

参考文献7

二级参考文献81

共引文献65

同被引文献5

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于相似性混合模型的蛋白质交互识别被引量：2