基于PPI网络与机器学习的蛋白质功能预测方法被引量：7

Protein function prediction method based on PPI network and machine learning

下载PDF

导出

摘要针对现有的基于蛋白质相互作用(PPI)网络的蛋白质功能预测方法预测精度不高、易受数据噪声影响的问题,提出一种基于机器学习(层次聚类、主成分分析和多层感知器)的蛋白质功能预测方法 HPMM。该方法综合考虑蛋白质宏观和微观层面的信息,将蛋白质家族、结构域和重要位点信息作为顶点属性整合到PPI网络中以减轻网络中数据噪声的影响。首先,基于层次聚类和主成分分析进行特征提取,得到功能模块和属性主成分特征,然后训练多层感知器模型,建立多特征与多功能之间的映射关系以用于功能预测。在三个分别被分子功能(MF)、生物过程(BP)和细胞组件(CC)注释的人类PPI网络上进行测试,对HPMM、余弦迭代算法(CIA)和有向PPI网络基因本体术语传播(GoDIN)算法的功能预测效果进行比较分析。实验结果表明,相比CIA和GoDIN这两种完全基于PPI网络的方法,HPMM的精确度与F值更高。 Aiming at the problem that the prediction method of protein function based on the current Protein-Protein Interaction （PPI） network has low precision and is susceptible to data noise, a new machine learning protein function prediction method named HPMM （HC, PCA and MLP based Method） was proposed, which combined Hierarchical Clustering （HC）, Principal Component Analysis （PCA） and Multi-layer Perception （MLP）. HPMM took comprehensive consideration from macro and micro perspectives, It combined the information of protein families, domains and important sites into the vertex attributes of PPI networks to alleviate the effect from the data noise of networks. Firstly, the features of function modules and attribute principal components were extracted by using HC and PCA. Secondly, a mapping relationship between muhi-feature and multi-function, used to predict protein functions, was constructed by training the MLP model. Three homo sapiens PPI networks, which were annotated by Molecular Functions （MF）, Biological Processes （BP）, and Cellular Components （CC） respectively, were adopted in the experiments. Comparisons were performed among the HPMM algorithm, the Cosine Iterative Algorithm （CIA） and the Diffusing GO Terms in the Directed PPI Network （GoDIN） Algorithm. The experimental results indicate that HPMM can obtain higher precision and F-measure than algorithms CIA and GoDIN, which are purely PPI network based methods.

作者唐家琪吴璟莉

机构地区广西师范大学计算机科学与信息工程学院广西师范大学广西多源信息挖掘与安全重点实验室广西区域多源信息集成与智能处理协同创新中心

出处《计算机应用》 CSCD 北大核心 2018年第3期722-727,共6页 journal of Computer Applications

基金国家自然科学基金资助项目(61363035 61762015) 广西自然科学基金资助项目(2015GXNSFAA139288) "八桂学者"工程专项广西多源信息挖掘与安全重点实验室系统性研究基金资助项目(14-A-03-02 15-A-03-02) 广西研究生教育创新计划项目(XYCSZ2017067)~~

关键词功能预测机器学习蛋白质相互作用层次聚类主成分分析多层感知器 function prediction machine learning Protein-Protein Interaction （PPI） Hierarchical Clustering （HC） Principal Component Analysis （PCA） Multi-Layer Perceptron （MLP）

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1刘威,刘尚,周璇.BP神经网络子批量学习方法研究[J].智能系统学报,2016,11(2):226-232. 被引量：5

二级参考文献12

1刘幺和,陈睿,彭伟,周蕾.一种BP神经网络学习率的优化设计[J].湖北工业大学学报,2007,22(3):1-3. 被引量：15
2JACOBS R A. Increased rates of convergence through learning rate adaptation[J]. Neural networks, 1988, 1(4): 295-307.
3RIEDMILLER M, BRAUN H. RPROP-A fast adaptive learning algorithm[C]//Proceedings of the International Symposium on Computer and Information Sciences (ISCIS VII).Ankara, Turkey, 1992.
4CHARALAMBOUS C. Conjugate gradient algorithm for efficient training of artificial neural networks[J]. Devices and systems, IEE proceedings G-Circuits, 1992, 139(3): 301-310.
5VOGL T P, MANGIS J K, RIGLER A K, et al. Accelerating the convergence of the back-propagation method[J]. Biological cybernetics, 1988, 59(4/5): 257-263.
6DENNIS J E Jr, SCHNABEL R B. Numerical methods for unconstrained optimization and nonlinear equations[M]. Philadelphia, USA: SIAM, 1996.
7MOR J J. The Levenberg-Marquardt algorithm: implementation and theory[M]//WATSON G A. Numerical Analysis. Berlin Heidelberg: Springer, 1978: 105-116.
8HAM F M, KOSTANIC I. Principles of neurocomputing for science and engineering[M]. New York, NY: McGraw-Hill Science, 2000.
9http://archive.ics.uci.edu/ml/datasets/seeds.
10侯祥林,陈长征,虞和济,王铁光,纪盛青.神经网络权值和阈值的优化方法[J].东北大学学报（自然科学版）,1999,20(4):447-450. 被引量：49

共引文献4

1刘威,黄敏,白润才,刘光伟,成秘,付杰,王薪予.AutoLSTM下的降水量预测方法[J].辽宁工程技术大学学报（自然科学版）,2020(5):451-458. 被引量：3
2王俊杰.优化BP神经网络在手写体数字识别中的性能研究[J].电子设计工程,2017,25(6):27-30. 被引量：11
3孟庆杰,尧海昌.大数据环境下基于神经网络技术的食品安全监管[J].食品与机械,2021,37(1):104-107. 被引量：12
4黄刘.遗传优化分布式BP算法[J].电脑知识与技术,2021,17(23):97-99. 被引量：1

同被引文献30

1徐建华,朱家勇.生物信息学在蛋白质结构与功能预测中的应用[J].医学分子生物学杂志,2005,2(3):227-232. 被引量：44
2雷秀娟,黄旭,吴爽,郭玲.基于连接强度的PPI网络蚁群优化聚类算法[J].电子学报,2012,40(4):695-702. 被引量：16
3杨书佺,舒勤,何川.改进的果蝇算法及其在PPI网络中的应用[J].计算机应用与软件,2014,31(12):291-294. 被引量：10
4胡庆生,雷秀娟.PPI网络的改进马尔科夫聚类算法[J].计算机科学,2015,42(7):108-113. 被引量：2
5胡赛,熊慧军,赵碧海,李学勇,王晶.动态加权蛋白质相互作用网络构建及其应用研究[J].自动化学报,2015,41(11):1893-1900. 被引量：10
6邓海游,贾亚,张阳.蛋白质结构预测[J].物理学报,2016,65(17):169-179. 被引量：21
7杨莉萍,路松峰,黄钰.一种基于随机游走模型的关键蛋白质预测方法[J].华中农业大学学报,2016,35(6):86-91. 被引量：4
8杜明宇,张晓龙.基于多序列特征提取的蛋白质相互作用预测[J].计算机工程与设计,2018,39(1):86-89. 被引量：4
9李小玲.关于网络数据库传输中异常数据检测仿真研究[J].计算机仿真,2018,35(1):420-423. 被引量：7
10赵碧海,李学勇,胡赛,张帆,田清龙,杨品红,刘臻.基于关键功能模块挖掘的蛋白质功能预测[J].自动化学报,2018,44(1):183-192. 被引量：6

引证文献7

1王佩恒,张冬雯,许云峰.基于网络层次的蛋白质相互作用网络功能模块检测方法[J].内蒙古科技与经济,2019,0(15):116-117. 被引量：1
2徐周波,杨健,刘华东,黄文文.基于XGBoost与拓扑结构信息的蛋白质复合物识别算法[J].计算机应用,2020,40(5):1510-1514. 被引量：3
3李鹏,闵慧,罗爱静,瞿昊宇,伊娜,许家祺.改进的动态PPI网络构建与蛋白质功能预测算法[J].计算机工程,2020,46(12):52-59. 被引量：1
4杨雅彬,刘晴,武志成,袁芬.机器学习分布式网络传输异常数据智能检测方法[J].中国测试,2021,47(3):104-109. 被引量：14
5唐高阳.智能优化算法及其在PPI网络中的应用研究[J].科技创新导报,2021,18(30):23-25.
6陈春燕,吕俊龙.基于理化性质局部并行融合的蛋白质相互作用预测方法[J].梧州学院学报,2021,31(6):1-7.
7陈慧琴,朱帅,徐冬寅,韩江,周月辉.基于多种目标进化算法的蛋白质结构预测计算软件的设计与实现[J].信息与电脑,2022,34(11):118-121.

二级引证文献19

1乔志杰,田赤中.基于大数据建模的井筒压力温度梯度预测[J].信息技术与信息化,2021(1):225-228.
2朱木清,文谧.基于离群点检测算法的无线网络动态数据完整性检测方法[J].自动化与仪器仪表,2021(9):34-37. 被引量：2
3许德华,陈晓琳,廖苑君,蓝树金,孙胜南,李让,饶绍奇.基于知识学习挖掘乳腺癌与甲状腺癌的共享功能模块和核心基因[J].医学信息,2021,34(21):1-6.
4王晓旭,刘晓霞.NOBEL:一种基于拓扑信息与监督学习的蛋白质复合物识别方法[J].中文信息学报,2021,35(9):82-93. 被引量：1
5李玮瑶.基于大数据技术的网络异常检测方法[J].信息与电脑,2021,33(19):220-222. 被引量：1
6程雅琼.基于关联规则的无线通信网络异常数据检测方法[J].长江信息通信,2022,35(4):43-45. 被引量：7
7汤志凤,周亚军.基于机器学习算法的分布式数据库关键性能指标预测分析[J].通讯世界,2022,29(2):193-195.
8张亚苹,杨少英.网络异常检测技术中数据挖掘和机器学习方法的应用分析[J].电子技术与软件工程,2022(16):18-21. 被引量：5
9周丽,秦香春.基于数据挖掘的光网络异常行为检测研究[J].激光杂志,2022,43(10):120-125. 被引量：1
10钱宗斌.基于无线传感网络的通信数据异常检测方法[J].辽东学院学报（自然科学版）,2022,29(4):300-304. 被引量：2

1郝久程,贾鑫,穆晓红,张恒庆.大连地区岛屿与大陆玉竹种群遗传多样性的ISSR分析[J].植物研究,2017,37(5):709-714. 被引量：4
2绿茶成分有助缓解帕金森病[J].健康人生,2018,0(1):63-63.
3时博,赵乐,霍常青.白花前胡转录组简单重复序列位点分析[J].中医学报,2017,32(10):1954-1958. 被引量：2
4吕航,杜渐,刘媛,王昊.多层感知器模型在中医人格、体质预测糖尿病性冠心病患病风险中的应用研究[J].中国中医药信息杂志,2017,24(12):88-91. 被引量：9
5阮靖淞.天然无序蛋白的结构性质研究进展[J].中国科技纵横,2017,0(15):226-228.
6杜微.DCRD-I电磁扰动仪观测数据噪声的影响因素及对策[J].科技经济导刊,2017(30):43-43.
7张新乐,徐梦园,刘焕军,孟令华,邱政超,潘越,谢雅慧.引入地形因子的黑土区大豆干生物量遥感反演模型及验证[J].农业工程学报,2017,33(16):168-173. 被引量：6
8王颖.基于数据的本科教学质量管理策略[J].淮阴师范学院学报（自然科学版）,2017,16(4):345-347. 被引量：1
9李会琳,张静,王岚,杨宏,何燕,路璐.土地利用方式改变对两种酸性土壤微生物群落结构的影响[J].西华师范大学学报（自然科学版）,2017,38(4):373-381. 被引量：6
10徐永红,张少伟,景军,赵勇,候飞翔.基于对偶四元数配准的蛋白质局部螺旋参数拟合方法[J].生物医学工程学杂志,2018,35(1):131-138.

计算机应用

2018年第3期

浏览历史

内容加载中请稍等...

基于PPI网络与机器学习的蛋白质功能预测方法被引量：7

参考文献1

二级参考文献12

共引文献4

同被引文献30

引证文献7

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于PPI网络与机器学习的蛋白质功能预测方法 被引量：7

参考文献1

二级参考文献12

共引文献4

同被引文献30

引证文献7

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于PPI网络与机器学习的蛋白质功能预测方法被引量：7