SIAP:一种蛋白质复合物识别分布式算法

SIAP:a new distributed algorithm for protein complex identification

下载PDF

导出

摘要针对AP算法运算时间消耗过高,相似性矩阵参考度值影响聚类效果等问题,本文提出了一种基于Spark改进的AP算法,首先对无权的数据集应用融合的ECC(边聚集系数)和CD算法进行加权处理,并根据加权的结果设置相似性矩阵的参考度提高聚类精度,并在Spark平台并行化改进AP算法减少运算时间。应用PPI数据,识别蛋白质复合物,并引入F值聚类评价指标对结果进行比较,实验结果表明:该算法在不同的PPI网络上均有较高的聚类精度优于clusterone等经典的聚类算法,并且提高了运行效率,有良好的扩展性。 AP has a high computational time complexity and the similarity matrix reference value affects the clustering effect.In response to these problems,this paper proposes an improved AP algorithm based on Spark(SIAP).First,the unweighted data set are weighted by ECC(Edge Clustering Coefficient)and CD algorithms,to improve clustering accuracy.The reference degree of the similarity matrix is set according to the weighted result,and parallel the improved AP algorithm on spark platform to reduce running time.PPI(Protein-Protein Interaction)data is used to identify the protein complexes,and the F-Measure clustering evaluation index is introduced to compare the results.The experimental results show that the algorithm has higher clustering accuracy on different PPI networks.It is superior to clusterone and other classical clustering algorithms,and it improves the operating efficiency with good scalability.

作者邓超刘桂霞孙立岩王荣全 DENG Chao;LIU Guixia;SUN Liyan;WANG Rongquan(College of Software, Jilin University, Changchun 130012, China;College of Computer Science and Technology, Jilin University, Changchun 130012, China)

机构地区吉林大学软件学院吉林大学计算机科学与技术学院

出处《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2020年第11期1710-1714,共5页 Journal of Harbin Engineering University

基金国家自然科学基金项目(61772226,61373051,61862056).

关键词 AP算法 Spark平台 PPI网络蛋白质复合物 F值评价 ECC和CD加权并行计算 AP algorithm Spark platform PPI network protein complex F-Measure evaluation ECC and CD weighting parallel computing

分类号 TP311.5 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献4

1程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰.大数据系统和分析技术综述[J].软件学报,2014,25(9):1889-1908. 被引量：745
2肖宇,于剑.基于近邻传播算法的半监督聚类[J].软件学报,2008,19(11):2803-2813. 被引量：165
3鲁伟明,杜晨阳,魏宝刚,沈春辉,叶振超.基于MapReduce的分布式近邻传播聚类算法[J].计算机研究与发展,2012,49(8):1762-1772. 被引量：53
4汤希玮.蛋白质复合物识别算法综述[J].长沙大学学报,2017,31(5):19-23. 被引量：3

二级参考文献14

1梅立军,周强,臧路,陈祖舜.知网与同义词词林的信息融合研究[J].中文信息学报,2005,19(1):63-70. 被引量：28
2倪巍伟,陆介平,孙志挥.基于向量内积不等式的分布式k均值聚类算法[J].计算机研究与发展,2005,42(9):1493-1497. 被引量：15
3董振东,董强,郝长伶.知网的理论发现[J].中文信息学报,2007,21(4):3-9. 被引量：99
4王玲,薄列峰,焦李成.密度敏感的半监督谱聚类[J].软件学报,2007,18(10):2412-2422. 被引量：95
5黄曾阳.HNC理论概要[J].中文信息学报,1997,11(4):11-20. 被引量：55
6Ding-yin XIA,Fei WU,Xu-qing ZHAN,Yue-ting ZHUANG.Local and global approaches of affinity propagation clustering for large scale data[J].Journal of Zhejiang University-Science A(Applied Physics & Engineering),2008,9(10):1373-1381. 被引量：15
7许文艳,刘三阳.知识库系统的逻辑基础[J].计算机学报,2009,32(11):2123-2129. 被引量：17
8程学旗,郭嘉丰,靳小龙.网络信息的检索与挖掘回顾[J].中文信息学报,2011,25(6):111-117. 被引量：18
9钟秀琴,刘忠,丁盘苹.基于混合推理的知识库的构建及其应用研究[J].计算机学报,2012,35(4):761-766. 被引量：43
10李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J].中国科学院院刊,2012,27(6):647-657. 被引量：1610

共引文献957

1郭玉洁,何钰,刘家强,周英华,吴超.大数据技术在中原城市群科技服务资源池构建中的应用[J].中国基础科学,2020(5):41-44.
2刘洋.谈基于结合大数据技术的用户画像推荐方法[J].新闻传播,2019,0(24):29-30.
3吕明元,苗效东.大数据能促进中国制造业结构优化吗?[J].云南财经大学学报,2020,0(3):31-42. 被引量：29
4师洪波,郭红梅,岳婷,钱力,黄定余,常志军.基于分布式大数据技术的科学计量模块化分析平台构建研究[J].数据分析与知识发现,2020,4(2):231-238. 被引量：3
5李振泉,张丁涌,周长敬,王兴武,安学先,高华,孙东,刘文聪,闫恩祥,李红强,孙秀玲,杨文辉,张腾,梁莹,王增光.集输系统能耗定量化预测大数据模型应用研究[J].当代化工,2020(12):2818-2821. 被引量：2
6蒋云钟,冶运涛,赵红莉,梁犁丽,曹引,顾晶晶.水利大数据研究现状与展望[J].水力发电学报,2020,39(10):1-32. 被引量：90
7施珠妹.从经验驱动到数据驱动——逮捕社会危险性评估模式的逻辑转换[J].人权研究（辑刊）,2023(1):400-422.
8韩旭,罗登昌.长江堤防工程大数据基本特征及应用策略[J].人民长江,2020(S01):262-264. 被引量：4
9庞景安.大数据时代:思维变革、产业转型与数据科学兴起[J].情报学进展,2016(1):186-218.
10段鹏.大数据时代的重大公共事务决策风险治理:研究历史与现状[J].文化产业研究,2019(4):20-33. 被引量：1

1王婵,许明军,左薇,骆文仙,朱雪萍,严文彦,柯婵.腹部手法方案治疗慢性细菌性前列腺炎的临床疗效[J].川北医学院学报,2020,35(3):513-515.
2汤易,孙向阳.基于FPGA的数字锁相放大器的设计[J].电子制作,2021,29(3):10-12. 被引量：1
3张浚淏,金笑宇,赵蕙.基于増强现实技术的对外文化传播的应用实践[J].电脑编程技巧与维护,2021(1):38-40.
4宏观经济月度资讯[J].银行家,2020(10):79-79.
5陈欣,李心茹,盛寅.基于复杂网络的长三角航线网络结构特征分析[J].交通信息与安全,2020,38(4):139-146. 被引量：15
6邓茗月,吴东旺,孔小艳,孙丽媛,李根,朱莉,王寒雪,张光荣,冷静,毛华明,杨舒黎.中甸牦牛和德宏黄牛血液生理指标测定与分析[J].江苏农业科学,2020,48(21):211-214. 被引量：9

哈尔滨工程大学学报

2020年第11期

浏览历史

内容加载中请稍等...

SIAP:一种蛋白质复合物识别分布式算法

参考文献4

二级参考文献14

共引文献957

相关作者

相关机构

相关主题

浏览历史