CPU-MIC异构并行架构下基于大规模频繁子图挖掘的药物发现算法被引量：2

A scalable CPU-MIC coordinated drug-finding tool by frequent subgraph mining

下载PDF

导出

摘要频繁子图挖掘是许多实际应用领域中需要解决的重要问题,由于计算密集性、挖掘的图集及其结果容量大,现有的频繁子图挖掘方案无法满足时间需求,其处理效率是目前面临的主要挑战。原创性地提出了并行加速的频繁子图挖掘工具cmFSM。cmFSM主要在3个层次上进行并行优化:单节点上的细粒度OpenMP并行化、多节点多进程并行化和CPU-MIC协作并行化。在单节点上cmFSM的处理速度比基于CPU的最佳算法快一倍,在多节点方案中cmFSM提供可扩展性。结果表明,即使只使用一些并行计算资源,cmFSM也明显优于现有的最先进的算法。这充分表明提出的工具在生物信息学领域的有效性。 Frequent subgraph mining is an important issue to be solved in many practical fields. Due to the computational intensiveness, the mining of the atlas and the large capacity of the results, the existing solutions can not meet the time requirements, and its efficiency is currently the main challenge. The frequent subgraph mining tool cmFSM for parallel acceleration was originally proposed. cmFSM performs parallel optimization on three levels: fine-grained OpenMP parallelization on a single node, multi-node multi-process parallelization and CPU-MIC collaborative parallelization. cmFSM is twice as fast as the best CPU-based algorithm on a single node and provides scalability in a multi-node approach. In the future, we will continue to improve the scalability of multiple solutions.The results show that even with only a few parallel computing resources, cmFSM is significantly better than the most advanced algorithms available. This fully demonstrates the effectiveness of the proposed tool in the field of bioinformatics.

作者彭绍亮牛琦李肯立邹权 PENG Shaoliang;NIU Qi;LI Kenli;ZOU Quan(College of Computer Science and Electronic Engineering, Hunan University, Changsha 410082, China;Institute of Fun dame ntal and Fron tier Sciences, Un iversity of Electronic Science and Tech no logy of China,Chengdu 610054, China)

机构地区湖南大学信息科学与工程学院电子科技大学基础与前沿研究院

出处《大数据》 2019年第2期89-103,共15页 Big Data Research

基金国家重点研发计划基金资助项目(No.2017YFB0202602 No.2018YFC0910405 No.2017YFC1311003 No.2016YFC1302500 No.2016YFB0200400 No.2017YFB0202104) 国家自然科学基金资助项目(No.61772543 No.U1435222 No.61625202 No.61272056)~~

关键词频繁子图挖掘生物信息学并行算法内存约束同构集成众核 frequent subgraph mining bioinformatics parallel algorithm memory constraints isomorphism many integrated core

分类号 TP31 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献1

1严玉良,董一鸿,何贤芒,汪卫.FSMBUS:一种基于Spark的大规模频繁子图挖掘算法[J].计算机研究与发展,2015,52(8):1768-1783. 被引量：21

二级参考文献28

1汪卫,周皓峰,袁晴晴,楼宇波,施伯乐.基于图论的频繁模式挖掘[J].计算机研究与发展,2005,42(2):230-235. 被引量：17
2李先通,李建中,高宏.一种高效频繁子图挖掘算法[J].软件学报,2007,18(10):2469-2480. 被引量：35
3Borgelt C, Berthold M R, Patterson D E. Molecular fragment mining for drug discovery [G] //Symbolic and Quantitative Approaches to Reasoning with Uncertainty. Berlin: Springer, 2005 : 1002-1013.
4Guralnik V, Karypis G. A scalable algorithm for clustering sequential data [C] //Proc of the 1st IEEE Int Conf on Data Mining. Piscataway, NJ: IEEE, 2001:179-186.
5Yan X, Yu P S, Han J. Graph indexing: A frequent structure-based approach [C] //Proc of the 17th ACM SIGMOD Int Conf on Management of Data. New York: ACM, 2004: 335-346.
6Liu Y, Jiang X, Chen H, et al. Mapreduce-based pattern finding algorithm applied in motif detection for prescription compatibility network [G] //Advanced Parallel Processing Technologies. Berlin: Springer, 2009: 341-355.
7Shahrivari S, Jalili S. Distributed discovery of /requent subgraphs of a network using MapReduce [OL]. [2015-03- 25]. http://link, springer, corn/article/10. 1007/s00607-015 0446 9.
8Elseidy M, Abdelhamid E, Skiadopoulos S, et al. GRAMI: Frequent subgraph and pattern mining in a single large graph [C] //Proc of the 40th Int Conf on Very Large Data Bases. Berlin: Springer, 2014:517-528.
9Bhuiyan M A, A1 Hasan M. An iterative MapReduce based frequent subgraph mining algorithm [J]. IEEE Trans on Knowledge and Data Engineering, 2013, 27(3): 608-620.
10Lu W, Chen G, Tung A K H, et al. Efficiently extracting frequent subgraphs using mapreduce [C] //Proc of the 1st IEEE Int Conf on Big Data. Piscataway, NJ: IEEE, 2013: 639-647.

共引文献20

1岑凯伦,于红岩,杨腾霄.大数据下基于Spark的电商实时推荐系统的设计与实现[J].现代计算机,2016,22(16):61-69. 被引量：22
2王丽娜,余荣威,付楠,鞠瑞,徐鹏志.基于大数据分析的APT防御方法[J].信息安全研究,2015,1(3):230-237. 被引量：8
3杨枢,邱昱炎,石波.区域心电监护物联网云计算平台关键技术研究[J].中国医疗器械杂志,2016,40(5):341-343. 被引量：2
4廖彬,张陶,于炯,国冰磊,刘继.基于二维划分的杰卡德相似系数批量计算效率优化[J].计算机科学,2017,44(1):219-225. 被引量：2
5郑诗敏,秦小麟,刘亮,周倩.云环境下的突发关键字查询算法[J].计算机科学,2017,44(3):10-15.
6黄林昊,郭昆.基于并行决策树的微博互动数预测[J].福建工程学院学报,2017,15(3):294-300.
7张鹏,段磊,秦攀,左劼,唐常杰,元昌安,彭舰.基于Spark的Top-k对比序列模式挖掘[J].计算机研究与发展,2017,54(7):1452-1464. 被引量：7
8李龙洋,董一鸿,严玉良,陈华辉,钱江波.Spark环境下基于频繁边的大规模单图采样算法[J].计算机研究与发展,2017,54(9):1966-1978. 被引量：3
9崔景洋.图数据挖掘研究[J].太原师范学院学报（自然科学版）,2018,17(1):38-40. 被引量：3
10张陶,于炯,廖彬,国冰磊,卞琛,王跃飞,刘炎.基于GraphX的传球网络构建及分析研究[J].计算机研究与发展,2016,53(12):2729-2752. 被引量：9

同被引文献9

1谢玓,尚学群,王淼,张延园.解决数据样本不平衡性的频繁子图挖掘算法[J].计算机工程与应用,2008,44(36):146-149. 被引量：5
2雷珂,何威.基于数据挖掘技术的软件缺陷检测方法研究[J].电子世界,2012(15):112-114. 被引量：2
3张成虎,尹为.基于数据流频繁子图挖掘的可疑金融交易动态识别[J].系统工程,2013,31(7):1-7. 被引量：4
4屠黎阳,杜俊强,接标,张道强.基于判别性子图重构的轻微肝性脑病分类[J].模式识别与人工智能,2016,29(9):832-839. 被引量：3
5李龙洋,董一鸿,严玉良,陈华辉,钱江波.Spark环境下基于频繁边的大规模单图采样算法[J].计算机研究与发展,2017,54(9):1966-1978. 被引量：3
6朱鹏宇,鲍培明,吉根林.用户频繁通信关系的并行挖掘算法研究[J].计算机科学,2018,45(2):103-108. 被引量：1
7彭绍亮,杨顺云,孙哲,程敏霞,崔英博,王晓伟,李非,伯晓晨,廖湘科.生物效应大数据评估聚类算法的并行优化[J].大数据,2018,4(3):24-36. 被引量：2
8肖飞,王悦,梅逸男,白璐,崔丽欣.基于出行模式子图的城市功能区域发现方法[J].计算机科学,2018,45(12):268-278. 被引量：5
9朱雪冰,周安民,左政.基于家族行为频繁子图挖掘的恶意代码检测[J].信息安全研究,2019,5(2):105-113. 被引量：3

引证文献2

1崔英博,黄春,唐滔,杨灿群,廖湘科,彭绍亮.基因组大数据变异检测算法的并行优化[J].大数据,2020,6(5):16-28. 被引量：1
2吴成凤.频繁子图挖掘算法的应用分类[J].电脑知识与技术,2020,16(29):40-41.

二级引证文献1

1吴国万.基于大数据的智慧灌溉系统构建研究[J].自动化与仪器仪表,2021(2):148-152. 被引量：8

1罗殊彦,朱怡安,曾诚.嵌入式异构多核处理器核间的通信性能评估与优化[J].计算机科学,2018,45(B06):262-265. 被引量：4
2冯剑.分子动力学程序的面向对象C++设计与OpenMP并行化[J].滁州学院学报,2017,19(5):20-24. 被引量：1
3人脸识别领域中国领先世界[J].世界文化,2019,0(1):67-67.
4李红波,施翔宇,马敏.浅谈科研项目研发过程中的专利挖掘[J].能源化工,2018,39(6):15-18. 被引量：5
5杨鹏,申洪涛,陶鹏,冯波,张洋瑞,王立斌.云平台下时间序列数据并行化排列熵特征提取方法[J].电力自动化设备,2019,39(4):217-223. 被引量：20
6王永骥,苏婷婷,刘磊.基于柯西变异的多策略协同进化粒子群算法[J].系统仿真学报,2018,30(8):2875-2883. 被引量：20
7陆音,王慧茹,孙丹丹.一种基于蜂窝网络的D2D通信资源分配算法[J].数据采集与处理,2018,33(6):1034-1040. 被引量：6
8彭勇,彭雯.计算机在电磁学中的应用[J].科学与信息化,2018,0(14):17-17.
9熊玲.浅谈智能财务建设[J].时代金融,2018(21):194-195. 被引量：2
10王扬.基于Weka的小学生成绩挖掘分析[J].科学与信息化,2018,0(2):130-130.

大数据

2019年第2期

浏览历史

内容加载中请稍等...

CPU-MIC异构并行架构下基于大规模频繁子图挖掘的药物发现算法被引量：2

参考文献1

二级参考文献28

共引文献20

同被引文献9

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

CPU-MIC异构并行架构下基于大规模频繁子图挖掘的药物发现算法 被引量：2

参考文献1

二级参考文献28

共引文献20

同被引文献9

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

CPU-MIC异构并行架构下基于大规模频繁子图挖掘的药物发现算法被引量：2