一种基于GPU集群的深度优先并行算法设计与实现被引量：6

Implementation of Depth First Search Parallel Algorithm on Cluster of GPUs

下载PDF

导出

摘要深度优先搜索算法在GPU集群中大型图上的简单执行,会导致线程间的负载不平衡和无法合并内存访问的情况,这使得算法的性能较低。为了明显提高算法在单个GPU和多个GPU环境下的性能,在处理数据之前通过采取一系列有效的操作来进行重新编排。提出了构造线程和数据之间映射的新技术,通过利用前缀求和及二分查找操作来达到完美的负载平衡。为了降低通信开销,对DFS各分支中需要进行交换的边集执行修剪操作。实验结果表明,算法在单个GPU上可以尽可能地实现最佳的并行性,在多GPU环境下可以最小化通信开销。在一个GPU集群中,它可以对含有数十亿节点的图有效地执行分布式DFS。 Straightforward implementation of depth first search algorithm for large graph on GPU cluster,may lead to load imbalance between threads and un-coalesced memory accesses,giving rise to the low performance of the algorithm.In order to achieve improvement of the performance in a single GPU and multi-GPUs environment,a series of effective operations were used to reschedule before processing the data.A novel strategy for mapping between threads and data was proposed,and by using the prefix sum and binary search operations,load balancing was achieved perfectly.In order to reduce the communication overhead,we performed pruning operation on the set of edges which needs to be exchanged at all branches of DFS.Experimental results show that the algorithm can achieve its best parallelism available on a single GPU and minimize communication overhead among GPUs.GPU cluster can effectively perform the distributed DFS on graphs which contain billions of nodes.

作者余莹李肯立郑光勇

机构地区衡阳师范学院计算机科学系湖南大学信息科学与工程学院

出处《计算机科学》 CSCD 北大核心 2015年第1期82-85,共4页 Computer Science

基金国家自然科学基金项目(61370095 61370098 61070057 90715029) 湖南省教育厅科学研究一般项目(13C074) 衡阳市科技局科技发展计划项目(2011KJ22)资助

关键词 GPU 深度优先搜索(DFS) 分布式算法 CUDA MPI GPU DFS Distributed algorithm CUDA MPI

分类号 TP391.9 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1王海峰,陈庆奎.图形处理器通用计算关键技术研究综述[J].计算机学报,2013,36(4):757-772. 被引量：28
2卢风顺,宋君强,银福康,张理论.CPU/GPU协同并行计算研究综述[J].计算机科学,2011,38(3):5-9. 被引量：95
3李文超,严洪森.一种基于PFSP性质的深度优先搜索算法[J].控制与决策,2009,24(8):1203-1208. 被引量：1
4吴鸿伟,汤伟宾,李晓潮,郭东辉.GPU编程原理及其在网络安全领域的应用算法分析[J].计算机科学,2012,39(S3):24-27. 被引量：2
5张庆科,杨波,王琳,朱福祥.基于GPU的现代并行优化算法[J].计算机科学,2012,39(4):304-310. 被引量：27

二级参考文献173

1吴恩华,柳有权.基于图形处理器(GPU)的通用计算[J].计算机辅助设计与图形学学报,2004,16(5):601-612. 被引量：227
2吴恩华.图形处理器用于通用计算的技术、现状及其挑战[J].软件学报,2004,15(10):1493-1504. 被引量：141
3田澎,杨自厚,张嗣瀛.同顺序(Flow-shop)排序问题的模拟退火求解[J].信息与控制,1994,23(3):133-139. 被引量：11
4朱丽莉,杨志鹏,袁华.粒子群优化算法分析及研究进展[J].计算机工程与应用,2007,43(5):24-27. 被引量：57
5金锋,宋士吉,吴澄.一类基于FSP问题Block性质的快速TS算法[J].控制与决策,2007,22(3):247-251. 被引量：6
6Garey M R,Johnson D S,Scthi R.The complexity of flow-shop and job-shop scheduling[J].Mathematics of Operations Research,1976,1(2):117-129.
7Haouari M,Ladhari T.A branch and bound based local search for the flow-shop problem[J].J of Operational Research Society,2003,54(10):1076-1084.
8越民义韩继业.同顺序m×n排序问题的一种新方法.科学通报,1979,24(18):821-824.
9Carlier J,Rebai I.Two branch and bound algorithms for the permutation flow-shop problem[J].European J of Operational Research,1996,90(1):238-251.
10Campbell H G,Dudek R A,Smith M L.A heuristic algorithm for the n job,m machine sequencing problem[J].Management Science,1970,16(10):630-637.

共引文献144

1田雨波,陈风.基于显卡的微带天线谐振频率神经网络建模[J].电波科学学报,2015,30(1):71-77.
2屈宜丽,蓝才会,任志国.CPU/GPU异构并行系统研究综述[J].自动化与仪器仪表,2016(4):25-26. 被引量：6
3邢星星,赵国兴,骆祖莹,方浩.基于GPU的全源最短路径算法[J].计算机科学,2012,39(3):299-303. 被引量：3
4杨芳菊.基于CPU/GPU异构平台并行优化的研究[J].电脑编程技巧与维护,2012(18):4-7.
5王加亮,秦勃,刘健健,刘妮.基于MapReduce的交互可视化平台[J].电信科学,2012,28(9):22-27. 被引量：5
6刘勇,赵秦德,赖正文,黄东平,王璟星.异构平台上多维线性哈希的研究[J].计算机科学,2012,39(10):157-159.
7孙延维,张慧.基于GPU的串匹配算法研究综述[J].湖北第二师范学院学报,2012,29(8):25-27.
8郑毅,郑苹.增强现实光照方向估计方法评述与展望[J].智能系统学报,2012,7(5):389-397. 被引量：2
9于飞,吉庆兵,罗顺,张李军,兰天.GPU计算及其在密码分析中的应用[J].信息安全与通信保密,2012,10(12):98-100. 被引量：1
10刘军志,朱阿兴,秦承志,陈腊娇,吴辉,江净超.分布式水文模型的并行计算研究进展[J].地理科学进展,2013,32(4):538-547. 被引量：29

同被引文献36

1梁栋,蒲洁,李岩峰.一种保留特征点的大数据量点云分类精简算法[J].测绘科学,2022,47(5):99-106. 被引量：8
2陈健民,丘海雄.社团、社会资本与政经发展[J].社会学研究,1999(4):66-76. 被引量：117
3唐常杰,刘威,温粉莲,乔少杰.社会网络分析和社团信息挖掘的三项探索——挖掘虚拟社团的结构、核心和通信行为[J].计算机应用,2006,26(9):2020-2023. 被引量：24
4赵凤霞,谢福鼎.基于K-means聚类算法的复杂网络社团发现新方法[J].计算机应用研究,2009,26(6):2041-2043. 被引量：18
5骆志刚,丁凡,蒋晓舟,石金龙.复杂网络社团发现算法研究新进展[J].国防科技大学学报,2011,33(1):47-52. 被引量：76
6孙伟平,向杰,陈加忠,余胜生.基于GPU的粒子滤波并行算法[J].华中科技大学学报（自然科学版）,2011,39(5):63-66. 被引量：11
7虞倩倩,戴月明,李晶晶.基于MapReduce的ACO-K-means并行聚类算法[J].计算机工程与应用,2013,49(16):117-120. 被引量：13
8刘伟,孟朝晖,薛东伟.基于CUDA与粒子滤波的多特征融合视频目标跟踪算法[J].计算机系统应用,2013,22(11):123-128. 被引量：2
9袁辉辉,曹玉林,王小明.基于边聚类的多层社会网络社团发现算法[J].计算机应用研究,2014,31(2):351-353. 被引量：8
10张娜,明平洲,王加昌,曾辉,刘东.多GPU加速在高性能数值计算中的应用[J].计算机工程与设计,2014,35(7):2602-2606. 被引量：2

引证文献6

1曹洁,黄开杰,王进花.GPU加速的差分进化粒子滤波算法[J].计算机应用研究,2018,35(7):1965-1969. 被引量：4
2王永贵,徐山珊,肖成龙.基于Spark无线城市社团发现算法的研究[J].计算机应用研究,2018,35(12):3648-3651. 被引量：1
3胡新健,丁峰,刘鲁南,陈义明.Android拍照识物APP的设计与实现[J].电脑知识与技术,2018,14(3X):72-74. 被引量：3
4王永贵,张燕,杨东东.基于MapReduce的无线城市社团发现算法研究[J].计算机工程与应用,2017,53(4):106-112. 被引量：2
5高原,顾文杰,丁雨恒,彭晖,陈泊宇,顾雯轩.异构集群中CPU与GPU协同调度算法的设计与实现[J].计算机工程与设计,2020,41(2):592-600. 被引量：7
6王嘉琛,叶周润,欧鑫,袁斌,吴言安,张树峰.基于GPU的并行ICP点云配准算法研究[J].合肥工业大学学报（自然科学版）,2023,46(11):1501-1505. 被引量：3

二级引证文献19

1王永贵,徐山珊,肖成龙.基于Spark无线城市社团发现算法的研究[J].计算机应用研究,2018,35(12):3648-3651. 被引量：1
2杨科,张之江.基于CUDA架构的有向距离函数三维重建[J].工业控制计算机,2019,32(7):90-91. 被引量：1
3盛兆勇.云存储网盘安卓客户端图片识别模块的设计与实现[J].网络安全技术与应用,2019,0(8):48-50.
4王永贵,徐山珊,肖成龙.无线城市社团发现的研究——在Spark上利用改进关联规则实现社团发现的算法[J].计算机科学与探索,2019,13(9):1582-1592. 被引量：2
5左宪禹,张哲,黄祥志,葛强,张理涛,臧文乾.一种适用于GPU图像处理算法的合并存储结构[J].计算机工程与科学,2020,42(2):197-202. 被引量：2
6曹洁,李钊,王进花,余萍.基于粒子群优化粒子滤波和CUDA加速的故障诊断方法[J].计算机应用与软件,2020,37(4):240-246. 被引量：8
7曹洁,胡文东,王进花,余萍,赵伟吉.基于GPU的BBPSO-PF算法及其在故障检测中的应用[J].传感器与微系统,2021,40(5):157-160.
8高新成,刘德聚,王莉利,李强,柯璇.异构集群环境下逆时偏移任务调度算法[J].计算机技术与发展,2021,31(9):81-85.
9兰宁.基于Android平台的图像识别设计方法与实现[J].电子技术与软件工程,2021(19):61-64. 被引量：3
10魏若禹,李丹.基于FCOS算法的幼儿识物教育的应用[J].电子测试,2022,36(2):32-34.

1张宏丽,武剑.IP路由技术综述[J].信息与电脑（理论版）,2010(3):108-109. 被引量：1
2黄竞伟,戴大为.Trie 堆[J].武汉水利电力大学学报,1997,30(4):74-77.
3闫丽萍,潘正运.RETE算法的改进与实现[J].微计算机信息,2006(12X):290-292. 被引量：7
4江逸茗,兰巨龙,周慧琴.网络虚拟化环境下的资源监控策略[J].电子与信息学报,2014,36(3):708-714. 被引量：11
5洞庭湖.找个机器人聊天[J].大众软件,2004(3):84-84.
6周庆芳.空间Co-location模式挖掘经典算法的实现与比较[J].求知导刊,2016(9):34-34.
7许金凤,董一鸿,王诗懿,何贤芒,陈华辉.LGP-SA:分布式环境下基于模拟退火的大规模图划分算法[J].电信科学,2016,32(2):83-91. 被引量：1
8钟升,杨恒,王忠.基于小波变换的图像Wiener滤波并行实现[J].信号处理,2008,24(2):333-338. 被引量：2
9黄淑芹,张海.二叉排序树上删除结点算法的研究[J].通化师范学院学报,2014,35(12):46-48. 被引量：1
10许巍.浅谈面向服务的企业应用集成架构模型的实现[J].中国高新技术企业,2008(11):132-132.

计算机科学

2015年第1期

浏览历史

内容加载中请稍等...

一种基于GPU集群的深度优先并行算法设计与实现被引量：6

参考文献5

二级参考文献173

共引文献144

同被引文献36

引证文献6

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

一种基于GPU集群的深度优先并行算法设计与实现 被引量：6

参考文献5

二级参考文献173

共引文献144

同被引文献36

引证文献6

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

一种基于GPU集群的深度优先并行算法设计与实现被引量：6