面向高通量计算机的图算法优化技术被引量：9

Efficient Optimization of Graph Computing on High-Throughput Computer

下载PDF

导出

摘要随着互联网技术的蓬勃发展,图数据的规模呈爆炸式增长.如何高效地处理大规模图数据逐渐成为工业界和学术界关注的焦点.宽度优先搜索算法是解决图遍历问题的经典算法,也是Graph500基准的核心测试程序之一.高通量计算机采用ARM架构的众核体系结构,具有高并发、强实时、低功耗等适于大数据计算的特点.在单节点上,BFS算法的优化已取得一系列进展,首先对现有的优化技术进行系统的介绍,并在此基础上提出2种面向高通量计算机的优化手段,通过减少冗余访存和提高缓存局部性,有效提高了算法的访存效率.通过这些优化手段,在高通量计算机上对BFS算法的性能进行了系统的评估.对于顶点规模为230的Kronecker图(顶点数为230,边数为234),优化后的BFS算法在高通量计算机上的平均性能为24.26 GTEPS.与两路x86架构服务器相比,单节点具有1.18倍的性能优势.在性能功耗比方面,高通量计算机的结果为181.04 MTEPS W.在2019年6月份的Green Graph500面向大数据集的排行榜上取得第2名的成绩.综上,高通量计算机的高并发和低功耗等特点非常适合处理大规模图计算等数据密集型应用. With the rapid development of computing technology,the scale of graph increases explosively and large-scale graph computing has been the focus in recent years.Breadth first search(BFS)is a classic algorithm to solve graph traverse problem.It is the main kernel of Graph500 benchmark that evaluates the performance of supercomputers and servers in terms of data-intensive applications.High-throughput computer(HTC)adopts ARM-based many-core architecture,which has the characteristics of high concurrency,strong real-time,low-power consumption.The optimization of BFS algorithm has made a series of progress on single-node systems.In this paper,we first introduce parallel BFS algorithm and existing optimizations.Then we propose two optimization techniques for HTC to improve the efficiency of data access and data locality.We systematically evaluate the performance of BFS algorithm on HTC.For the Kronecker graph with 2 scale=230 whose vertices are 230 and edges are 234,the average performance on HTC is 24.26 GTEPS and 1.18 times faster than the two-way x86 server.In terms of energy efficiency,the result on HTC is 181.04 MTEPS W and rank 2nd place on the June 2019 Green Graph500 big data list.To our best knowledge,this is the first work that evaluates BFS performance on HTC platform.HTC is suitable for data intensive applications such as large-scale graph computing.

作者张承龙曹华伟王国波郝沁汾张洋叶笑春范东睿 Zhang Chenglong;Cao Huawei;Wang Guobo;Hao Qinfen;Zhang Yang;Ye Xiaochun;Fan Dongrui(State Key Laboratory of Computer Architecture(Institute of Computing Technology,Chinese Academy of Sciences),Beijing 100190;School of Computer and Control Engineering,University of Chinese Academy of Sciences,Beijing 100049)

机构地区计算机体系结构国家重点实验室(中国科学院计算技术研究所) 中国科学院大学计算机与控制学院

出处《计算机研究与发展》 EI CSCD 北大核心 2020年第6期1152-1163,共12页 Journal of Computer Research and Development

基金国家重点研发计划项目(2018YFB1003501) 国家自然科学基金项目(11904370,61732018,61672499) 计算机体系结构国家重点实验室创新项目(CARCH4509)。

关键词宽度优先搜索高通量 Graph500 图算法超算 breadth first search(BFS) high throughput Graph500 graph algorithm super computing

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献2

1叶楠,郝子宇,郑方,谢向辉.BFS算法与众核处理器的适应性研究[J].计算机研究与发展,2015,52(5):1187-1197. 被引量：7
2范东睿,叶笑春,包云岗,孙凝晖.中国高通量计算机的自主研发之路[J].中国科学院院刊,2019,0(6):648-656. 被引量：4

二级参考文献23

1Graph500. Graph500 supercomputing sites [EB/OL]. [2013-11-10], http://www, graph500, org.
2Beamer S, Asanovic K, Patterson D. Searching for a parent instead of fighting over children: A fast breadth-first search implementation for graph500, UCB/EECS-2011-117 [R]. Berkeley: University of California at Berkeley, 2011.
3Beamer S, Asanovic K, Patterson D, Direction optimizing breadth-first search [C] //Proc of the 2012 Int Conf for High Performance Computing, Networking, Storage and Analysis. Amsterdam, Nethertands: IOSPress, 2012:137-148.
4Beamer S, Buluc A, Asanovie K, et al. Distributed memory breadth-flrst search revisited: Enabling hottoraup search [EB/OL]. [2013-11-10]. http://www, eecs. berkeley, edu/ Pubs/ TechRpts/2013/EECS-2013-2. pdf.
5Cong Guojing, Almasi G, Saraswat V. Fast PGAS implementation of distributed graph algorithms [C] //Proc of the 2010 ACM/IEEE Int Conf for High Performance Computing, Networking, Storage and Analysis. Los Alamitos, CA: IEEE Computer Society, 2010: 1-11.
6Buluc A, Madduri K. Parallel breadth first search on distributed memory systems [C] //Proc of the 2011 Int Conf for High Performance Computing, Networking, Storage and Analysis. New York: ACM, 2011.
7Agarwal V, Petrini F, Pasetto D, et al. Scalable graph exploration on multicore processors [C] //Proc of the 2010 ACM/IEEE Int Conf for High Performance Computing, Networking, Storage and Analysis. Los Alamitos, CA: IEEE Computer Society, 2010:1-11.
8Leiserson C, Sehardl T. A work-efficient parallel breadth first search algorithm ( or how to cope with the nondeterminism of reducers) [C] //Proc of the 22nd Annual ACM Symp on Parallelism in Algorithms and Architectures. New York: ACM, 2010:303-314.
9Xia Yinglong, Prasanna V. Topologically adaptive parallel hreadth-first search on multicore processors [C] //Proc of the 21st Int Conf on Parallel and Distributed Computing and Systems. Calgary, AB, Canada: ACTA, 2009.
10Harish P, Narayanan P. Accelerating large graph algorithms on the GPU using CUDA [G] //LNCS 4873, Proc of the 14th Int Conf for High Performance Computing. Berlin: Springer, 2007:197-208.

共引文献9

1李功新,李泽科,林文彬,陈建洪,唐志军.基于风险差分运算的电网调控操作风险快速评估研究[J].福州大学学报（自然科学版）,2019,47(2):192-198. 被引量：2
2叶笑春,李文明,张洋,张浩,王达,范东睿.高通量众核处理器设计[J].数据与计算发展前沿,2020,2(1):70-84.
3郭进阳,邵传明,王靖,李超,朱浩瑾,过敏意.FPGA图计算的编程与开发环境:综述和探索[J].计算机研究与发展,2020,57(6):1164-1178. 被引量：2
4范灵俊,杨菲,郑卫城,洪学海,范东睿.构建城市“互联网+”新型基础设施发展战略研究[J].中国工程科学,2020,22(4):106-113. 被引量：2
5刘建友,蒋春霞.一种基于高通量计算机的图算法优化技术[J].信息与电脑,2020,32(22):69-71. 被引量：1
6严明玉,李涵,邓磊,胡杏,叶笑春,张志敏,范东睿,谢源.图计算加速架构综述[J].计算机研究与发展,2021,58(4):862-887. 被引量：5
7曾宏志.基于高通量计算机的图算法优化技术分析[J].数字技术与应用,2021,39(12):110-112.
8何海波,刘子琦,武汉城,刁鹏.基于工业互联网的地下工程信息化建设方案[J].铁路技术创新,2023(4):24-30. 被引量：1
9陈炳彰,刘伟,于萧钰.基于缓存访问模式的C-AMAT测量方法及其在图计算中的应用[J].计算机研究与发展,2024,61(4):824-839.

同被引文献47

1刘航,李锡祚.基于深度学习的协同过滤推荐算法[J].智能计算机与应用,2020(8):100-104. 被引量：2
2廖继荣,董海涛.利用循环展开最大化软件流水线性能(英文)[J].纯粹数学与应用数学,2004,20(3):285-290. 被引量：3
3石海鹤,薛锦云.基于PAR的排序算法自动生成研究[J].软件学报,2012,23(9):2248-2260. 被引量：12
4谢武平,薛锦云.Radl算法到Apla程序的生成系统[J].计算机研究与发展,2014,51(4):856-864. 被引量：10
5叶楠,郝子宇,郑方,谢向辉.BFS算法与众核处理器的适应性研究[J].计算机研究与发展,2015,52(5):1187-1197. 被引量：7
6石嵩,李宏亮,朱巍.阵列众核处理器上的高效归并排序算法[J].计算机研究与发展,2016,53(2):362-373. 被引量：6
7Wuyang JU,Jianxin LI,Weiren YU,Richong ZHANG.iGraph： an incremental data processing system for dynamic graph[J].Frontiers of Computer Science,2016,10(3):462-476. 被引量：5
8杨保国.基于OpenCL的最短路径图算法实现[J].实验科学与技术,2017,15(1):57-59. 被引量：1
9贺爱香,顾乃杰,苏俊杰.基于多核ARM体系结构的基础函数优化方法[J].计算机工程,2018,44(5):47-52. 被引量：5
10薛锦云.Two New Strategies for Developing Loop Invariants and Their Applications[J].Journal of Computer Science & Technology,1993,8(2):147-154. 被引量：34

引证文献9

1刘建友,蒋春霞.一种基于高通量计算机的图算法优化技术[J].信息与电脑,2020,32(22):69-71. 被引量：1
2孙学军.基于大数据的计算机基础教学改革研究[J].电脑知识与技术,2021,17(28):237-238. 被引量：1
3谭雯,甘新标,白皓,肖调杰,陈旭光,雷书梦,刘杰.面向超级计算机系统的大规模图遍历优化[J].西安电子科技大学学报,2021,48(6):84-95. 被引量：2
4刘勇.基于图算法的定向越野数据智能分析系统设计[J].自动化与仪器仪表,2022(8):159-164. 被引量：1
5李策,章隆兵.基于顶点度数的图数据分区域重排序[J].高技术通讯,2022,32(9):903-913.
6轩瑞,陈磊,石海鹤.图类算法可重用设计及其实现[J].江西师范大学学报（自然科学版）,2023,47(1):52-60.
7李策,章隆兵.基于社区结构的图数据预取器设计[J].高技术通讯,2022,32(12):1251-1261.
8郭晓龙,牛晋宇,杜永萍.基于树莓派的高效卷积优化方法[J].计算机技术与发展,2023,33(5):96-104.
9张园,曹华伟,张婕,申玥,孙一鸣,敦明,安学军,叶笑春.面向多核CPU与GPU平台的图处理系统关键技术综述[J].计算机研究与发展,2024,61(6):1401-1428.

二级引证文献5

1曾宏志.基于高通量计算机的图算法优化技术分析[J].数字技术与应用,2021,39(12):110-112.
2刘三阳,党拓,白艺光.对称PMC(SPMC)模型下节点可诊断性研究[J].西安电子科技大学学报,2023,50(1):109-117.
3吴枰.基于成果导向的高职计算机基础课程教学改革探究[J].黑龙江教师发展学院学报,2023,42(5):101-103. 被引量：1
4罗涛,谢凤祥,李光华.面向舆情监控的智能化自然语言处理算法设计[J].电子设计工程,2023,31(21):114-118.
5王楠,刘俊志,陈贵齐,赵延安,张玉.电大山区地物环境中电波传播的电磁计算[J].西安电子科技大学学报,2024,51(1):21-28. 被引量：1

1韩硕,邹磊.动态图上的最短路径距离并行算法[J].北京大学学报（自然科学版）,2020,56(1):112-122. 被引量：4
2刘苧,李东升,张一鸣,李雄略.大规模图计算系统综述[J].Frontiers of Information Technology & Electronic Engineering,2020,21(3):384-405.
3巧用Cnstu3D制作美国队长的盾牌[J].少年电脑世界,2020,0(1):28-29.
4王飞涛,樊春春,李兆东,张顺,夏萍.机器人在设施农业领域应用现状及发展趋势分析[J].中国农机化学报,2020,41(3):93-98. 被引量：29
5吕锋(综述),李建军(审校).特发性肉芽肿性乳腺炎的诊断及治疗现状[J].济宁医学院学报,2020,43(2):132-136. 被引量：12
6张驰,张红妍,孙涵.基于ARM架构智能引导垃圾分类回收站的设计与分析[J].科技创新导报,2020,17(5):104-106. 被引量：2
7黄丽娟,郭红霞.《建设法规》课程思政元素的激活及应用研究[J].陕西广播电视大学学报,2020,22(2):62-64. 被引量：6
8杨笃伟,尚怡君.基于ARM架构温室大棚温度监控设备的设计[J].农村科学实验,2020(3):20-21.
9王曙燕,张振豪,孙家泽.基于多样性感知图的测试用例优先排序[J].西安邮电大学学报,2019,24(6):70-74.
10刘祥环,潘晓东,皮旭明,黎超,庄磊.纯电动汽车电驱动总成NVH分析与优化研究[J].汽车制造业,2020,0(5):10-13. 被引量：4

计算机研究与发展

2020年第6期

浏览历史

内容加载中请稍等...

面向高通量计算机的图算法优化技术被引量：9

参考文献2

二级参考文献23

共引文献9

同被引文献47

引证文献9

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

面向高通量计算机的图算法优化技术 被引量：9

参考文献2

二级参考文献23

共引文献9

同被引文献47

引证文献9

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

面向高通量计算机的图算法优化技术被引量：9