一种冗余感知的高能效图计算加速器

A redundancy-aware energy-efficient graph accelerator

导出

摘要图作为一种灵活表达对象之间关系的数据结构,广泛地应用于各类重要的现实场景.近年来,随着性能提升速度放缓,通用处理器逐渐无法满足图计算应用的需求,并成为限制图计算发展的主要瓶颈.因此,面向图计算的领域专用加速器成为近年来的研究热点.通过定制化的硬件设计,图计算加速器可以在图计算应用中取得通用处理器数十倍的性能.然而,现有的图计算加速器在运行宽度优先算法时会频繁地重复访问幂律顶点的相关数据,进而导致了严重的冗余访存问题.在特定场景下,现有的图计算加速器的性能甚至低于通用CPU.为了解决该问题,本文提出一种冗余感知的高能效图计算加速器JiFeng.当幂律顶点完成迭代计算时,JiFeng通过跳过剩余的相邻边大幅减少其被重复访问的次数.JiFeng实现了一系列软硬件协同设计,在保证负载均衡的同时提升硬件的执行效率.为了验证JiFeng的有效性,本文采用FPGA原型系统对相关设计进行性能评估.JiFeng在典型的生成图和现实图上实现最高每秒遍历4612亿条边的性能和每秒每瓦特遍历125亿条边的能效比,并在2023年11月的图计算超算排行榜GreenGraph500的小数据集榜单上取得第2名的成绩. Graph plays an essential role in a wide range of real-world applications.Due to graph irregularity,general-purpose processors are not an ideal platform for graph processing.Therefore,there has been a significant interest in developing domain-specific accelerators for graph processing in the past few years.With dedicated hardware specialization,graph accelerators can deliver considerable performance speedups compared to CPUs and GPUs.However,existing graph accelerators perform unnecessary accesses on high-degree vertices when running BFS on power-law graphs,resulting in severe off-chip memory overheads.To solve the problem,we architect JiFeng,a redundancy-aware graph accelerator.When a high-degree vertex finishes execution,JiFeng aggressively skips all its edges to avoid redundant memory accesses.Several software/hardware co-designs are proposed to improve memory efficiency and load-balance.We have implemented JiFeng in RTL and evaluated it on a Xilinx Alveo U55C accelerator card.JiFeng achieves at most 461.2 GTEPS throughput and 12.5 GTEPS/W energy efficiency,and ranks 2nd in the SMALL DATA list of GreenGraph500.

作者姚鹏程廖小飞金海周宇航徐鹏张伟曾圳潘晨高朱冰 Pengcheng YAO;Xiaofei LIAO;Hai JIN;Yuhang ZHOU;Peng XU;Wei ZHANG;Zhen ZENG;Chengao PAN;Bing ZHU(National Engineering Research Center for Big Data Technology and System,Huazhong University of Science and Technology,Wuhan 430074,China;Service Computing Technology and System Lab,Huazhong University of Science and Technology,Wuhan 430074,China;Cluster and Grid Computing Lab,Huazhong University of Science and Technology,Wuhan 430074,China;School of Computer Science and Technology,Huazhong University of Science and Technology,Wuhan 430074,China;Zhejiang Lab,Hangzhou 311121,China)

机构地区华中科技大学大数据技术与系统国家地方联合工程研究中心华中科技大学服务计算技术与系统教育部重点实验室华中科技大学集群与网格计算湖北省重点实验室华中科技大学计算机科学与技术学院之江实验室

出处《中国科学：信息科学》 CSCD 北大核心 2024年第6期1369-1385,共17页 Scientia Sinica(Informationis)

基金国家重点研发计划(批准号:2023YFB4502300) 中国博士后科学基金(批准号:BX20230333,2023M743257,2023TQ0328,2023TQ0327) 浙江省自然科学基金(批准号:LY24F020014)资助项目。

关键词图计算加速器宽度优先搜索冗余访存 FPGA graph processing accelerator breadth-first search redundant memory access FPGA

分类号 TP311.12 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献6

1许绍显,廖小飞,邵志远,华强胜,金海.图数据中极大团枚举问题的求解:研究现状与挑战[J].中国科学：信息科学,2022,52(5):784-803. 被引量：2
2张承龙,曹华伟,王国波,郝沁汾,张洋,叶笑春,范东睿.面向高通量计算机的图算法优化技术[J].计算机研究与发展,2020,57(6):1152-1163. 被引量：10
3王靖,张路,王鹏宇,徐嘉鸿,李超,朱浩瑾,钱学海,过敏意.面向图计算的内存系统优化技术综述[J].中国科学：信息科学,2019,49(3):295-313. 被引量：11
4杨赟,余辉,赵进,张宇,廖小飞,姜新宇,金海,刘海坤,毛伏兵,张吉,王彪.面向动态有向图的单调图算法硬件加速机制[J].中国科学：信息科学,2023,53(8):1575-1592. 被引量：1
5赵进,姜新宇,张宇,廖小飞,金海,刘海坤,杨赟,张吉,王彪,余婷.一种高效的面向高并发图分析任务的存储系统[J].中国科学：信息科学,2022,52(1):111-128. 被引量：3
6Xuehai QIAN.Graph processing and machine learning architectures with emerging memory technologies:a survey[J].Science China(Information Sciences),2021,64(6):1-25. 被引量：3

二级参考文献11

1王永杰,鲜明,刘进,王国玉.基于攻击图模型的网络安全评估研究[J].通信学报,2007,28(3):29-34. 被引量：56
2WANG Li,YANG XueJun,DAI HuaDong.Scratchpad memory allocation for arrays in permutation graphs[J].Science China(Information Sciences),2013,56(5):246-258. 被引量：3
3Yu ZHANG Xiaofei LIAO Hai JIN Li LIN Feng LU.An adaptive switching scheme for iterative computing in the cloud[J].Frontiers of Computer Science,2014,8(6):872-884. 被引量：2
4叶楠,郝子宇,郑方,谢向辉.BFS算法与众核处理器的适应性研究[J].计算机研究与发展,2015,52(5):1187-1197. 被引量：7
5Hongyi CHEN,Zhigang SUN,Fei YI,Jinshu SU.Buffer Bank storage:an economic, scalable and universally usable in-network storage model for streaming data applications[J].Science China(Information Sciences),2016,59(1):77-91. 被引量：1
6Hanhua CHEN,Hai JIN,Xiaolong CUI.Hybrid followee recommendation in microblogging systems[J].Science China(Information Sciences),2017,60(1):17-30. 被引量：7
7Xianzhu LIU,Zhijian JI,Ting HOU.Graph partitions and the controllability of directed signed networks[J].Science China(Information Sciences),2019,62(4):96-106. 被引量：2
8Xinqiao LV,Wei XIAO,Yu ZHANG,Xiaofei LIAO,Hai JIN,Qiangsheng HUA.An effective framework for asynchronous incremental graph processing[J].Frontiers of Computer Science,2019,13(3):539-551. 被引量：5
9Cristobal A.Navarro,Nancy Hitschfeld-Kahler,Luis Mateu.A Survey on Parallel Computing and its Applications in Data-Parallel Problems Using GPU Architectures[J].Communications in Computational Physics,2014,15(2):285-329. 被引量：5
10范东睿,叶笑春,包云岗,孙凝晖.中国高通量计算机的自主研发之路[J].中国科学院院刊,2019,0(6):648-656. 被引量：4

共引文献23

1蒋云钟,冶运涛,赵红莉,梁犁丽,曹引,顾晶晶.水利大数据研究现状与展望[J].水力发电学报,2020,39(10):1-32. 被引量：88
2郭进阳,邵传明,王靖,李超,朱浩瑾,过敏意.FPGA图计算的编程与开发环境:综述和探索[J].计算机研究与发展,2020,57(6):1164-1178. 被引量：2
3刘建友,蒋春霞.一种基于高通量计算机的图算法优化技术[J].信息与电脑,2020,32(22):69-71. 被引量：1
4邓军勇,赵一迪.图计算中遍历类图框架的特性[J].西安邮电大学学报,2021,26(2):35-41.
5孙学军.基于大数据的计算机基础教学改革研究[J].电脑知识与技术,2021,17(28):237-238. 被引量：1
6柳菁,李琪.DisHAP:基于层次亲和聚类的分布式大图划分算法[J].电子学报,2021,49(10):2002-2011. 被引量：2
7谭雯,甘新标,白皓,肖调杰,陈旭光,雷书梦,刘杰.面向超级计算机系统的大规模图遍历优化[J].西安电子科技大学学报,2021,48(6):84-95. 被引量：2
8邓军勇,赵一迪.图计算中压缩格式对单源最短路径算法影响的特性化分析[J].计算机应用与软件,2022,39(6):246-251. 被引量：2
9邓莉,刘士虎.基于改进度中心性的样本点相似性度量方法[J].云南民族大学学报（自然科学版）,2022,31(4):425-432.
10刘勇.基于图算法的定向越野数据智能分析系统设计[J].自动化与仪器仪表,2022(8):159-164. 被引量：1

1中国公司欲收购德国汽车座椅生产商Grammer公司股权[J].橡塑技术与装备,2018,44(14):48-48.
2张园,曹华伟,张婕,申玥,孙一鸣,敦明,安学军,叶笑春.面向多核CPU与GPU平台的图处理系统关键技术综述[J].计算机研究与发展,2024,61(6):1401-1428.
3杨红霞.信息技术在事业单位税收筹划中的应用与影响[J].中国商界,2024(3):126-127.
4YANG SHUANGSHUANG.A Prosperous and Green Lifestyle, the Zhanqi Way[J].China Today,2022,71(5):56-57.
5张建军,李海欧,郭国平.半导体量子计算芯片[J].中国科学：信息科学,2024,54(1):102-109.
6王飞,胡印富.个人信息检察公益诉讼的制度逻辑与适用表达[J].人民检察,2023(S01):42-45.
7热西旦木·吐尔洪太,王慧玲.基于八数码问题的搜索算法对比研究[J].电脑知识与技术,2023,19(1):1-3.
8毛茏玮,黄博,李勇.通用CPU外部接口激励设计[J].自动化应用,2024,65(10):245-250.
9张圣宇,况琨,吕承飞,李纪为,肖俊,吴帆,吴飞.端云协同智能计算的关键问题、方法和应用[J].中国工程科学,2024,26(1):127-138. 被引量：1
10新一代国产CPU有多强?[J].党课,2024(1):108-108.

中国科学：信息科学

2024年第6期

浏览历史

内容加载中请稍等...

一种冗余感知的高能效图计算加速器

参考文献6

二级参考文献11

共引文献23

相关作者

相关机构

相关主题

浏览历史