超混合深度可重构计算阵列调度策略的优化研究被引量：1

STUDY ON SCHEDULING POLICY OPTIMISATION BASED ON HETEROGENEOUS RECONFIGURABLE COMPUTING ARRAY

下载PDF

导出

摘要针对一种新型的高性能计算机结构:超混合深度可重构计算机阵列(HRCA),提出两个在HRCA上任务分配的调度优化方法。(1)通过算核的优化分配减轻或消除由于算核分配引起的数据通信量急剧增加而导致的"存储墙"问题;(2)通过算粒的调度,将两次迭代间的数据交换与计算时间相重叠,缩短计算部件由数据交换导致的等待时间。以N-body FMM算法为例,验证了两种方法有效地降低了系统对于片外存储访问速度需求,提高了系统的利用率。 Aiming at a novel high performance computer architecture, the heterogeneous reconfigurable computing array （ HRCA ）, we propose two optimisation methods for the scheduling of computing tasks allocation on HRCA. （ 1 ） Relieving or eliminating by optimised computing cores allocation the ＂memory wall＂ problem caused by the surge of data communication amount due to computing cores allocation; （2） Overlapping the time of computing and data exchanging between two iterations by scheduling task kernels to shorten the idle time on computing components due to data exchange. We use the N-body FMM algorithm as the example and have verified that these two methods effectively reduce the access speed requirements of the system on off-chip memory and improve the utilisation of the system.

作者何琪辰沈文枫孙思齐徐炜民郑衍衡

机构地区上海大学计算机工程与科学学院

出处《计算机应用与软件》 CSCD 北大核心 2014年第6期278-281,307,共5页 Computer Applications and Software

基金国家高技术研究发展计划重点项目(2009AA012201) 上海市重点学科建设项目(J50103) 上海大学创新基金

关键词 HRCA FPGA 可重构计算存储墙 FMM HRCA FPGA Reconfigurable computing Memory wall FMM

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1Prasanna Sundararajan. High Performance Computing Using FPGAs XILINX White Paper[ OL]. WP375,2010.
2Dimond Rob, Racanière Srbastien, Pell Oliver. Accelerating Large- Scale HPC Applications Using FPGAs[ C]//IEEE 2011. Germany : Proceedings - 2011 20th Symposium on Computer Arithmetic ,2011 : 191 - 192.
3罗兴国,等.PRCA:一种高效能计算体系结构[C]//2012高效能计算机体系结构国际高端论坛,上海,2012,10.
4Xilinx. Virtex-5 Family Overview. Xilinx Product Specification DS100 [OL]. http ://www. xilinx. com/2012.
5Xilinx. 7 Series FPGAs Overview. Xilinx Advance Product Specification DS180[OL]. http://www. xilinx. com/2012.
6余学涛,孔雪,王绪,祝永新,何卫锋,倪明,谢光伟,雷咏梅,单健晨.FMM能效分析及其ASIC可行性评估[J].计算机工程,2011,37(13):265-268. 被引量：1
7李正杰,徐炜民,柴亚辉,郑衍衡.FMM算法中PP问题在GPU上的研究与实现[J].计算机工程与设计,2011,32(9):3050-3053. 被引量：2
8John Hennessy,David Patterson. Computer Architecture: A Quantita- tive Approach[ M ]. 4th ed. Morgan Kaufmann,2006.
9柴亚辉,沈文枫,曹旻,徐炜民,郑衍衡.FPGA加速部件求解FMM算法中PP问题研究[J].福州大学学报（自然科学版）,2011,39(4):512-516. 被引量：1
10李琪刚,柴亚辉,徐炜民,郑衍衡.多体问题FMM算法在加速部件FPGA研究与实现[J].计算机工程与设计,2011,32(10):3391-3394. 被引量：4

二级参考文献62

1赖国明,杨圣云,袁德辉.FMM算法的并行化方法[J].计算机应用与软件,2007,24(7):176-178. 被引量：2
2Florin Diacu.The solution of the n-body problem[J]. Mathematical Intelligencer, 1996,18(3):66-70.
3Guy Blelloch, Girija Narlikar.A practical comparison of N-body algorithms[C]. American:Parallel Algorithms,Series in Discrete Mathematics and Theoretical Computer Science,1997.
4Barnes J,Hut P.A hierarchical O(N log N) force-calculation algorithm[J].Nature, 1986,324(6096):446-449.
5Greengard L,Rokhlin V.A fast algorithm for particle simulations [J].Journal of Computational Physics,1987,73(2):325-348.
6Simon Portegies Zwart,Robert Belleman,Peter Geldof.High performance direct gravitational N-body simulations on graphics processing unit I:an implementation in Cg[J].New Astronomy, 2007,12(8):641-650.http://arxiv.org/abs/astro-ph/0702058.
7Tsuyoshi Hamada, Toshiaki Iitaka. The chamomile scheme: An optimized algorithm for N-body simulations on programmable graphics processing its[DB/OL], http: //arxiv.org/abs/astro-ph/ 0703100,2007-03 -06/2010-07-20.
8Lars Nyland.Fast N-body simulation with cuda[J].GPU Gems, 2007(3):677-695.
9Robert G Bellemana,Jeroen Badorfa, Simon F Portegies Zwart. High performance direct gravitational N-body simulations on graphics processing units II: An implementation in CUDA [J]. New Astronomy,2008,13(2): 103-112.
10Mark J Stock.Toward efficient GPU-accelerated N-body simulations[C].American:46th AIAA Aerospace Sciences Meeting and Exhibit,2008:1-13.

共引文献5

1周新力.从空间维数的本质探讨多体问题下卫星实际运动的轨道[J].导航定位学报,2014,2(1):1-5.
2李婵怡,王武,冯仰德,谢力.基于异构平台的BH算法高效并行实现[J].计算机应用研究,2016,33(8):2255-2259. 被引量：1
3许义宝,胡永兵,陈庆然.基于FPGA的多节点光纤传输系统设计与实现[J].计算机技术与发展,2018,28(3):197-200. 被引量：4
4王武,王舒扬,姜金荣,孟虹松.快速多极子方法在申威众核处理器上的实现和优化[J].计算机工程与科学,2019,41(7):1161-1167. 被引量：3
5韩承磊,梁建国,傅游,叶雨曦,花嵘,李倩倩.神威·太湖之光平台上宇宙N体模拟中FMM的并行优化[J].山东科技大学学报（自然科学版）,2024,43(3):105-113.

同被引文献7

1杨子煜,严明,王大伟,李思昆.面向CGRA循环流水映射的数据并行优化[J].计算机学报,2013,36(6):1280-1289. 被引量：5
2符天枢,李树国.SM4算法CBC模式的高吞吐率ASIC实现[J].微电子学与计算机,2016,33(10):13-18. 被引量：8
3吕述望,苏波展,王鹏,毛颖颖,霍利利.SM4分组密码算法综述[J].信息安全研究,2016,2(11):995-1007. 被引量：76
4徐金甫,杨宇航.SM4算法在粗粒度阵列平台的并行化映射[J].电子技术应用,2017,43(4):39-42. 被引量：7
5张建,吴文玲.基于SM4轮函数设计的认证加密算法[J].电子学报,2018,46(6):1294-1299. 被引量：12
6艾心,吴鸣旦,武旭东,李小卫,罗群.一次一密SM4算法的设计[J].网络空间安全,2018,9(2):20-23. 被引量：6
7王泽芳,唐中剑.SM4算法CTR模式的高吞吐率ASIC实现[J].电子器件,2019,42(1):173-177. 被引量：6

引证文献1

1张骁,周清雷,李斌.基于HRCA的可重构SM4密码算法研究与实现[J].网络与信息安全学报,2020,6(5):101-109. 被引量：2

二级引证文献2

1吕尧,侯金鹏,聂冲,苏铓,王彬,蒋鸿玲.基于SM9算法的部分盲签名方案[J].网络与信息安全学报,2021,7(4):147-153. 被引量：5
2翟嘉琪,李斌,周清雷,陈晓杰.基于FPGA的高性能可扩展SM4-GCM算法实现[J].计算机科学,2022,49(10):74-82. 被引量：2

1曹旻,李海强,曹真.基于混合架构的FMM算法硬件加速[J].计算机工程,2012,38(16):275-278.
2唐振,张倬,柴亚辉,徐炜民.FMM算法在Cell/B.E.处理器上实现的分析与验证[J].计算机工程与科学,2011,33(8):79-83. 被引量：1
3刘云鹏,Stephan Beck,王仁芳,王阳,郑文,Bemd Froehlich.面向3D呈现的有损和无损混合深度视频编码[J].光电子．激光,2017,28(2):211-216.
4刘艳秋,安军社,张健,孙辉先.基于VxWorks的以太网接口设计与实现[J].计算机工程,2004,30(13):178-180. 被引量：4
5王昭顺,王沁,曲英杰.可重构计算机体系结构[J].北京科技大学学报,2001,23(4):386-388. 被引量：14
6佟冬,胡铭曾,方滨兴.可重构计算和可重构计算机技术[J].计算机科学,1998,25(4):7-10. 被引量：9
7贾英江,高欣宝.可重构计算机简介[J].计算机应用研究,1999,16(5):4-6. 被引量：3
8杨雨浓,房鼎益,王洪.一种基于混合深度置信模型的面部表情识别方法[J].西南大学学报（自然科学版）,2016,38(6):142-147. 被引量：1
9翟文洁,闫琰,张博文,殷绪成.基于混合深度信念网络的多类文本表示与分类方法[J].情报工程,2016,2(5):30-40. 被引量：8
10徐鹏,魏紫.N-Body问题在CUDA平台上并行实现研究[J].科技信息,2009(27):62-62.

计算机应用与软件

2014年第6期

浏览历史

内容加载中请稍等...

超混合深度可重构计算阵列调度策略的优化研究被引量：1

参考文献12

二级参考文献62

共引文献5

同被引文献7

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

超混合深度可重构计算阵列调度策略的优化研究 被引量：1

参考文献12

二级参考文献62

共引文献5

同被引文献7

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

超混合深度可重构计算阵列调度策略的优化研究被引量：1