面向飞腾处理器的多线程可复现DGEMV设计与实现被引量：1

Design and Implementation of Multithreaded Reproducible DGEMV for Phytium Processor

下载PDF

导出

摘要在高性能计算中,求解大规模、大尺度、长时程和病态问题过程中舍入误差的累计都可能会使算法的最终数值结果失真。在不同的计算软硬件资源下,每次运行的结果可能不一致,而这些结果是开发者调试程序和正确性检查的重要依据,会对科研工作的顺利进行造成干扰,因此算法数值结果的可复现性变得至关重要。文中面向飞腾处理器,基于OpenBLAS软件框架,结合美国伯克利国家实验室的Demmel教授团队开发的ReproBLAS软件中提出的可复现的方法与Castado提出的多层分块技术,使用舍入误差分析和无误差变换等技术,设计出了多线程可复现DGEMV的算法。数值实验显示,所提算法实现了数值计算的可复现性,且输出结果与ReproBLAS相同,验证了所提算法的可靠性。同时,所提算法在相同的测试环境下运行速度至少是ReproBLAS实现算法运行速度的2倍。此外,还将所提算法与日本理化研究所Mukunoki提出的OzBLAS中的可复现DGEMV函数进行对比,同为单线程时该算法的运行速度至少是OzBLAS算法的20倍,在相同多线程数量情况下,该算法的运行速度至少是OzBLAS算法的9倍。理论分析和数值实验均表明,该改进算法比国际上现有的可复现数值算法性能更优。 In high-performance computing, the accumulation of rounding error in the process of solving the large-scale, long time and ill-conditioned problem will lead to invalidated results.These results are useful for the developers to debug programs and check their correctness.Therefore, the reproducibility of the numerical results of the algorithm becomes very important.Based on the OpenBLAS’s framework, combining with Demmel’s reproducible method in ReproBLAS and multilayer block technology proposed by Castaldo, this paper designs a reproducible algorithm of multithreaded DGEMV for Phytium processor with rounding error analysis and error free transformation.Numerical experiments show that the output of the algorithm is the same as that of the ReproBLAS,which verifies the reproducibility.Our algorithm is up to 2 x faster than that in ReproBLAS.Compared with the DGEMV function of OzBLAS proposed by Mukunoki, our algorithm runs at least 20 x faster than that in OzBLAS with single thread, and 9 x faster than that in OzBLAS with multi-threads.Theoretical analysis and numerical experiments illustrate that improved algorithm is accurate, validated and efficiency.

作者陈磊唐滔漆海俊姜浩何康 CHEN Lei;TANG Tao;QI Hai-jun;JIANG Hao;HE Kang(College of Computer Science and Technology,National University of Defense Technology,Changsha 410073,China)

机构地区国防科技大学计算机学院

出处《计算机科学》 CSCD 北大核心 2022年第10期27-35,共9页 Computer Science

基金国家重点研发计划(2020YFA0709803) 173项目(2020-JCJQ-ZD-029) 科学挑战专题资助项目(TZ2016002)。

关键词可复现性舍入误差无误差变换 DGEMV Reproducibility Round-off error Error-free transformation DGEMV

分类号 TP302 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

同被引文献3

1赵世忠.算术表达式的一种可信计算算法及其软件ISReal[J].中国科学：信息科学,2016,46(6):698-713. 被引量：4
2张金凤,唐金慧,马成英.FPGA可编程资源测试技术研究[J].电子元器件与信息技术,2018,2(7):59-62. 被引量：6
3赵世忠,陈冬火,刘静.循环迭代程序的一种可信计算算法[J].软件学报,2020,31(12):3685-3699. 被引量：2

引证文献1

1关明晓,刘嘉堃,张鸿锐,何安平.基于FPGA误差可控的浮点运算加速器研究[J].计算机工程,2024,50(5):291-297.

1唐四薪,蒋劼,张剑.基于组件技术与团队开发的Web开发课程教学实践[J].计算机教育,2022(8):152-155. 被引量：1
2周海林.线性子空间上求解AXB+CXD=F的最小二乘问题的迭代算法[J].高校应用数学学报（A辑）,2022,37(3):350-364.
3邹晓阳,程浩,陈久力,鲁秀龙,邓敏.基于半消声室精密法的轨道交通电力变流器噪声测试方法研究[J].中国检验检测,2022,30(4):3-5. 被引量：2
4于春和,孟璐瑶.基于改进QRRLS的多通道线性预测去混响方法[J].电脑与信息技术,2022,30(5):35-38.
5贾国强,房伟,陈乃阔,翟西斌,何孟宁.基于FT-2000/4的全国产平板式加固计算机设计[J].信息技术与信息化,2022(8):135-139.
6Pamela Osment.Alegria插画风用Alegria散播欢乐、散播爱[J].空中英语教室（中级版）,2022(7):20-21.
7经典回眸[J].环球科学,2022(17):96-96.
8无.氧化物薄膜中发现罕见软磁性质上纽大科研团队探析其成因[J].科学生活,2022(5):20-21.
9宋浩冉,黄卫东.天体轨道长期数值积分的误差估计方法[J].天文学报,2022,63(5):91-109. 被引量：1
10苏圣奎,缪琳,陈清华.基于STEM的高中数学建模进阶式课程设计与实践[J].数学建模及其应用,2022,11(2):88-94. 被引量：3

计算机科学

2022年第10期

浏览历史

内容加载中请稍等...

面向飞腾处理器的多线程可复现DGEMV设计与实现被引量：1

同被引文献3

引证文献1

相关作者

相关机构

相关主题

浏览历史

面向飞腾处理器的多线程可复现DGEMV设计与实现 被引量：1

同被引文献3

引证文献1

相关作者

相关机构

相关主题

浏览历史

面向飞腾处理器的多线程可复现DGEMV设计与实现被引量：1