布尔矩阵乘的分布式异构并行优化被引量：1

Distributed heterogeneous parallel Boolean matrix multiplication and its performance optimization

下载PDF

导出

摘要布尔多项式求解是当今密码代数分析中的关键步骤,F4算法是布尔多项式求解的高效算法。分析了Lachartre为F4矩阵专门设计的高斯消去算法,针对其中布尔矩阵乘这一耗时的计算步骤,设计并实现了分布式异构(CPU+MIC)并行算法。布尔矩阵相对于普通矩阵主要体现在矩阵元素取值区间不一样上,由于布尔矩阵元素(0,1)导致矩阵乘操作的特殊性,普通矩阵乘的优化方法不能很好地满足布尔矩阵乘的需求。分别从布尔矩阵的存储、OpenMP多线程组织、访存、任务划分和调度等方面进行了性能优化,实现了布尔矩阵乘的分布式异构并行算法。通过随机生成布尔矩阵测试,优化后的分布式异构并行程序相较于分布式同构并行程序达到了2.45的加速比,体现了良好的性能提升。 The Boolean polynomial solution is a key step in the analysis of cryptographic algebra, and the F4 algorithm is an efficient algorithm for Boolean polynomial solution. We analyze the Gaussian elimination algorithm designed by Lachartre for F4 matrix, then design and implement the distributed heterogeneous （CPU ＋ MIC） parallel algorithm for the time consumption calculation of Boolean matrix multiplication. The Boolean matrix differs from ordinary matrixes mainly in the valuetaking intervals of matrix elements. The optimization method of the general matrix multiplication cannot satisfy the Boolean matrix multiplication because the Boolean matrix element （0,1） leads to the particularity of the matrix multiplication operation. We realize the distributed heterogeneous parallel algorithms of Boolean matrix multiplication by optimizing its performance respectively on binary domain matrix storage, OpenMP multithreading organization, fetch, task partition and scheduling, etc. By randomly generating the Boolean matrix tests, the optimized distributed heterogeneous parallel program achieves an acceleration ratio of 2.45 compared with the distributed isomorphism parallel program, which shows a good performance improvement.

作者朱敏唐波赵娟邹丹李金才

机构地区国防科学技术大学海洋科学与工程研究院

出处《计算机工程与科学》 CSCD 北大核心 2017年第4期634-640,共7页 Computer Engineering & Science

基金国家自然科学基金(61502516 61572515) 国家重点研发计划(2016YFC1401803)

关键词 F4算法二元域布尔矩阵乘分布式异构并行 F4 algorithm binary domain Boolean matrix multiplication distributed heterogeneous parallel

分类号 TP303 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献3

1张帅,李涛,王艺峰,焦晓帆,杨愚鲁.细粒度任务并行GPU通用矩阵乘[J].计算机工程与科学,2015,37(5):847-856. 被引量：5
2李昕,林东岱,徐琳.一种布尔多项式的高效计算机表示[J].计算机研究与发展,2012,49(12):2568-2574. 被引量：3
3Fengjuan CHAI Xiao-Shan GAO Chunming YUAN.A CHARACTERISTIC SET METHOD FOR SOLVING BOOLEAN EQUATIONS AND APPLICATIONS IN CRYPTANALYSIS OF STREAM CIPHERS[J].Journal of Systems Science & Complexity,2008,21(2):191-208. 被引量：17

二级参考文献38

1李邦河.分解多项式升列为不可约升列的算法(英文)[J].应用泛函分析学报,2005,7(2):97-105. 被引量：4
2Li T,Li H,Liu X,et al.GPU acceleration of interior point methods in large scale SVM training[C]∥Proc of the 12th IEEE International Conference on Trust,Security and Privacy in Computing and Communications(TrustCom),2013:863-870.
3Li T,Wang D,Zhang S,et al.Parallel rank coherence in networks for inferring disease phenotype and gene set associations[C]∥Proc of ACA'14,2014:163-176.
4Kagstrm B,Ling P,Van Loan C.GEMM-based level 3BLAS:High-performance model implementations and performance evaluation benchmark[J].ACM Transactions on Mathematical Software(TOMS),1998,24(3):268-302.
5Anderson E,Bai Z,Bischof C,et al.LAPACK users'guide[K].Philadelphia:Siam,1999.
6Blackford L S,Choi J,Cleary A,et al.ScaLAPACK users'guide[K].Philadelphia:Siam,1997.
7Dongarra J J,Luszczek P,Petitet A.The LINPACK benchmark:Past,present and future[J].Concurrency and Computation:Practice and Experience,2003,15(9):803-820.
8Nath R,Tomov S,Dongarra J.Accelerating GPU kernels for dense linear algebra[C]∥Proc of High Performance Computing for Computational Science-VECPAR 2010,2011:83-92.
9Nakasato N.A fast GEMM implementation on the Cypress GPU[J].ACM SIGMETRICS Performance Evaluation Review,2011,38(4):50-55.
10Du P,Weber R,Luszczek P,et al.From CUDA to OpenCL:Towards a performance-portable solution for multi-platform GPU programming[J].Parallel Computing,2012,38(8):391-407.

共引文献22

1高小山,袁春明,张桂林.RITT-WU'S CHARACTERISTIC SET METHOD FOR ORDINARY DIFFERENCE POLYNOMIAL SYSTEMS WITH ARBITRARY ORDERING[J].Acta Mathematica Scientia,2009,29(4):1063-1080. 被引量：6
2Chunming YUAN Xiao-Shan GAO Key Laboratory of Mathematics Mechanization,Institute of Systems Science,Academy of Mathematics and Systems Science,Chinese Academy of Sciences,Beijing 100190,China..A CRITERION FOR TESTING WHETHER A DIFFERENCE IDEAL IS PRIME[J].Journal of Systems Science & Complexity,2009,22(4):627-635.
3Liyong SHEN,Chunming YUAN.IMPLICITIZATION USING UNIVARIATE RESULTANTS[J].Journal of Systems Science & Complexity,2010,23(4):804-814. 被引量：2
4李昕,林东岱.对Bivium流密码的变元猜测代数攻击[J].电子学报,2011,39(8):1727-1732. 被引量：4
5李晓亮,王东明.有限域上多项式集的简单分解[J].系统科学与数学,2012,32(1):15-26.
6Zhenyu HUANG.PARAMETRIC EQUATION SOLVING AND QUANTIFIER ELIMINATION IN FINITE FIELDS WITH THE CHARACTERISTIC SET METHOD[J].Journal of Systems Science & Complexity,2012,25(4):778-791. 被引量：3
7李昕,林东岱,徐琳.一种布尔多项式的高效计算机表示[J].计算机研究与发展,2012,49(12):2568-2574. 被引量：3
8柴凤娟.步进的特征列算法及其在流密码分析中的应用[J].系统科学与数学,2014,34(3):273-283.
9HU Youren,GAO Xiao-Shan.Ritt-Wu Characteristic Set Method for Laurent Partial Differential Polynomial Systems[J].Journal of Systems Science & Complexity,2019,32(1):62-77. 被引量：1
10LI Wei,YUAN Chun-Ming.Elimination Theory in Differential and Difference Algebra[J].Journal of Systems Science & Complexity,2019,32(1):287-316. 被引量：1

同被引文献7

1张梦元.基于CUDA的矩阵乘法的并行实现[J].信息通信,2012,25(2):20-21. 被引量：2
2刘沛华,鲁华祥,龚国良,刘文鹏.基于FPGA的全流水双精度浮点矩阵乘法器设计[J].智能系统学报,2012,7(4):302-306. 被引量：8
3崔翔,李晓雯,陈一峯.基于Parray数组类型的矩阵乘法实现[J].计算机学报,2014,37(12):2564-2573. 被引量：1
4王云龙,吴瑛.基于GPU的相关干涉仪算法实现[J].信息工程大学学报,2015,16(1):41-45. 被引量：4
5周磊涛,陶耀东,刘生,李锁.基于FPGA的Systolic乘法技术研究[J].计算机工程与科学,2015,37(9):1632-1636. 被引量：6
6龙卓群,王晓瑜,王昌明.基于DCT预测编码的Epiphany-OpenCL大矩阵乘并行计算[J].自动化与仪表,2017,32(7):16-21. 被引量：3
7刘鹏,王学奎,黄宜华,孟磊,丁恩杰.基于Spark的极限学习机算法并行化研究[J].计算机科学,2017,44(12):33-37. 被引量：6

引证文献1

1肖汉,肖诗洋,李彩林,周清雷.异构平台上基于OpenCL的矩阵乘并行算法[J].西南大学学报（自然科学版）,2020,42(11):147-153. 被引量：3

二级引证文献3

1黄敬频,白瑞,徐云,赵耿威.四元数矩阵的直积分解及最佳逼近[J].西南师范大学学报（自然科学版）,2022,47(2):1-6. 被引量：1
2孙祥杰,朱亮,余同欢.基于OpenCL的SAR影像快速浏览方法研究[J].电子质量,2023(3):24-30.
3王文善,张维忠,李强.基于OpenCL的腐蚀膨胀算法的并行优化[J].青岛大学学报（工程技术版）,2023,38(4):22-26.

1宋灏龙,梁华国,单国华.FPGA上二元域公钥系统中求逆模块的改进[J].小型微型计算机系统,2010,31(2):259-263. 被引量：4
2李国敬.椭圆曲线中明文嵌入问题研究[J].江西师范大学学报（自然科学版）,2007,31(2):127-130. 被引量：1
3张庆胜,郭宝安.二元域多项式基的按字求模算法[J].计算机工程与设计,2011,32(3):852-854. 被引量：1
4夏天,方勇,王长辉,杨勇,范刚.基于组合优化的线性含错方程组的求解方法[J].计算机工程与应用,2008,44(18):54-56. 被引量：1
5王超,陈香兰,周学海,王爱立.异构多核平台上基于任务划分和调度的性能评估方法[J].中国科学院研究生院学报,2012,29(2):257-263. 被引量：3
6孔德谦,李晓林,高薇,王学伟,王心灵.针对LBlock的代数攻击的研究[J].山东科学,2013,26(6):45-50.
7张军,周福才.一种二元域上的快速计算哈希函数[J].信息安全与通信保密,2006,28(8):151-153. 被引量：1
8邹湘景,彭伟.基于MiniSat的多项式方程组求解实现[J].重庆理工大学学报（自然科学）,2015,29(6):75-81.
9钱丹,李飞,高献伟,董秀则,曾辉.ECC椭圆曲线密码体制C~＊ Core实现与优化[J].计算机应用研究,2012,29(6):2243-2245.
10丁益祥,胡新荣.时态数据库的时态代数分析[J].武汉科技学院学报,2005,18(1):48-51. 被引量：1

计算机工程与科学

2017年第4期

浏览历史

内容加载中请稍等...

布尔矩阵乘的分布式异构并行优化被引量：1

参考文献3

二级参考文献38

共引文献22

同被引文献7

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

布尔矩阵乘的分布式异构并行优化 被引量：1

参考文献3

二级参考文献38

共引文献22

同被引文献7

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

布尔矩阵乘的分布式异构并行优化被引量：1