矩阵转置是矩阵运算的基本操作,广泛应用于信号处理、科学计算以及深度学习等各种领域。随着国防科技大学自主研制的飞腾异构多核数字信号处理器(digital signal processor, DSP)在各种领域中的推广应用,对高性能矩阵转置实现提出了强...矩阵转置是矩阵运算的基本操作,广泛应用于信号处理、科学计算以及深度学习等各种领域。随着国防科技大学自主研制的飞腾异构多核数字信号处理器(digital signal processor, DSP)在各种领域中的推广应用,对高性能矩阵转置实现提出了强烈需求。针对飞腾异构多核DSP的体系结构特征与矩阵转置操作的特点,提出了一种适配不同数据位宽(8 B、4 B以及2 B)矩阵的并行矩阵转置算法ftmMT。该算法基于DSP中向量处理单元的Load/Store部件实现了向量化,同时基于矩阵分块实现了多个DSP核的并行处理,通过隐式乒乓设计实现了片上向量化转置与片外访存的重叠以及访存性能的大幅提升。实验结果表明,ftmMT能够显著加快矩阵转置操作,与CPU上的开源转置库HPTT相比,可获得高达8.99倍的性能加速。展开更多
基金the National Natural Science Foundation of China under Grant Nos.60673167 90412011 (国家自然科学基金)the National Basic Research Program of China under Grant No.2005CB321801 (国家重点基础研究发展计划(973))
文摘基于网络资源的"成长性"、"自治性"和"多样性",近年来,人们提出以通用DHT(distributed Hash table)信息服务的形式实现网络资源信息的发布和查询.然而,现有的资源信息服务在通用性、易用性和自适应性等方面仍存在不足.针对虚拟计算环境iVCE(Internet-based virtual computingen vironment)的资源聚合需求,提出构建可扩展的分布式资源信息服务SDIRIS(scalable distributed resource information service).首先,提出采用自适应DHT(adaptive FissionE,简称A-FissionE)底层架构,以对上层应用透明的方式适应不同的系统规模和稳定性;其次,基于自适应DHT提出高效的多属性区间搜索算法(multiple-attribute range FissionE,简称MR-FissionE).理论分析和模拟结果表明,SDIRIS能够高效地实现资源信息的发布与查询功能.