期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
细粒度任务并行GPU通用矩阵乘 被引量:5
1
作者 张帅 李涛 +2 位作者 王艺峰 焦晓帆 杨愚鲁 《计算机工程与科学》 CSCD 北大核心 2015年第5期847-856,共10页
稠密线性代数运算对模式识别和生物信息等许多实际应用至关重要,而通用矩阵乘(GEMM)处于稠密线性代数运算的基础地位。在cuBLAS与MAGMA中,GEMM被实现为若干kernel函数,对大型GEMM计算能够达到很高的性能。然而,现有实现对批量的小型GEM... 稠密线性代数运算对模式识别和生物信息等许多实际应用至关重要,而通用矩阵乘(GEMM)处于稠密线性代数运算的基础地位。在cuBLAS与MAGMA中,GEMM被实现为若干kernel函数,对大型GEMM计算能够达到很高的性能。然而,现有实现对批量的小型GEMM计算性能发挥则较为有限。而且,现有实现也不能在多个具有不同性能的GPU之间自动扩展并达到负载均衡。提出任务并行式GEMM(TPGEMM),用细粒度任务并行的方式实现批量矩阵乘和多GPU矩阵乘。一个或多个GEMM的计算能够被拆分为多个任务,动态地调度到一个或多个GPU上。TPGEMM避免了为批量矩阵乘启动多个kernel函数的开销,对批量矩阵乘能够取得显著高于cuBLAS与MAGMA的性能。在低开销细粒度任务调度的基础上,TPGEMM支持单个GEMM计算在多个GPU间的自动并行,在一台具有四个不同性能GPU的工作站上取得了接近100%的扩展效率。 展开更多
关键词 通用矩阵乘 持久化kernel 任务并行 负载均衡
下载PDF
CPU-GPU异构计算环境下的并行T近邻谱聚类算法 被引量:3
2
作者 张帅 李涛 +2 位作者 焦晓帆 王艺峰 杨愚鲁 《计算机研究与发展》 EI CSCD 北大核心 2015年第11期2555-2567,共13页
谱聚类是数据挖掘领域最常用的聚类算法之一,但对于如何利用多核CPU与资源有限的众核加速器设计并实现一个在异构单节点上能够处理大规模数据集的高效谱聚类算法,目前尚无理想的解决方案.PSCH(parallel spectral clustering for hybrid... 谱聚类是数据挖掘领域最常用的聚类算法之一,但对于如何利用多核CPU与资源有限的众核加速器设计并实现一个在异构单节点上能够处理大规模数据集的高效谱聚类算法,目前尚无理想的解决方案.PSCH(parallel spectral clustering for hybrids)算法是专为CPU-GPU异构计算环境设计的并行T近邻(T-nearest-neighbors,TNN)谱聚类算法,通过分块计算相似性矩阵打破了GPU设备内存的限制,所能处理的数据集规模仅受限于CPU主存的容量.PSCH算法中使用CUDA设计实现双缓冲轮转4段流水机制,通过重叠计算与传输在打破存储瓶颈的同时保证了高计算性能.PSCH算法采用隐式重启动Lanczos方法(implicitly restarted Lanczos method,IRIM)在异构硬件上计算稀疏特征矩阵的特征分解,减轻了特征分解步骤的计算瓶颈.PSCH算法在配有一块GTX 480GPU的单节点上能够对百万以上规模的数据集进行聚类,并对实验中的4个数据集取得了相对于使用16进程的MPI并行谱聚类PSC算法2.0~4.5倍的性能. 展开更多
关键词 谱聚类 T近邻 CPU-GPU异构计算 计算统一设备架构 OpenMP
下载PDF
混凝土坝坝基排水孔间距对渗流场的影响数值分析
3
作者 焦晓帆 《陕西水利》 2015年第1期124-125,共2页
采用三维渗流场有限元方法,模拟坝基渗流场。建立三维渗流场有限元分析模型,精确模拟排水孔的位置。分别计算排水孔间距为2m、3m、4m三种工况下坝基渗流场,详细分析和探讨坝基及消力戽排水孔间距对渗流场的影响。分析表明,排水孔间距越... 采用三维渗流场有限元方法,模拟坝基渗流场。建立三维渗流场有限元分析模型,精确模拟排水孔的位置。分别计算排水孔间距为2m、3m、4m三种工况下坝基渗流场,详细分析和探讨坝基及消力戽排水孔间距对渗流场的影响。分析表明,排水孔间距越小,排出的渗流量相应增加,扬压力有所减低,但是坝基排水孔、坝体下游消力戽排水孔间距由3m减小到2m或增加到4 m时,对坝基整体渗流场及坝基扬压力影响并不明显,所以坝基内的排水孔间距可以取为较大值。 展开更多
关键词 坝基 排水孔 渗流场 数值分析 渗流控制
下载PDF
异构计算模型下基于聚类的车型识别
4
作者 房建宏 张亚力 焦晓帆 《青海交通科技》 2018年第1期16-25,共10页
根据线圈检测器采集到的信号变化的波形不同,可以利用k均值聚类以及Bayesian分类器进行车型识别。训练过程中,使用k均值聚类算法对不同波形的特征值归类,再采用Bayesian分类算法去获取分类器。当待处理的数据集较大时,受限于CPU的计算能... 根据线圈检测器采集到的信号变化的波形不同,可以利用k均值聚类以及Bayesian分类器进行车型识别。训练过程中,使用k均值聚类算法对不同波形的特征值归类,再采用Bayesian分类算法去获取分类器。当待处理的数据集较大时,受限于CPU的计算能力,k均值聚类在特征值归类时会表现出较大的延迟,对识别效率造成影响。本文专为CPU-GPU异构计算环境设计的k均值聚类算法及其实现,通过分块计算相似性矩阵,打破了GPU设备内存的限制,所能处理的数据集规模仅受限于CPU主存的容量。本文中使用CUDA设计实现双缓冲轮转四段流水机制,通过重叠计算与传输在打破存储瓶颈的同时保证了高计算性能。在配有一块GTX 480 GPU的单结点上能够对百万以上规模的数据集进行聚类,并对实验中的四个数据集取得了相对于使用16进程的MPI并行聚类实现2.0~4.5倍的性能。 展开更多
关键词 车型识别 K均值聚类 CPU-GPU异构计算 计算统一设备架构 CUDA
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部