期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
4
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
细粒度任务并行GPU通用矩阵乘
被引量:
5
1
作者
张帅
李涛
+2 位作者
王艺峰
焦晓帆
杨愚鲁
《计算机工程与科学》
CSCD
北大核心
2015年第5期847-856,共10页
稠密线性代数运算对模式识别和生物信息等许多实际应用至关重要,而通用矩阵乘(GEMM)处于稠密线性代数运算的基础地位。在cuBLAS与MAGMA中,GEMM被实现为若干kernel函数,对大型GEMM计算能够达到很高的性能。然而,现有实现对批量的小型GEM...
稠密线性代数运算对模式识别和生物信息等许多实际应用至关重要,而通用矩阵乘(GEMM)处于稠密线性代数运算的基础地位。在cuBLAS与MAGMA中,GEMM被实现为若干kernel函数,对大型GEMM计算能够达到很高的性能。然而,现有实现对批量的小型GEMM计算性能发挥则较为有限。而且,现有实现也不能在多个具有不同性能的GPU之间自动扩展并达到负载均衡。提出任务并行式GEMM(TPGEMM),用细粒度任务并行的方式实现批量矩阵乘和多GPU矩阵乘。一个或多个GEMM的计算能够被拆分为多个任务,动态地调度到一个或多个GPU上。TPGEMM避免了为批量矩阵乘启动多个kernel函数的开销,对批量矩阵乘能够取得显著高于cuBLAS与MAGMA的性能。在低开销细粒度任务调度的基础上,TPGEMM支持单个GEMM计算在多个GPU间的自动并行,在一台具有四个不同性能GPU的工作站上取得了接近100%的扩展效率。
展开更多
关键词
通用矩阵乘
持久化kernel
任务并行
负载均衡
下载PDF
职称材料
CPU-GPU异构计算环境下的并行T近邻谱聚类算法
被引量:
3
2
作者
张帅
李涛
+2 位作者
焦晓帆
王艺峰
杨愚鲁
《计算机研究与发展》
EI
CSCD
北大核心
2015年第11期2555-2567,共13页
谱聚类是数据挖掘领域最常用的聚类算法之一,但对于如何利用多核CPU与资源有限的众核加速器设计并实现一个在异构单节点上能够处理大规模数据集的高效谱聚类算法,目前尚无理想的解决方案.PSCH(parallel spectral clustering for hybrid...
谱聚类是数据挖掘领域最常用的聚类算法之一,但对于如何利用多核CPU与资源有限的众核加速器设计并实现一个在异构单节点上能够处理大规模数据集的高效谱聚类算法,目前尚无理想的解决方案.PSCH(parallel spectral clustering for hybrids)算法是专为CPU-GPU异构计算环境设计的并行T近邻(T-nearest-neighbors,TNN)谱聚类算法,通过分块计算相似性矩阵打破了GPU设备内存的限制,所能处理的数据集规模仅受限于CPU主存的容量.PSCH算法中使用CUDA设计实现双缓冲轮转4段流水机制,通过重叠计算与传输在打破存储瓶颈的同时保证了高计算性能.PSCH算法采用隐式重启动Lanczos方法(implicitly restarted Lanczos method,IRIM)在异构硬件上计算稀疏特征矩阵的特征分解,减轻了特征分解步骤的计算瓶颈.PSCH算法在配有一块GTX 480GPU的单节点上能够对百万以上规模的数据集进行聚类,并对实验中的4个数据集取得了相对于使用16进程的MPI并行谱聚类PSC算法2.0~4.5倍的性能.
展开更多
关键词
谱聚类
T近邻
CPU-GPU异构计算
计算统一设备架构
OpenMP
下载PDF
职称材料
混凝土坝坝基排水孔间距对渗流场的影响数值分析
3
作者
焦晓帆
《陕西水利》
2015年第1期124-125,共2页
采用三维渗流场有限元方法,模拟坝基渗流场。建立三维渗流场有限元分析模型,精确模拟排水孔的位置。分别计算排水孔间距为2m、3m、4m三种工况下坝基渗流场,详细分析和探讨坝基及消力戽排水孔间距对渗流场的影响。分析表明,排水孔间距越...
采用三维渗流场有限元方法,模拟坝基渗流场。建立三维渗流场有限元分析模型,精确模拟排水孔的位置。分别计算排水孔间距为2m、3m、4m三种工况下坝基渗流场,详细分析和探讨坝基及消力戽排水孔间距对渗流场的影响。分析表明,排水孔间距越小,排出的渗流量相应增加,扬压力有所减低,但是坝基排水孔、坝体下游消力戽排水孔间距由3m减小到2m或增加到4 m时,对坝基整体渗流场及坝基扬压力影响并不明显,所以坝基内的排水孔间距可以取为较大值。
展开更多
关键词
坝基
排水孔
渗流场
数值分析
渗流控制
下载PDF
职称材料
异构计算模型下基于聚类的车型识别
4
作者
房建宏
张亚力
焦晓帆
《青海交通科技》
2018年第1期16-25,共10页
根据线圈检测器采集到的信号变化的波形不同,可以利用k均值聚类以及Bayesian分类器进行车型识别。训练过程中,使用k均值聚类算法对不同波形的特征值归类,再采用Bayesian分类算法去获取分类器。当待处理的数据集较大时,受限于CPU的计算能...
根据线圈检测器采集到的信号变化的波形不同,可以利用k均值聚类以及Bayesian分类器进行车型识别。训练过程中,使用k均值聚类算法对不同波形的特征值归类,再采用Bayesian分类算法去获取分类器。当待处理的数据集较大时,受限于CPU的计算能力,k均值聚类在特征值归类时会表现出较大的延迟,对识别效率造成影响。本文专为CPU-GPU异构计算环境设计的k均值聚类算法及其实现,通过分块计算相似性矩阵,打破了GPU设备内存的限制,所能处理的数据集规模仅受限于CPU主存的容量。本文中使用CUDA设计实现双缓冲轮转四段流水机制,通过重叠计算与传输在打破存储瓶颈的同时保证了高计算性能。在配有一块GTX 480 GPU的单结点上能够对百万以上规模的数据集进行聚类,并对实验中的四个数据集取得了相对于使用16进程的MPI并行聚类实现2.0~4.5倍的性能。
展开更多
关键词
车型识别
K均值聚类
CPU-GPU异构计算
计算统一设备架构
CUDA
下载PDF
职称材料
题名
细粒度任务并行GPU通用矩阵乘
被引量:
5
1
作者
张帅
李涛
王艺峰
焦晓帆
杨愚鲁
机构
南开大学计算机与控制工程学院
出处
《计算机工程与科学》
CSCD
北大核心
2015年第5期847-856,共10页
文摘
稠密线性代数运算对模式识别和生物信息等许多实际应用至关重要,而通用矩阵乘(GEMM)处于稠密线性代数运算的基础地位。在cuBLAS与MAGMA中,GEMM被实现为若干kernel函数,对大型GEMM计算能够达到很高的性能。然而,现有实现对批量的小型GEMM计算性能发挥则较为有限。而且,现有实现也不能在多个具有不同性能的GPU之间自动扩展并达到负载均衡。提出任务并行式GEMM(TPGEMM),用细粒度任务并行的方式实现批量矩阵乘和多GPU矩阵乘。一个或多个GEMM的计算能够被拆分为多个任务,动态地调度到一个或多个GPU上。TPGEMM避免了为批量矩阵乘启动多个kernel函数的开销,对批量矩阵乘能够取得显著高于cuBLAS与MAGMA的性能。在低开销细粒度任务调度的基础上,TPGEMM支持单个GEMM计算在多个GPU间的自动并行,在一台具有四个不同性能GPU的工作站上取得了接近100%的扩展效率。
关键词
通用矩阵乘
持久化kernel
任务并行
负载均衡
Keywords
GEMM
persistent kernel
task parallelism
load balancing
分类号
TP393.027 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
CPU-GPU异构计算环境下的并行T近邻谱聚类算法
被引量:
3
2
作者
张帅
李涛
焦晓帆
王艺峰
杨愚鲁
机构
南开大学计算机与控制工程学院计算机科学与信息安全系
出处
《计算机研究与发展》
EI
CSCD
北大核心
2015年第11期2555-2567,共13页
基金
国家自然科学青年基金项目(61212005
61201424)
+1 种基金
天津市科技特派员项目(14JCTPJC00501)
高等学校博士学科点专项科研基金项目(20130031120029)
文摘
谱聚类是数据挖掘领域最常用的聚类算法之一,但对于如何利用多核CPU与资源有限的众核加速器设计并实现一个在异构单节点上能够处理大规模数据集的高效谱聚类算法,目前尚无理想的解决方案.PSCH(parallel spectral clustering for hybrids)算法是专为CPU-GPU异构计算环境设计的并行T近邻(T-nearest-neighbors,TNN)谱聚类算法,通过分块计算相似性矩阵打破了GPU设备内存的限制,所能处理的数据集规模仅受限于CPU主存的容量.PSCH算法中使用CUDA设计实现双缓冲轮转4段流水机制,通过重叠计算与传输在打破存储瓶颈的同时保证了高计算性能.PSCH算法采用隐式重启动Lanczos方法(implicitly restarted Lanczos method,IRIM)在异构硬件上计算稀疏特征矩阵的特征分解,减轻了特征分解步骤的计算瓶颈.PSCH算法在配有一块GTX 480GPU的单节点上能够对百万以上规模的数据集进行聚类,并对实验中的4个数据集取得了相对于使用16进程的MPI并行谱聚类PSC算法2.0~4.5倍的性能.
关键词
谱聚类
T近邻
CPU-GPU异构计算
计算统一设备架构
OpenMP
Keywords
spectral clustering
T-nearest-neighbors(TNN)
CPU-GPU heterogeneous computing
CUDA
OpenMP
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
混凝土坝坝基排水孔间距对渗流场的影响数值分析
3
作者
焦晓帆
机构
陕西省宝鸡峡引渭灌溉管理局
出处
《陕西水利》
2015年第1期124-125,共2页
文摘
采用三维渗流场有限元方法,模拟坝基渗流场。建立三维渗流场有限元分析模型,精确模拟排水孔的位置。分别计算排水孔间距为2m、3m、4m三种工况下坝基渗流场,详细分析和探讨坝基及消力戽排水孔间距对渗流场的影响。分析表明,排水孔间距越小,排出的渗流量相应增加,扬压力有所减低,但是坝基排水孔、坝体下游消力戽排水孔间距由3m减小到2m或增加到4 m时,对坝基整体渗流场及坝基扬压力影响并不明显,所以坝基内的排水孔间距可以取为较大值。
关键词
坝基
排水孔
渗流场
数值分析
渗流控制
分类号
TV139.1 [水利工程—水力学及河流动力学]
下载PDF
职称材料
题名
异构计算模型下基于聚类的车型识别
4
作者
房建宏
张亚力
焦晓帆
机构
青海省交通科学研究院
山东易构软件技术股份有限公司
出处
《青海交通科技》
2018年第1期16-25,共10页
文摘
根据线圈检测器采集到的信号变化的波形不同,可以利用k均值聚类以及Bayesian分类器进行车型识别。训练过程中,使用k均值聚类算法对不同波形的特征值归类,再采用Bayesian分类算法去获取分类器。当待处理的数据集较大时,受限于CPU的计算能力,k均值聚类在特征值归类时会表现出较大的延迟,对识别效率造成影响。本文专为CPU-GPU异构计算环境设计的k均值聚类算法及其实现,通过分块计算相似性矩阵,打破了GPU设备内存的限制,所能处理的数据集规模仅受限于CPU主存的容量。本文中使用CUDA设计实现双缓冲轮转四段流水机制,通过重叠计算与传输在打破存储瓶颈的同时保证了高计算性能。在配有一块GTX 480 GPU的单结点上能够对百万以上规模的数据集进行聚类,并对实验中的四个数据集取得了相对于使用16进程的MPI并行聚类实现2.0~4.5倍的性能。
关键词
车型识别
K均值聚类
CPU-GPU异构计算
计算统一设备架构
CUDA
Keywords
vehicle recognition
spectral clustering
CPU - GPU heterogeneous computing
CUDA
Open MP
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
细粒度任务并行GPU通用矩阵乘
张帅
李涛
王艺峰
焦晓帆
杨愚鲁
《计算机工程与科学》
CSCD
北大核心
2015
5
下载PDF
职称材料
2
CPU-GPU异构计算环境下的并行T近邻谱聚类算法
张帅
李涛
焦晓帆
王艺峰
杨愚鲁
《计算机研究与发展》
EI
CSCD
北大核心
2015
3
下载PDF
职称材料
3
混凝土坝坝基排水孔间距对渗流场的影响数值分析
焦晓帆
《陕西水利》
2015
0
下载PDF
职称材料
4
异构计算模型下基于聚类的车型识别
房建宏
张亚力
焦晓帆
《青海交通科技》
2018
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部