-
题名GPU上不同存储器上CUDA程序功耗分析
- 1
-
-
作者
华锋亮
-
机构
西北师范大学计算机科学与工程学院
-
出处
《信息与电脑》
2016年第3期61-62,共2页
-
文摘
针对GPU追求高性能引起的功耗问题,通过分析CUDA的存储模型,提出了将应用程序的变量分别存储在全局存储器和共享存储器的方法对比二者功耗的差异。实验以CUDA实现向量加法为例,利用模拟器模拟这两种方法下的应用程序内核功耗,并对结果进行对比和分析。
-
关键词
图形处理器(GPU)
共享存储器
全局存储器
功耗
性能
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-
-
题名基于GPU的K-近邻算法实现
被引量:3
- 2
-
-
作者
田盼
华蓓
陆李
-
机构
中国科学技术大学计算机科学与技术学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2015年第2期189-192,198,共5页
-
文摘
K-近邻计算在数据集规模较大时计算复杂度较高,因此,利用图形处理器(GPU)强大的并行计算能力对K-近邻算法进行加速。在分析现有K-近邻算法的基础上,针对该算法时间开销过大的问题,结合GPU的体系结构特征实现基于GPU的K-近邻算法。利用全局存储器的合并访问特性,提高GPU全局存储器访问数据的效率,通过事先过滤数据的方法来减少参与排序的数据量,进而减少排序阶段的线程串行化时间。在KDD,Poker,Covertype 3个数据集上进行实验,结果表明,该实现方法在距离计算阶段每秒执行的浮点运算次数为266.37×109次,而排序阶段为26.47×109次,优于已有方法。
-
关键词
K-近邻问题
图形处理器
并行计算
算法加速
合并访问
全局存储器
-
Keywords
K-nearest Neighbor(KNN) problem
Graphics Processing Unit(GPU)
parallel computing
algorithm acceleration
coalesced access
global memory
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于GPU的并行计算性能分析模型
被引量:3
- 3
-
-
作者
王卓薇
程良伦
赵武清
-
机构
广东工业大学计算机学院
-
出处
《计算机科学》
CSCD
北大核心
2014年第1期31-38,共8页
-
基金
广州市科技项目(2012Y2-0031)
博士后基金(2013M531825)
国家自然科学基金(U1201251)资助
-
文摘
针对GPU并行计算领域缺少精确的性能分析模型和有针对性的性能优化方法,提出一种基于GPU的并行计算性能定量分析模型,其通过对指令流水线、共享存储器访存、全局存储器访存的性能建模,来定量分析并行程序,帮助程序员找到程序运行瓶颈,进行有效的性能优化。实验部分通过3个具有代表性的实际应用(稠密矩阵乘法、三对角线性方程组求解、稀疏矩阵矢量乘法)的性能分析证明了该模型的实用性,并有效地实现了算法的优化。
-
关键词
GPU
性能定量分析模型
指令流水线
共享存储器访存
全局存储器访存
-
Keywords
GPU, Quantitative performance model, Instruction pipeline, Shared memory access time, Global memory ac- cess time
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名GPU矩阵乘法的性能定量分析模型
被引量:1
- 4
-
-
作者
尹孟嘉
许先斌
熊曾刚
张涛
-
机构
武汉大学计算机学院
湖北工程学院计算机与信息科学学院
-
出处
《计算机科学》
CSCD
北大核心
2015年第12期13-17,22,共6页
-
基金
国家自然科学基金(61370092)
湖北省自然科学基金(2013CFC005)
湖北省中青年创新团队(T201410)资助
-
文摘
性能评价和优化是设计高效率并行程序必不可少的重要工作,存储系统的性能高低直接影响到处理器的整体性能。利用GPGPU-Sim对GPU的存储层次结构进行了模拟,找出了SM数量与存储控制器数量之间最佳配置关系。矩阵乘法是科学计算领域中的基本组成部分,是一种具有计算和访存密集特点的典型应用,其性能是GPU高性能计算的一个重要指标。性能模型作为并行系统性能评价的新的技术解决方案,具有许多其它性能评价方法无法比拟的优势。建立了一个性能模型,模型通过对指令流水线、共享存储器访存、全局存储器访存进行定量分析,找到了程序运行瓶颈,提高了执行速度。实验证明,该模型具有实用性,并有效地实现了矩阵乘法的优化。
-
关键词
GPU
GPGPU-Sim
矩阵乘法
性能定量分析模型
指令流水线
共享存储器访存
全局存储器访存
-
Keywords
GPU, GPGPU-Sim, Matrix multiplication, Quantitative performance analysis model, Instruction pipeline,Shared memory access, Global memory access
-
分类号
TP312
[自动化与计算机技术—计算机软件与理论]
-
-
题名网格资源分配管理的问题研究及模型设计
- 5
-
-
作者
王一夫
陈松乔
范国闯
-
机构
中南大学信息科学与工程学院
湖南师范大学数学与计算机科学学院
中国科学院软件研究所
-
出处
《计算机应用研究》
CSCD
北大核心
2005年第10期85-87,共3页
-
基金
湖南师大博士点科研基金资助项目(20030533011)
-
文摘
介绍了网格资源分配管理,探讨了网格资源分配管理的关键技术,最后得出了一个在并行系统中的网格资源分配管理的模型。
-
关键词
资源分配管理者
动态更新请求在线协同分配器
资源描述语言
元计算目录服务
执行管理
全局访问二级存储器
-
Keywords
GRAM
DUROC
RSL
MDS
GEM
GASS
-
分类号
TP315
[自动化与计算机技术—计算机软件与理论]
-
-
题名TDC在唐钢1580mm粗轧生产线中的应用
被引量:3
- 6
-
-
作者
宁勇亮
吴亚军
屈尔庆
-
机构
河北钢铁有限公司唐钢公司自动化公司
-
出处
《自动化技术与应用》
2010年第11期119-121,共3页
-
文摘
介绍TDC(Technology and Drive Control,工艺和驱动控制系统)在唐钢1580mm粗轧基础自动化的基本情况,主要介绍西门子SIMATIC TDC的硬件设备组成、软件环境和与其他设备的通讯方法及在生产线中的应用。
-
关键词
基础自动化
连续功能块
全局数据存储器
-
Keywords
basic automation
continuous function blocks
global data memory
-
分类号
TP29
[自动化与计算机技术—检测技术与自动化装置]
-
-
题名TDC在宝钢2050粗轧生产线的应用
被引量:1
- 7
-
-
作者
王诚
-
机构
宝山钢铁股份有限公司热轧厂
-
出处
《自动化与仪表》
2006年第4期57-59,66,共4页
-
文摘
介绍宝钢2050粗轧基础自动化改造的基本情况,重点介绍了西门子新一代自动化设备SIM ATIC TDC的硬件设备组成、软件环境和与其他自动化设备的通讯方法及TDC在新系统中的应用。
-
关键词
工艺数字控制装置
基础自动化
连续功能块图
过程数据分析装置
全局数据存储器
-
Keywords
technology and digital control (TDC)
basic automation
continuous functional chart (CFC)
process data analysis(PDA)
global data memory(GDM)
-
分类号
TP39
[自动化与计算机技术—计算机应用技术]
-
-
题名并行算法中指针转移技术解析
- 8
-
-
作者
重剑无锋
-
出处
《中文信息(程序春秋)》
2003年第10期65-69,共5页
-
文摘
我一直认为算法与数据结构是编程的第一道门槛,跨过去也许就是一片开阔。如果连门都进不了,又何谈登堂入室?在本文中我们就“并行算法中的指针转移技术”进行一番解析,希望能对读者朋友有所帮助。
-
关键词
并行算法
指针转移
PRAM模型
全局存储器
响应处理器
欧拉回路技术
EREW算法
-
分类号
TP312
[自动化与计算机技术—计算机软件与理论]
-