期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
GPU上不同存储器上CUDA程序功耗分析
1
作者 华锋亮 《信息与电脑》 2016年第3期61-62,共2页
针对GPU追求高性能引起的功耗问题,通过分析CUDA的存储模型,提出了将应用程序的变量分别存储在全局存储器和共享存储器的方法对比二者功耗的差异。实验以CUDA实现向量加法为例,利用模拟器模拟这两种方法下的应用程序内核功耗,并对结果... 针对GPU追求高性能引起的功耗问题,通过分析CUDA的存储模型,提出了将应用程序的变量分别存储在全局存储器和共享存储器的方法对比二者功耗的差异。实验以CUDA实现向量加法为例,利用模拟器模拟这两种方法下的应用程序内核功耗,并对结果进行对比和分析。 展开更多
关键词 图形处理器(GPU) 共享存储器 全局存储器 功耗 性能
下载PDF
基于GPU的K-近邻算法实现 被引量:3
2
作者 田盼 华蓓 陆李 《计算机工程》 CAS CSCD 北大核心 2015年第2期189-192,198,共5页
K-近邻计算在数据集规模较大时计算复杂度较高,因此,利用图形处理器(GPU)强大的并行计算能力对K-近邻算法进行加速。在分析现有K-近邻算法的基础上,针对该算法时间开销过大的问题,结合GPU的体系结构特征实现基于GPU的K-近邻算法。利用... K-近邻计算在数据集规模较大时计算复杂度较高,因此,利用图形处理器(GPU)强大的并行计算能力对K-近邻算法进行加速。在分析现有K-近邻算法的基础上,针对该算法时间开销过大的问题,结合GPU的体系结构特征实现基于GPU的K-近邻算法。利用全局存储器的合并访问特性,提高GPU全局存储器访问数据的效率,通过事先过滤数据的方法来减少参与排序的数据量,进而减少排序阶段的线程串行化时间。在KDD,Poker,Covertype 3个数据集上进行实验,结果表明,该实现方法在距离计算阶段每秒执行的浮点运算次数为266.37×109次,而排序阶段为26.47×109次,优于已有方法。 展开更多
关键词 K-近邻问题 图形处理器 并行计算 算法加速 合并访问 全局存储器
下载PDF
基于GPU的并行计算性能分析模型 被引量:3
3
作者 王卓薇 程良伦 赵武清 《计算机科学》 CSCD 北大核心 2014年第1期31-38,共8页
针对GPU并行计算领域缺少精确的性能分析模型和有针对性的性能优化方法,提出一种基于GPU的并行计算性能定量分析模型,其通过对指令流水线、共享存储器访存、全局存储器访存的性能建模,来定量分析并行程序,帮助程序员找到程序运行瓶颈,... 针对GPU并行计算领域缺少精确的性能分析模型和有针对性的性能优化方法,提出一种基于GPU的并行计算性能定量分析模型,其通过对指令流水线、共享存储器访存、全局存储器访存的性能建模,来定量分析并行程序,帮助程序员找到程序运行瓶颈,进行有效的性能优化。实验部分通过3个具有代表性的实际应用(稠密矩阵乘法、三对角线性方程组求解、稀疏矩阵矢量乘法)的性能分析证明了该模型的实用性,并有效地实现了算法的优化。 展开更多
关键词 GPU 性能定量分析模型 指令流水线 共享存储器访存 全局存储器访存
下载PDF
GPU矩阵乘法的性能定量分析模型 被引量:1
4
作者 尹孟嘉 许先斌 +1 位作者 熊曾刚 张涛 《计算机科学》 CSCD 北大核心 2015年第12期13-17,22,共6页
性能评价和优化是设计高效率并行程序必不可少的重要工作,存储系统的性能高低直接影响到处理器的整体性能。利用GPGPU-Sim对GPU的存储层次结构进行了模拟,找出了SM数量与存储控制器数量之间最佳配置关系。矩阵乘法是科学计算领域中的基... 性能评价和优化是设计高效率并行程序必不可少的重要工作,存储系统的性能高低直接影响到处理器的整体性能。利用GPGPU-Sim对GPU的存储层次结构进行了模拟,找出了SM数量与存储控制器数量之间最佳配置关系。矩阵乘法是科学计算领域中的基本组成部分,是一种具有计算和访存密集特点的典型应用,其性能是GPU高性能计算的一个重要指标。性能模型作为并行系统性能评价的新的技术解决方案,具有许多其它性能评价方法无法比拟的优势。建立了一个性能模型,模型通过对指令流水线、共享存储器访存、全局存储器访存进行定量分析,找到了程序运行瓶颈,提高了执行速度。实验证明,该模型具有实用性,并有效地实现了矩阵乘法的优化。 展开更多
关键词 GPU GPGPU-Sim 矩阵乘法 性能定量分析模型 指令流水线 共享存储器访存 全局存储器访存
下载PDF
网格资源分配管理的问题研究及模型设计
5
作者 王一夫 陈松乔 范国闯 《计算机应用研究》 CSCD 北大核心 2005年第10期85-87,共3页
介绍了网格资源分配管理,探讨了网格资源分配管理的关键技术,最后得出了一个在并行系统中的网格资源分配管理的模型。
关键词 资源分配管理者 动态更新请求在线协同分配器 资源描述语言 元计算目录服务 执行管理 全局访问二级存储器
下载PDF
TDC在唐钢1580mm粗轧生产线中的应用 被引量:3
6
作者 宁勇亮 吴亚军 屈尔庆 《自动化技术与应用》 2010年第11期119-121,共3页
介绍TDC(Technology and Drive Control,工艺和驱动控制系统)在唐钢1580mm粗轧基础自动化的基本情况,主要介绍西门子SIMATIC TDC的硬件设备组成、软件环境和与其他设备的通讯方法及在生产线中的应用。
关键词 基础自动化 连续功能块 全局数据存储器
下载PDF
TDC在宝钢2050粗轧生产线的应用 被引量:1
7
作者 王诚 《自动化与仪表》 2006年第4期57-59,66,共4页
介绍宝钢2050粗轧基础自动化改造的基本情况,重点介绍了西门子新一代自动化设备SIM ATIC TDC的硬件设备组成、软件环境和与其他自动化设备的通讯方法及TDC在新系统中的应用。
关键词 工艺数字控制装置 基础自动化 连续功能块图 过程数据分析装置 全局数据存储器
下载PDF
并行算法中指针转移技术解析
8
作者 重剑无锋 《中文信息(程序春秋)》 2003年第10期65-69,共5页
我一直认为算法与数据结构是编程的第一道门槛,跨过去也许就是一片开阔。如果连门都进不了,又何谈登堂入室?在本文中我们就“并行算法中的指针转移技术”进行一番解析,希望能对读者朋友有所帮助。
关键词 并行算法 指针转移 PRAM模型 全局存储器 响应处理器 欧拉回路技术 EREW算法
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部