期刊文献+
共找到128篇文章
< 1 2 7 >
每页显示 20 50 100
Single-particle 3D reconstruction on specialized stream architecture and comparison with GPGPUs
1
作者 段勃 Wang Wendi +1 位作者 Tan Guangming Meng Dan 《High Technology Letters》 EI CAS 2014年第4期333-345,共13页
The wide acceptance and data deluge in medical imaging processing require faster and more efficient systems to be built.Due to the advances in heterogeneous architectures recently,there has been a resurgence in the fi... The wide acceptance and data deluge in medical imaging processing require faster and more efficient systems to be built.Due to the advances in heterogeneous architectures recently,there has been a resurgence in the first research aimed at FPGA-based as well as GPGPU-based accelerator design.This paper quantitatively analyzes the workload,computational intensity and memory performance of a single-particle 3D reconstruction application,called EMAN,and parallelizes it on CUDA GPGPU architectures and decouples the memory operations from the computing flow and orchestrates the thread-data mapping to reduce the overhead of off-chip memory operations.Then it exploits the trend towards FPGA-based accelerator design,which is achieved by offloading computingintensive kernels to dedicated hardware modules.Furthermore,a customized memory subsystem is also designed to facilitate the decoupling and optimization of computing dominated data access patterns.This paper evaluates the proposed accelerator design strategies by comparing it with a parallelized program on a 4-cores CPU.The CUDA version on a GTX480 shows a speedup of about 6 times.The performance of the stream architecture implemented on a Xilinx Virtex LX330 FPGA is justified by the reported speedup of 2.54 times.Meanwhile,measured in terms of power efficiency,the FPGA-based accelerator outperforms a 4-cores CPU and a GTX480 by 7.3 times and 3.4 times,respectively. 展开更多
关键词 Stream architecture general purpose graphic processing unit GPGPU) field programmable gate array (FPGA) CRYO-EM
下载PDF
PartialRC: A Partial Recomputing Method for Efficient Fault Recovery on GPGPUs 被引量:1
2
作者 徐新海 杨学军 +2 位作者 薛京灵 林宇斐 林一松 《Journal of Computer Science & Technology》 SCIE EI CSCD 2012年第2期240-255,共16页
GPGPUs are increasingly being used to as performance accelerators for HPC (High Performance Computing) applications in CPU/GPU heterogeneous computing systems, including TianHe-1A, the world's fastest supercomputer... GPGPUs are increasingly being used to as performance accelerators for HPC (High Performance Computing) applications in CPU/GPU heterogeneous computing systems, including TianHe-1A, the world's fastest supercomputer in the TOP500 list, built at NUDT (National University of Defense Technology) last year. However, despite their performance advantages, GPGPUs do not provide built-in fault-tolerant mechanisms to offer reliability guarantees required by many HPC applications. By analyzing the SIMT (single-instruction, multiple-thread) characteristics of programs running on GPGPUs, we have developed PartialRC, a new checkpoint-based compiler-directed partial recomputing method, for achieving efficient fault recovery by leveraging the phenomenal computing power of GPGPUs. In this paper, we introduce our PartialRC method that recovers from errors detected in a code region by partially re-computing the region, describe a checkpoint-based faulttolerance framework developed on PartialRC, and discuss an implementation on the CUDA platform. Validation using a range of representative CUDA programs on NVIDIA GPGPUs against FullRC (a traditional full-recomputing Checkpoint-Rollback-Restart fault recovery method for CPUs) shows that PartialRC reduces significantly the fault recovery overheads incurred by FullRC, by 73.5% when errors occur earlier during execution and 74.6% when errors occur later on average. In addition, PartialRC also reduces error detection overheads incurred by FullRC during fault recovery while incurring negligible performance overheads when no fault happens. 展开更多
关键词 GPGPU partial recomputing fault tolerance CUDA CHECKPOINTING
原文传递
Memory bandwidth optimization of SpMV on GPGPUs
3
作者 Chenggang Clarence YAN Hui YU +5 位作者 Weizhi XU Yingping ZHANG Bochuan CHEN Zhu TIAN Yuxuan WANG Jian YIN 《Frontiers of Computer Science》 SCIE EI CSCD 2015年第3期431-441,共11页
It is an important task to improve performance for sparse matrix vector multiplication (SpMV), and it is a difficult task because of its irregular memory access. Gen- eral purpose GPU (GPGPU) provides high computi... It is an important task to improve performance for sparse matrix vector multiplication (SpMV), and it is a difficult task because of its irregular memory access. Gen- eral purpose GPU (GPGPU) provides high computing abil- ity and substantial bandwidth that cannot be fully exploited by SpMV due to its irregularity. In this paper, we propose two novel methods to optimize the memory bandwidth for SpMV on GPGPU. First, a new storage format is proposed to exploit memory bandwidth of GPU architecture more effi- ciently. The new storage format can ensure that there are as many non-zeros as possible in the format which is suitable to exploit the memory bandwidth of the GPU. Second, we pro- pose a cache blocking method to improve the performance of SpMV on GPU architecture. The sparse matrix is partitioned into sub-blocks that are stored in CSR format. With the block- ing method, the corresponding part of vector x can be reused in the GPU cache, so the time to access the global memory for vector x is reduced heavily. Experiments are carried out on three GPU platforms, GeForce 9800 GX2, GeForce GTX 480, and Tesla K40. Experimental results show that both new methods can efficiently improve the utilization of GPU mem- ory bandwidth and the performance of the GPU. 展开更多
关键词 GPGPU performance tuning SpMV cacheblocking memory bandwidth
原文传递
基于GPGPU-sim的多kernel场景下GPGPU性能优化实验方法
4
作者 张军 魏继桢 +2 位作者 沈凡凡 谭海 何炎祥 《实验技术与管理》 CAS 北大核心 2024年第7期87-93,共7页
该文介绍了基于GPGPU-sim的多kernel环境下GPGPU性能优化实验方法,旨在为初学者开展多kernenl场景下GPGPU性能优化研究提供实验方法参考,也能为计算机系统结构教学提供案例。文中重点分析讨论了基于GPGPU-sim模拟器、多kernel场景下的... 该文介绍了基于GPGPU-sim的多kernel环境下GPGPU性能优化实验方法,旨在为初学者开展多kernenl场景下GPGPU性能优化研究提供实验方法参考,也能为计算机系统结构教学提供案例。文中重点分析讨论了基于GPGPU-sim模拟器、多kernel场景下的一种自适应线程块调度方法的改进思想、实验方法及过程,还对GPGPU的微系统结构、GPGPU-sim模拟器及源代码结构进行了介绍。实验结果表明,该文阐述的实验方法可行,相对于基准方法,该文提出的改进策略可以提升多kernel场景下GPGPU的执行效率。 展开更多
关键词 多kernel场境 GPGPU GPGPU-sim 性能优化
下载PDF
面向GPU并行编程的线程同步综述
5
作者 高岚 赵雨晨 +2 位作者 张伟功 王晶 钱德沛 《软件学报》 EI CSCD 北大核心 2024年第2期1028-1047,共20页
并行计算已成为主流趋势.在并行计算系统中,同步是关键设计之一,对硬件性能的充分利用至关重要.近年来,GPU(graphic processing unit,图形处理器)作为应用最为广加速器得到了快速发展,众多应用也对GPU线程同步提出更高要求.然而,现有GP... 并行计算已成为主流趋势.在并行计算系统中,同步是关键设计之一,对硬件性能的充分利用至关重要.近年来,GPU(graphic processing unit,图形处理器)作为应用最为广加速器得到了快速发展,众多应用也对GPU线程同步提出更高要求.然而,现有GPU系统却难以高效地支持真实应用中复杂的线程同步.研究者虽然提出了很多支持GPU线程同步的方法并取得了较大进展,但GPU独特的体系结构及并行模式导致GPU线程同步的研究仍然面临很多挑战.根据不同的线程同步目的和粒度对GPU并行编程中的线程同步进行分类.在此基础上,围绕GPU线程同步的表达和执行,首先分析总结GPU线程同步存在的难以高效表达、错误频发、执行效率低的关键问题及挑战;而后依据不同的GPU线程同步粒度,从线程同步表达方法和性能优化方法两个方面入手,介绍近年来学术界和产业界对GPU线程竞争同步及合作同步的研究,对现有研究方法进行分析与总结.最后,指出GPU线程同步未来的研究趋势和发展前景,并给出可能的研究思路,从而为该领域的研究人员提供参考. 展开更多
关键词 通用图形处理器(GPGPU) 并行编程 线程同步 性能优化
下载PDF
一种节省资源的矩阵运算单元硬件微架构设计
6
作者 潘于 田映辉 +2 位作者 张伟 杨建磊 申奇 《现代电子技术》 北大核心 2024年第5期160-166,共7页
为了实现人工智能和高性能计算在不同应用领域下的快速运算,需借助人工智能加速器(NPU)或者通用图形处理器(GPGPU)对其进行加速。由于矩阵运算是人工智能和高性能计算的核心运算,文中提出一种节省资源的矩阵运算单元架构的实现方案。通... 为了实现人工智能和高性能计算在不同应用领域下的快速运算,需借助人工智能加速器(NPU)或者通用图形处理器(GPGPU)对其进行加速。由于矩阵运算是人工智能和高性能计算的核心运算,文中提出一种节省资源的矩阵运算单元架构的实现方案。通过对矩阵运算单元中每个子运算单元中的乘法器和加法器数量进行扩展,并将输入数据按行列广播到矩阵运算单元上的各个子运算单元可实现对矩阵运算的加速。通过利用PE矩阵之间的数据共享,采用新型的PE矩阵互联方案,可达到在减少带宽资源的同时提升算力的目的。与现有NPU或GPGPU的矩阵运算实现方案相比,所提方案使用更少的加法器和寄存器即可实现相同的算力,且在更低的时钟延迟和带宽消耗下即可完成对相同规模矩阵运算的加速。 展开更多
关键词 人工智能 高性能计算 矩阵运算 节省资源 低时钟延迟 GPGPU
下载PDF
基于GPU的四维医学图像动态快速体绘制 被引量:13
7
作者 秦绪佳 王建奇 +2 位作者 朱思达 郑红波 徐晓刚 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2011年第11期1789-1798,共10页
传统的三维医学图像重建技术无法满足四维医学图像动态重建的需求,而四维医学图像庞大的数据量使传统重建技术很难实现高性能实时绘制.基于以上需求,提出了一种四维医学图像动态快速体绘制方法.首先采用GPU强大的并行计算能力,提出一种... 传统的三维医学图像重建技术无法满足四维医学图像动态重建的需求,而四维医学图像庞大的数据量使传统重建技术很难实现高性能实时绘制.基于以上需求,提出了一种四维医学图像动态快速体绘制方法.首先采用GPU强大的并行计算能力,提出一种基于GPU、利用CUDA技术实现的光线投射算法;然后分析了算法框架、体数据及计算结果的存储策略、线程分配和寻址策略,并给出了四维动态绘制的流程.该算法将每一条投射光线的计算分派到GPU的每一个线程中并行执行,在保证绘制质量不下降的情况下,相比传统的光线投射算法其性能得到较大程度的提高.实验结果表明,该算法可以实现较高的绘制性能和流畅的动态显示效果. 展开更多
关键词 四维医学图像 体绘制 光线投射 CUDA GPGPU
下载PDF
GPU异构系统中的存储层次和负载均衡策略研究 被引量:12
8
作者 马安国 成玉 +1 位作者 唐遇星 邢座程 《国防科技大学学报》 EI CAS CSCD 北大核心 2009年第5期38-43,共6页
GPU体系结构的革新和相应开发平台的发展使得GPU广泛地应用于科学计算领域。通过深入地分析GPU体系结构和存储层次的优缺点以及GPU上的关键性能特征,阐明了GPU体系结构、编程模型和存储层次之间的关系。针对GPU异构系统上的应用映射提... GPU体系结构的革新和相应开发平台的发展使得GPU广泛地应用于科学计算领域。通过深入地分析GPU体系结构和存储层次的优缺点以及GPU上的关键性能特征,阐明了GPU体系结构、编程模型和存储层次之间的关系。针对GPU异构系统上的应用映射提出三种基本负载均衡优化策略:预取、流化、任务划分。试验结果揭示了不同的优化因子与优化效率之间的具体关联。 展开更多
关键词 GPGPU 存储层次 负载均衡策略 流计算 任务划分
下载PDF
一种面向CPU-GPU异构系统的容错方法 被引量:6
9
作者 徐新海 杨学军 +2 位作者 林宇斐 林一松 唐滔 《软件学报》 EI CSCD 北大核心 2011年第10期2538-2552,共15页
近年来,为了缓解日益严重的功耗问题,异构并行体系结构已成为超级计算机发展的一个重要趋势.图形处理器(graphics processing unit,简称GPU)凭借其超高的计算性能和性能功耗比,作为一种高效的加速部件已被广泛应用于高性能计算领域.但是... 近年来,为了缓解日益严重的功耗问题,异构并行体系结构已成为超级计算机发展的一个重要趋势.图形处理器(graphics processing unit,简称GPU)凭借其超高的计算性能和性能功耗比,作为一种高效的加速部件已被广泛应用于高性能计算领域.但是,GPU先天的可靠性缺陷势必加剧超级计算机的可靠性问题.目前,国际上关于CPU-GPU异构系统容错技术的研究工作主要将GPU从异构系统中独立出来,以每次调用为粒度对其进行容错处理.设计了一种面向CPU-GPU异构系统的Lazy容错方法,给出了基于编译指导命令的容错框架及其约束,并讨论了相关的编译实现和优化方法,最后通过实验验证了该方法的正确性.实验结果表明,与现有的容错方法相比,利用所设计的LazyFT容错方法对GPGPU(general purpose computation on graphics hardware)程序进行容错处理,可以明显降低容错代价. 展开更多
关键词 GPGPU 异构系统 容错 Lazy策略 检查点
下载PDF
MDx差分攻击算法改进及GPGPU上的有效实现 被引量:5
10
作者 周林 韩文报 +1 位作者 祝卫华 王政 《计算机学报》 EI CSCD 北大核心 2010年第7期1177-1182,共6页
Hash函数广泛应用于商业、安全等领域,其中MDx系列Hash算法应用最为广泛.因此对MDx系列Hash算法的攻击在理论上和实际应用上都有重要的意义.自王小云教授提出差分攻击算法并攻破MD5、MD4等MDx系列算法以来,对该算法的研究日益受到关注.... Hash函数广泛应用于商业、安全等领域,其中MDx系列Hash算法应用最为广泛.因此对MDx系列Hash算法的攻击在理论上和实际应用上都有重要的意义.自王小云教授提出差分攻击算法并攻破MD5、MD4等MDx系列算法以来,对该算法的研究日益受到关注.文中以攻击MD5的差分攻击算法为例,改进了Klima提出的MD5隧道差分攻击算法,分析其在GPGPU上实现的可行性和技术要求并在Visualstudio6.0的环境下利用CUDA语言开发完成.算法的CUDA程序在GeForce9800GX2平台下运行,平均每1.35s能找到一对MD5碰撞.通过同4核Core2QuadQ9000(2.0GHz)PC上的实现相比较,在GeForce9800GX2上的实现能达到11.5倍的性价比. 展开更多
关键词 MD5 HASH函数 差分攻击 隧道技术 多消息修正方法 CUDA GPGPU Mersenne TWISTER
下载PDF
画幅扫描红外成像实时拼接中的光束法平差 被引量:6
11
作者 王雨曦 亓洪兴 +1 位作者 马彦鹏 葛明锋 《红外与激光工程》 EI CSCD 北大核心 2016年第1期155-160,共6页
光束法平差是遥感图像实时拼接系统的关键步骤,它需要消耗大量的运算时间,同时也决定了系统的拼接精度。针对画幅扫描红外成像实时拼接系统中的光束法平差算法,提出了一种实用的光束法平差策略,利用相邻扫描行图像的配准平差,将最新扫... 光束法平差是遥感图像实时拼接系统的关键步骤,它需要消耗大量的运算时间,同时也决定了系统的拼接精度。针对画幅扫描红外成像实时拼接系统中的光束法平差算法,提出了一种实用的光束法平差策略,利用相邻扫描行图像的配准平差,将最新扫描行图像依次配准到已拼接图像中,为拼接图像的实时更新奠定了基础。同时利用GPGPU对光束法平差算法进行了并行加速,在保证精度的情况下,提高了拼接算法速度。通过画幅扫描成像的实时平差实验,验证了算法的精度和实时性。 展开更多
关键词 光束法平差 GPGPU 画幅扫描 图像拼接
下载PDF
大规模稀疏线性方程组的GMRES-GPU快速求解算法 被引量:10
12
作者 柳有权 尹康学 吴恩华 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2011年第4期553-560,共8页
重开始广义极小残量法(GMRES)是求解大规模线性方程组的常用算法之一,具有收敛速度快、稳定性好等优点.文中基于CUDA将GMRES算法在GPU上进行并行算法实现,尤其针对稀疏矩阵矢量乘法运算,通过合并访问和共享内存策略相结合的手段使得算... 重开始广义极小残量法(GMRES)是求解大规模线性方程组的常用算法之一,具有收敛速度快、稳定性好等优点.文中基于CUDA将GMRES算法在GPU上进行并行算法实现,尤其针对稀疏矩阵矢量乘法运算,通过合并访问和共享内存策略相结合的手段使得算法效率大幅度提升.对于大规模数据集,在GeForce GTX 260上的运行结果相对于Intel Core 2 Quad CPU Q9400@2.66 GHz得到了平均40余倍的加速效果,相对于Intel Core i7 CPU 920@2.67 GHz也可得到平均20余倍的加速效果. 展开更多
关键词 CUDA GPGPU 重开始广义极小残量法 稀疏矩阵矢量乘法
下载PDF
GPU加速数据挖掘算法的研究 被引量:7
13
作者 刘琳 何剑锋 王红玲 《郑州大学学报(理学版)》 CAS 北大核心 2010年第2期31-34,共4页
分析了GPU的主要架构,在与CPU编程进行对比的同时,基于nVidia的CUDA(compute unified device ar-chitecture),改进了数据挖掘中常用的朴素贝叶斯算法,实现了GPU硬件加速.测试表明,在处理海量浮点数据的分类与排序中,利用图形处理器强大... 分析了GPU的主要架构,在与CPU编程进行对比的同时,基于nVidia的CUDA(compute unified device ar-chitecture),改进了数据挖掘中常用的朴素贝叶斯算法,实现了GPU硬件加速.测试表明,在处理海量浮点数据的分类与排序中,利用图形处理器强大的计算能力获得了较高的实时性.改进算法易于理解和操作,对于GPU在数据挖掘领域的应用具有一定的借鉴意义. 展开更多
关键词 GPGPU 朴素贝叶斯 CUDA 数据挖掘
下载PDF
GPGPU性能模型及应用实例分析 被引量:16
14
作者 韩博 周秉锋 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2009年第9期1219-1226,共8页
现代图形处理器(GPU)的高性能吸引了大量非图形应用,为了有效地进行性能预测和优化,提出一种GPU处理通用计算问题的性能模型.通过分析现代GPU并行架构和工作原理,将GPU的通用计算过程划分为数据获取、计算、输出和传输4个并列的阶段,结... 现代图形处理器(GPU)的高性能吸引了大量非图形应用,为了有效地进行性能预测和优化,提出一种GPU处理通用计算问题的性能模型.通过分析现代GPU并行架构和工作原理,将GPU的通用计算过程划分为数据获取、计算、输出和传输4个并列的阶段,结合程序特点和硬件规格对各阶段进行量化分析,完成性能预测.通过实验分析得出两大性能影响要素:计算强度和访问密度,并将其作为性能优化的基本准则.该模型被用于分析几种常见的图像和视频处理算法在GPU上的实现,包括高斯卷积、离散余弦变换和运动估计.实验结果表明,通过增大计算强度和访问密度,文中优化方案显著地降低了GPU上的执行时间,使得计算效率提升了4~10倍,充分说明了该模型在性能预测和优化方面的有效性. 展开更多
关键词 GPU GPGPU 图像处理 性能模型 DCT 卷积 运动估计
下载PDF
基于CUDA平台的遗传算法并行实现研究 被引量:10
15
作者 谭彩凤 马安国 邢座程 《计算机工程与科学》 CSCD 北大核心 2009年第A01期68-72,共5页
CUDA技术方便程序员在GPU上进行通用计算,但并没有提供随机数产生的应用接口。为此,本文提出并实现在CUDA开发平台上并行产生均匀随机数算法,测试证明算法可行。在此基础上优化基本遗传算法,并在GPU上并行实现其所有操作,提高其运行速... CUDA技术方便程序员在GPU上进行通用计算,但并没有提供随机数产生的应用接口。为此,本文提出并实现在CUDA开发平台上并行产生均匀随机数算法,测试证明算法可行。在此基础上优化基本遗传算法,并在GPU上并行实现其所有操作,提高其运行速度和准确度;分析了种群大小和遗传代数对此算法加速比及准确度的影响,并与MAT-LAB工具箱进行比较。实验表明,相比MATLAB遗传算法工具箱,基于CUDA平台实现的遗传算法性能更高,准确度更好。 展开更多
关键词 随机数 遗传算法 并行计算 GPGPU CUDA GPU
下载PDF
GPU通用计算模式在岩土工程中的应用 被引量:4
16
作者 刘明贵 刘绍波 张国华 《岩土力学》 EI CAS CSCD 北大核心 2010年第9期3019-3024,共6页
由于岩土工程地质条件的复杂性及其规模的不断增大,对大规模数值计算速度的要求越来越高。显卡核心单元(GPU)由于其硬件构造特殊,有着并行计算上的独特优势、高速浮点运算性能和超高的内存带宽,可以很好地解决大规模的科学计算速度问题... 由于岩土工程地质条件的复杂性及其规模的不断增大,对大规模数值计算速度的要求越来越高。显卡核心单元(GPU)由于其硬件构造特殊,有着并行计算上的独特优势、高速浮点运算性能和超高的内存带宽,可以很好地解决大规模的科学计算速度问题。文中介绍了GPU与CPU的硬件构架差异,总结了多核CPU、工作站等方式发展的局限性及GPU在并行运算方面的优势,详细阐述了GPU各类计算模式的发展特点及其成果,展示了其在坝区渗透特性中随机微分方程加速求解过程中的优越性,探讨了采用GPU进行大规模岩土工程数值计算的应用前景。 展开更多
关键词 GPGPU CUDAStream OPENCL 高性能计算 岩土工程
下载PDF
并行时空处理模型下的快速N-body算法 被引量:3
17
作者 王伟 曾栩鸿 +2 位作者 王福焕 傅丽丽 曾国荪 《计算机科学与探索》 CSCD 2011年第11期1006-1013,共8页
图形处理器(graphic processing unit,GPU)的最新发展已经能够以低廉的成本提供高性能的通用计算。基于GPU的CUDA(compute unified device architecture)和OpenCL(open computing language)编程模型为程序员提供了充足的类似于C语言的... 图形处理器(graphic processing unit,GPU)的最新发展已经能够以低廉的成本提供高性能的通用计算。基于GPU的CUDA(compute unified device architecture)和OpenCL(open computing language)编程模型为程序员提供了充足的类似于C语言的应用程序接口(application programming interface,API),便于程序员发挥GPU的并行计算能力。采用图形硬件进行加速计算,通过一种新的GPU处理模型——并行时间空间模型,对现有GPU上的N-body实现进行了分析,从而提出了一种新的GPU上快速仿真N-body问题的算法,并在AMD的HD Radeon 5850上进行了实现。实验结果表明,相对于CPU上的实现,获得了400倍左右的加速;相对于已有GPU上的实现,也获得了2至5倍的加速。 展开更多
关键词 N-BODY 并行计算 通用图形处理器(GPGPU) 时间空间模型
下载PDF
基于多GPU的深度神经网络训练算法 被引量:8
18
作者 顾乃杰 赵增 +1 位作者 吕亚飞 张致江 《小型微型计算机系统》 CSCD 北大核心 2015年第5期1042-1046,共5页
深度学习由于出色的识别效果在模式识别及机器学习领域受到越来越多的关注.作为深度神经网络算法的重要组成部分,误差反向传播算法的执行效率已经成为制约深度学习领域发展的瓶颈.提出一种基于Tesla K10 GPU的误差反向传播算法,该算法... 深度学习由于出色的识别效果在模式识别及机器学习领域受到越来越多的关注.作为深度神经网络算法的重要组成部分,误差反向传播算法的执行效率已经成为制约深度学习领域发展的瓶颈.提出一种基于Tesla K10 GPU的误差反向传播算法,该算法具有负载均衡,可扩展性高的特点.本算法充分利用PCI-E3.0传输特性,并结合peer-to-peer以及异步传输的特性以降低计算任务在划分和合并过程中带来的额外开销.除此之外,文章通过对算法流程的重构,实现算法数据相关性的解耦合,从而使得有更多的计算任务可用来掩盖传输过程.实验证明,该算法拥有双卡超过1.87的并行加速比,且算法执行过程中不会引入计算误差,可有效保证训练过程中的收敛效率,拥有理想的并行加速效果. 展开更多
关键词 深度学习 神经网络 GPGPU 并行算法
下载PDF
基于GPGPU的数字图像并行化预处理 被引量:10
19
作者 宋晓丽 王庆 《计算机测量与控制》 CSCD 北大核心 2009年第6期1169-1171,共3页
首先简要介绍了统一设备架构CUDA(Compute Unified Device Architecture)技术的背景、特点、内存模型,利用通用计算图形处理单元GPGPU(General Purpose GPU)及CUDA技术,实现了图像直方图均衡化和薄云去除的并行化处理,与传统的基于CPU... 首先简要介绍了统一设备架构CUDA(Compute Unified Device Architecture)技术的背景、特点、内存模型,利用通用计算图形处理单元GPGPU(General Purpose GPU)及CUDA技术,实现了图像直方图均衡化和薄云去除的并行化处理,与传统的基于CPU的方法相比,两个基于GPGPU的图像预处理操作的执行效率分别提高了40倍与80倍左右,在大规模实时性图像处理操作中,有很大的实用价值。 展开更多
关键词 GPGPU CUDA 直方图均衡 薄云去除 并行计算
下载PDF
一种视频运动仿真方法 被引量:2
20
作者 陈红倩 刘陈 +1 位作者 李凤霞 战守义 《系统仿真学报》 CAS CSCD 北大核心 2009年第19期6131-6134,共4页
为提高计算机虚拟角色的动作自然性与协调性,提出了一种将视频角色动作迁移到虚拟角色以提高运动仿真真实感的方法。该方法将视频角色动作转换为骨骼动作序列;通过动作时间和状态同步将动作迁移到2D虚拟角色上,使两角色动作时间同步且... 为提高计算机虚拟角色的动作自然性与协调性,提出了一种将视频角色动作迁移到虚拟角色以提高运动仿真真实感的方法。该方法将视频角色动作转换为骨骼动作序列;通过动作时间和状态同步将动作迁移到2D虚拟角色上,使两角色动作时间同步且在同一时间动作相同;使用基于曲线式骨骼的图像变形方法平滑变形2D虚拟角色,并使用GPGPU技术加速变形计算。实验证明,该方法可使用虚拟角色仿真视频角色运动,解决虚拟角色的动作生硬等缺陷,适用于基于视频的动画制作和拓扑结构相近的模型之间动作迁移。 展开更多
关键词 动作迁移 角色动画 图像变形 视频 GPGPU
下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部