期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
基于GPU的数字下变频累积误差控制方法 被引量:2
1
作者 李超 焦义文 +2 位作者 傅诗媛 高泽夫 毛飞龙 《系统工程与电子技术》 EI CSCD 北大核心 2023年第4期965-972,共8页
针对数字下变频系统中高速数据处理实时性需求,设计了基于中央处理器(central processing unit,CPU)+图形处理单元(graphic processing unit,GPU)的异构平台数字下变频处理算法,并完成了相应并行程序设计,进行了实际数据验证。鉴于GPU... 针对数字下变频系统中高速数据处理实时性需求,设计了基于中央处理器(central processing unit,CPU)+图形处理单元(graphic processing unit,GPU)的异构平台数字下变频处理算法,并完成了相应并行程序设计,进行了实际数据验证。鉴于GPU运算采用单精度浮点数格式进行数据处理,进行长时程数据处理过程中,会产生浮点数舍入误差累积,导致结果的不准确不可靠,设计了联合相位循环归零法和无误差变换补偿法,实现了浮点数舍入误差的控制与补偿。数据测试结果表明,所提方法可将相位误差控制在10-11rad以内,且不随时间累积,计算结果准确可靠。 展开更多
关键词 图形处理单元 舍入误差 累积误差 无误差变换
下载PDF
GBLHT:一种GPU加速的批量插入线性哈希表 被引量:2
2
作者 黄玉龙 奚建清 +2 位作者 张平健 方晓霖 刘勇 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2012年第4期49-56,共8页
为改善线性哈希表这一有效索引结构的插入性能,在分析现有方法的基础上,结合CUDA并行编程模型,设计并实现了一种基于GPU的批量插入线性哈希表GBLHT;借助原子函数atomicAdd,GBLHT可以充分利用GPU强大的并行吞吐量来实现大规模记录的无锁... 为改善线性哈希表这一有效索引结构的插入性能,在分析现有方法的基础上,结合CUDA并行编程模型,设计并实现了一种基于GPU的批量插入线性哈希表GBLHT;借助原子函数atomicAdd,GBLHT可以充分利用GPU强大的并行吞吐量来实现大规模记录的无锁批量插入;通过实验对比传统串行插入方法、CPU批量插入方法以及GBLHT的插入性能,发现在不同参数设置条件下,GBLHT的插入性能比传统串行方式提升了7~14倍,与4线程的CPU批量插入方法相比则提升了3~6倍. 展开更多
关键词 线性哈希表 图形加速器 GPU通用计算 无锁批量插入 内存数据索引结构 原子函数atomicAdd
下载PDF
无网格Galerkin法GPU加速并行计算及其应用 被引量:1
3
作者 龚曙光 刘奇良 +2 位作者 卢海山 周志勇 张佳 《计算力学学报》 CAS CSCD 北大核心 2015年第6期745-751,共7页
针对无网格Galerkin法计算耗时的问题,采用逐节点对法来组装刚度矩阵、共轭梯度法求解基于CSR格式存储的稀疏线性方程组,提出了一种利用罚函数法施加本质边界条件的EFG法GPU加速并行算法,给出了刚度矩阵和惩罚刚度矩阵的统一格式,以及GP... 针对无网格Galerkin法计算耗时的问题,采用逐节点对法来组装刚度矩阵、共轭梯度法求解基于CSR格式存储的稀疏线性方程组,提出了一种利用罚函数法施加本质边界条件的EFG法GPU加速并行算法,给出了刚度矩阵和惩罚刚度矩阵的统一格式,以及GPU加速并行算法的流程图。编写了基于CUDA构架平台的GPU程序,且在NVIDIA GeForce GTX 660显卡上通过数值算例对所提算法进行了性能测试与分析比较,探讨了影响加速比的因素。算例结果验证了所提算法的可行性,并在满足计算精度的前提下,其加速比最大可达17倍;同时线性方程组的求解对加速比起决定性影响。 展开更多
关键词 无网格GALERKIN法 GPU加速 并行计算 CUDA
下载PDF
基于镶嵌的无缝大规模地形生成实现 被引量:1
4
作者 徐冬 《广西民族大学学报(自然科学版)》 CAS 2013年第1期70-74,共5页
针对大规模地形生成计算量大和模拟效果欠理想的问题,用DirectX 11镶嵌和两次贴图置换实现地形渲染.运用合理的镶嵌因子计算方法解决非均匀大小面片裂缝问题,可以生成与视点相关连续细节层次简化技术结合良好的无缝地形.发挥了GPU的计... 针对大规模地形生成计算量大和模拟效果欠理想的问题,用DirectX 11镶嵌和两次贴图置换实现地形渲染.运用合理的镶嵌因子计算方法解决非均匀大小面片裂缝问题,可以生成与视点相关连续细节层次简化技术结合良好的无缝地形.发挥了GPU的计算优势,取得较好模拟效果并显著提高了运算速度. 展开更多
关键词 GPU镶嵌 无缝地形 大规模地形 地形LOD
下载PDF
一种快速消除失真的虚拟视点合成方法 被引量:2
5
作者 姚莉 李小敏 韩应栋 《图学学报》 CSCD 北大核心 2017年第4期566-576,共11页
基于深度图的绘制(DIBR)技术是合成虚拟视点图像的有效方法,但是合成的图像往往存在失真,最主要的问题是包含"伪影"和大小不等的空洞。针对"伪影"问题,先对参考视点图像进行色彩校正,并综合基于深度的彩色图融合和... 基于深度图的绘制(DIBR)技术是合成虚拟视点图像的有效方法,但是合成的图像往往存在失真,最主要的问题是包含"伪影"和大小不等的空洞。针对"伪影"问题,先对参考视点图像进行色彩校正,并综合基于深度的彩色图融合和彩色图直接融合两种方式融合图像,以减弱"伪影"效应;针对映射后出现的小空洞,采用反向映射到参考图像的方式进行填充;针对大的空洞,采用图像修复的方式,结合深度图更好地填补空洞,但是图像修复是一个耗时的过程,为此将图像修复算法并行化,利用统一计算设备架构(CUDA)并行计算,来加速空洞填补过程。实验结果表明,针对"伪影"问题的处理及基于图像修复的空洞填补可以有效地提高虚拟视点图像合成质量,同时基于CUDA实现的并行图像修复算法也大幅降低了空洞填补时间。 展开更多
关键词 自由视点视频 视点合成 图像修复 GPU加速
下载PDF
GPU加速的差分进化粒子滤波算法 被引量:4
6
作者 曹洁 黄开杰 王进花 《计算机应用研究》 CSCD 北大核心 2018年第7期1965-1969,共5页
为了解决实时系统中粒子滤波的计算复杂性问题,提出了一种零bank冲突并行规约的差分进化粒子滤波方法。该方法首先分析了并行差分进化粒子滤波算法在GPU中的内存访问模式,根据粒子滤波器的均方根误差与内存访问bank(存储体)冲突度成正... 为了解决实时系统中粒子滤波的计算复杂性问题,提出了一种零bank冲突并行规约的差分进化粒子滤波方法。该方法首先分析了并行差分进化粒子滤波算法在GPU中的内存访问模式,根据粒子滤波器的均方根误差与内存访问bank(存储体)冲突度成正比的关系,提出了一种去除bank冲突的有填充寻址的差分进化粒子滤波算法,降低了计算复杂度。将该算法在NVIDIA GTX960 GPU中实现,与串行差分进化粒子滤波算法进行比较。实验表明,随着粒子数增加,计算量以指数增加,采用GPU加速的跟踪算法的执行时间明显减少,有效提高了跟踪精度,降低了计算时间。 展开更多
关键词 GPU 粒子滤波 差分进化 并行规约 零内存访问冲突
下载PDF
基于GPU的非标记定量软件QuantWiz并行化实现
7
作者 费辉 张云泉 王靖 《计算机科学》 CSCD 北大核心 2012年第6期285-288,共4页
QuantWiz是一款基于质谱的非标记定量软件,可很好地应用于定量蛋白质组学。实验数据的日益增大,使定量的计算量巨大,耗费时间长。GPU以几百GFlops甚至上TFlops的运算能力,为定量蛋白质组学这样的计算密集型应用提供了良好的加速方案。对... QuantWiz是一款基于质谱的非标记定量软件,可很好地应用于定量蛋白质组学。实验数据的日益增大,使定量的计算量巨大,耗费时间长。GPU以几百GFlops甚至上TFlops的运算能力,为定量蛋白质组学这样的计算密集型应用提供了良好的加速方案。对QuantWiz软件做了深入的研究与分析,找到了软件性能的热点模块所在,提出了该软件在GPU上的加速方案———GPU-QuantWiz,并进行了实现。性能测试显示,在Tesla C1060上,该方案的平均加速比达到9.66倍,得到了良好的加速效果。同时,该方案还可以扩展到两块及以上的GPU上,具有良好的可扩展性。 展开更多
关键词 非标记定量 蛋白质组 QuantWiz GPU 并行计算
下载PDF
基于深度可分离的多尺度Lw-YOLO轻量化人脸检测网络 被引量:1
8
作者 陈伟民 段锦 +2 位作者 于津强 吴杰 陈宇 《计算机应用与软件》 北大核心 2022年第12期195-200,251,共7页
针对目前神经网络模型计算复杂,在无GPU嵌入式平台的模型检测精度较低的问题,提出一种可在树莓派3B+上检测的轻量化人脸检测网络Lw-YOLO(Lightweight-YOLO)。此网络基于YOLO-LITE模型,利用深度可分离卷积替代传统卷积,有效地减少网络计... 针对目前神经网络模型计算复杂,在无GPU嵌入式平台的模型检测精度较低的问题,提出一种可在树莓派3B+上检测的轻量化人脸检测网络Lw-YOLO(Lightweight-YOLO)。此网络基于YOLO-LITE模型,利用深度可分离卷积替代传统卷积,有效地减少网络计算量并提升网络深度;增加多尺度预测模块,为预测层提供丰富的语义信息,提高网络精度。实验结果表明,训练得出的网络模型大小只有3.1 MB,在WiderFace人脸数据集上取得77.13%的平均精度,比原模型高23.22%,更适合无GPU的嵌入式平台。 展开更多
关键词 深度可分离 多尺度 无GPU 轻量化 人脸检测
下载PDF
基于图形处理器的高性能跳表(Skiplist)数据结构 被引量:2
9
作者 李怀明 邓仰东 《微电子学与计算机》 CSCD 北大核心 2014年第12期1-5,共5页
提出了一种高效率、适合GPU的跳表结构及其相应例程,核心思想是将包含指针的操作转化为数组操作,从而充分发挥GPU的计算能力.实验结果证明,该数据结构的插入和删除操作相对目前最好的GPU结果分别改善6.8倍和9.6倍.
关键词 跳表 图形处理器 并行数据结构 无锁
下载PDF
CPU/GPU系统上存储高效的RNA二级结构预测算法 被引量:2
10
作者 郑明 钟诚 《小型微型计算机系统》 CSCD 北大核心 2014年第5期1080-1084,共5页
通过建立映射变换函数来改进基于最小自由能的RNA二级结构预测计算模型,分析证明了改进后的计算模型与原计算模型的等价性,利用改进后的计算模型使得GPU每个warp线程束内的线程并行计算矩阵元素时其所需的数据处于全局存储器同一行中,... 通过建立映射变换函数来改进基于最小自由能的RNA二级结构预测计算模型,分析证明了改进后的计算模型与原计算模型的等价性,利用改进后的计算模型使得GPU每个warp线程束内的线程并行计算矩阵元素时其所需的数据处于全局存储器同一行中,以支持直接并行读取矩阵元素,显著地减少多线程并行访问全局存储器的次数;充分利用GPU纹理存储器、共享存储器及常量存储器,以减少查找表的时间;设计实现多核CPU/单GPU系统、多核CPU/多GPU系统上存储高效的RNA二级结构预测并行算法.实验结果表明,与已有的RNA二级结构预测算法相比,本文提出的算法效率更高. 展开更多
关键词 RNA二级结构预测 GPU计算 并行算法 动态规划 最小自由能
下载PDF
一种高图像质量的虚拟视点绘制方法及GPU加速 被引量:6
11
作者 陈璐瑶 陈思洁 +1 位作者 岑宽 朱威 《小型微型计算机系统》 CSCD 北大核心 2020年第10期2212-2218,共7页
自由视点视频允许用户自由选择观看视角,给人带来传统视频无法比拟的交互式视觉体验.本文针对自由视点视频实时显示应用,提出了一种高图像质量的虚拟视点绘制方法,并对其进行GPU加速.首先,将参考视点深度图向前映射得到虚拟视点深度图,... 自由视点视频允许用户自由选择观看视角,给人带来传统视频无法比拟的交互式视觉体验.本文针对自由视点视频实时显示应用,提出了一种高图像质量的虚拟视点绘制方法,并对其进行GPU加速.首先,将参考视点深度图向前映射得到虚拟视点深度图,再对该深度图进行中值滤波以减少小空洞;然后对滤波后的深度图进行反向映射得到初始的虚拟视点彩色图像;接着对空洞掩模图进行基于边界检测的膨胀处理,以消除虚假边缘,并融合经过亮度校正后的两幅虚拟视点图像,以填充大空洞;最后采用考虑深度的插值方法填补剩余的空洞,提升虚拟视点的图像质量.此外,本文进一步采用CUDA编程技术,将虚拟视点绘制的主要计算都放在GPU内进行,减少CPU和GPU之间的数据拷贝,并在每个计算环节为每个像素单独分配线程,实现像素级的并行处理.实验结果表明,本文方法的主客观图像质量优于现有方法,并且经过GPU加速之后,运行速度达到实时处理的要求. 展开更多
关键词 自由视点视频 虚拟视点绘制 CUDA编程 GPU加速
下载PDF
基于GPU的结构静力拓扑优化设计方法
12
作者 吴超 《河南科技》 2022年第10期11-15,共5页
针对连续体结构拓扑优化存在的计算量大、计算效率低等问题,开展了基于GPU并行计算的大规模结构静力拓扑优化方法研究。首先,为了减少有限元分析的迭代次数,引入了雅可比(Jacobi)对角线预处理器,研究基于共轭梯度法和预处理技术的结构... 针对连续体结构拓扑优化存在的计算量大、计算效率低等问题,开展了基于GPU并行计算的大规模结构静力拓扑优化方法研究。首先,为了减少有限元分析的迭代次数,引入了雅可比(Jacobi)对角线预处理器,研究基于共轭梯度法和预处理技术的结构有限元并行计算方法。其次,基于单元免组装技术,结合并行迭代计算方法,研究基于GPU的结构静力拓扑优化并行计算方法。在完成上述方法的Matlab和C++并行计算核函数编程后,进行了大量的算例考核。通过给出的算例来验证提出方法的有效性和计算效率,结果表明,该方法具有重要的理论价值和工程应用前景。 展开更多
关键词 拓扑优化 GPU并行 免组装方法 共轭梯度法 预处理器
下载PDF
Real-time accurate Free-Form Deformation in terms of triangular Bézier surfaces
13
作者 CUI Yuan-min FENG Jie-qing 《Applied Mathematics(A Journal of Chinese Universities)》 SCIE CSCD 2014年第4期455-467,共13页
We implemented accurate FFD in terms of triangular Bezier surfaces as matrix multiplications in CUDA and rendered them via OpenGL. Experimental results show that the proposed algorithm is more efficient than the previ... We implemented accurate FFD in terms of triangular Bezier surfaces as matrix multiplications in CUDA and rendered them via OpenGL. Experimental results show that the proposed algorithm is more efficient than the previous GPU acceleration algorithm and tessel- lation shader algorithms. 展开更多
关键词 accurate Free-Form Deformation GPU acceleration CUDA triangular B@zier surface.
下载PDF
基于GPU的NCO相位累积误差消除方法 被引量:1
14
作者 陈永强 万张云虹 《遥测遥控》 2021年第6期47-56,共10页
针对航天测控系统高精度数控振荡器NCO实现需求,利用图形处理单元GPU的高灵活性和高效并行数据处理能力,设计了一种基于GPU的高效高精度NCO实现方法。针对NCO计算中浮点数相位累加运算累积误差大的共性问题,利用无误差变换技术设计了基... 针对航天测控系统高精度数控振荡器NCO实现需求,利用图形处理单元GPU的高灵活性和高效并行数据处理能力,设计了一种基于GPU的高效高精度NCO实现方法。针对NCO计算中浮点数相位累加运算累积误差大的共性问题,利用无误差变换技术设计了基于Fast2Sum算法和2Sum算法的单精度浮点数相位累积误差综合补偿算法,并利用该算法为NCO系统设计了相位累积求和算子。最后,基于GPU平台对该方法进行了验证。试验结果表明,该方法能够将基于GPU的NCO系统浮点数相位累积误差控制在1×10^(–5) rad量级。 展开更多
关键词 GPU 数字下变频 数控振荡器 累积误差 无误差变换
下载PDF
On-line Free-viewpoint Video:From Single to Multiple View Rendering
15
作者 Vincent Nozick Hideo Saito 《International Journal of Automation and computing》 EI 2008年第3期257-267,共11页
In recent years, many image-based rendering techniques have advanced from static to dynamic scenes and thus become video-based rendering (VBR) methods. But actually, only a few of them can render new views on-line. ... In recent years, many image-based rendering techniques have advanced from static to dynamic scenes and thus become video-based rendering (VBR) methods. But actually, only a few of them can render new views on-line. We present a new VBR system that creates new views of a live dynamic scene. This system provides high quality images and does not require any background subtraction. Our method follows a plane-sweep approach and reaches real-time rendering using consumer graphic hardware, graphics processing unit (GPU). Only one computer is used for both acquisition and rendering. The video stream acquisition is performed by at least 3 webcams. We propose an additional video stream management that extends the number of webcams to 10 or more. These considerations make our system low-cost and hence accessible for everyone. We also present an adaptation of our plane-sweep method to create simultaneously multiple views of the scene in real-time. Our system is especially designed for stereovision using autostereoscopic displays. The new views are computed from 4 webcams connected to a computer and are compressed in order to be transfered to a mobile phone. Using GPU programming, our method provides up to 16 images of the scene in real-time. The use of both GPU and CPU makes this method work on only one consumer grade computer. 展开更多
关键词 Video-based rendering (VBR) free-viewpoint video view interpolation graphics processing unit (GPU) WEBCAM STEREOVISION autostereoscopic.
下载PDF
Simulation of dynamic fluid-solid interactions with an improved direct-forcing immersed boundary method 被引量:6
16
作者 Shengbin Di Wei Ge 《Particuology》 SCIE EI CAS CSCD 2015年第1期22-34,共13页
Dynamic fluid-solid interactions are widely found in chemical engineering, such as in particle-laden flows, which usually contain complex moving boundaries. The immersed boundary method (IBM) is a convenient approac... Dynamic fluid-solid interactions are widely found in chemical engineering, such as in particle-laden flows, which usually contain complex moving boundaries. The immersed boundary method (IBM) is a convenient approach to handle fluid-solid interactions with complex geometries. In this work, Uhlmann's direct-forcing IBM is improved and implemented on a supercomputer with CPU-GPU hybrid architec- ture. The direct-forcing IBM is modified as follows: the Poisson's equation for pressure is solved before evaluation of the body force, and the force is only distributed to the Cartesian grids inside the immersed boundary. A multidirect forcing scheme is used to evaluate the body force. These modifications result in a divergence-free flow field in the fluid domain and the no-slip boundary condition at the immersed boundary simultaneously. This method is implemented in an explicit finite-difference fractional-step scheme, and validated by 2D simulations of lid-driven cavity flow, Couette flow between two concentric cylinders and flow over a circular cylinder. Finally, the method is used to simulate the sedimentation of two circular particles in a channel. The results agree very well with previous experimental and numerical data, and are more accurate than the conventional direct-forcing method, especially in the vicinity of a moving boundary. 展开更多
关键词 Immersed boundary method Fluid-solid interactions No-slip condition Divergence-free condition CPU-GPU hybrid architecture
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部