期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
融合有向图集与并行架构的HEVC去块滤波 被引量:1
1
作者 揭月馨 刘浩 《计算机科学与探索》 CSCD 北大核心 2016年第9期1221-1228,共8页
针对高效视频编码(higheffici ency video coding,HEVC)的去块滤波,现有文献并没有深入研究其算法层和平台层之间的跨层并行实现机制.基于算法层的有向无环图集(directed acyclic graph set,DAGS)和平台层的通用并行计算架构(compu... 针对高效视频编码(higheffici ency video coding,HEVC)的去块滤波,现有文献并没有深入研究其算法层和平台层之间的跨层并行实现机制.基于算法层的有向无环图集(directed acyclic graph set,DAGS)和平台层的通用并行计算架构(compute unified device architecture,CUDA),针对HEVC去块滤波提出了一种跨层并行解码方案.所提方案通过分离图像帧的独立像素区域来减少对缓存的访问,并且降低了HEVC滤波过程中的时序依赖性,便于多核平台的并行处理.通过实验比较“串行”、“DAGS+多核CPU”、“DAGS+GPU”3种不同的HEVC去块滤波方案,结果表明,所提“DAGS+GPU”跨层并行滤波方案平均取得了11一24倍的解码加速比,在保证率失真性能相当的情况下显著减少了解码时间. 展开更多
关键词 去块滤波 有向无环图集 并行处理 多核平台 通用并行计算架构
下载PDF
CUDA并行加速的稀疏PCNN运动目标检测算法 被引量:1
2
作者 凌滨 邓艳 于士博 《计算机工程与设计》 北大核心 2016年第12期3300-3305,3315,共7页
为准确检测低速径向运动的小运动目标,降低系统的噪声,提高系统的实时性,提出一种基于Nvidia通用并行计算架构(CUDA)的稀疏脉冲耦合神经网络运动目标检测的并行算法。根据图形处理单元(GPU)的并行结构和硬件特点,将改进帧差法得到二值... 为准确检测低速径向运动的小运动目标,降低系统的噪声,提高系统的实时性,提出一种基于Nvidia通用并行计算架构(CUDA)的稀疏脉冲耦合神经网络运动目标检测的并行算法。根据图形处理单元(GPU)的并行结构和硬件特点,将改进帧差法得到二值图像的过程,以及差分二值图像映射到稀疏脉冲耦合神经网络模型的过程均放GPU上执行,提高算法的计算效率;选择利用纹理存储和共享存储方式,提高数据的访问效率,降低算法的复杂度。实验结果表明,该算法对运动目标检测的准确性和实时性优于其它方法。 展开更多
关键词 通用并行计算架构 稀疏脉冲耦合神经网络 改进帧差法 运动目标检测
下载PDF
基于GPU的RFT算法并行化 被引量:5
3
作者 商哲然 谭贤四 +2 位作者 曲智国 王红 丰骁 《雷达科学与技术》 北大核心 2016年第5期505-509,516,共6页
RFT(Radon-Fourier Transform)是一种广义的MTD算法,可沿着目标径向运动轨迹进行相参积累。然而对距离-速度二维搜索产生的巨大计算量使得其难以快速实现和工程化。针对这个问题,根据雷达信号的回波数据结构和RFT算法思路,提出一种基于... RFT(Radon-Fourier Transform)是一种广义的MTD算法,可沿着目标径向运动轨迹进行相参积累。然而对距离-速度二维搜索产生的巨大计算量使得其难以快速实现和工程化。针对这个问题,根据雷达信号的回波数据结构和RFT算法思路,提出一种基于GPU的RFT并行化算法。通过实验,GPU平台实现的RFT算法与标准RFT和快速RFT相比,获得了巨大的加速比。另外,通过对比在CPU平台执行的MTD算法,得到在GPU平台上的RFT计算结果在不需要传回主机内存的条件下,计算速度快于在CPU平台上MTD算法。 展开更多
关键词 拉东傅里叶变换 并行 图形处理器 通用并行计算架构
下载PDF
CUDA-TP:基于GPU的自顶向下完整蛋白质鉴定并行算法 被引量:1
4
作者 段琼 田博 +2 位作者 陈征 王洁 何增有 《计算机研究与发展》 EI CSCD 北大核心 2018年第7期1525-1538,共14页
蛋白质及蛋白质翻译后修饰(post-translational modifications,PTMs)的鉴定是蛋白质组学研究的基础,对整个领域的进一步发展有着十分重要的意义.近年来,质谱设备的快速发展使得获取"自顶向下"(top-down,TD)的高精度完整蛋白... 蛋白质及蛋白质翻译后修饰(post-translational modifications,PTMs)的鉴定是蛋白质组学研究的基础,对整个领域的进一步发展有着十分重要的意义.近年来,质谱设备的快速发展使得获取"自顶向下"(top-down,TD)的高精度完整蛋白质质谱数据成为可能.目前基于TD质谱数据的完整蛋白质鉴定算法虽然在匹配精度、PTM位点的推断上取得了一些成效,但它们运行时间还有很大的不足和提升空间.利用图形处理器(graphics processing unit,GPU)可以将大规模的重复计算并行化,提高串行程序的执行速度.CUDA-TP算法基于通用并行计算架构(compute unified device architecture,CUDA)来计算蛋白质与TD质谱数据的匹配分数.首先,对每一个质谱数据,CUDA-TP利用优化的MS-Filter算法在蛋白质数据库中过滤出其对应的少数候选蛋白质集合,然后通过AVL(adelson-velskii and landis)树加速质谱匹配过程.GPU中的多线程技术被用来并行化谱图网格及最终数组中所有元素的前驱结点的求解.同时,该算法还使用target-decoy策略来控制蛋白质与质谱图匹配结果的错误发现率(false discovery rate,FDR).实验结果表明:CUDA-TP算法能够有效地加速完整蛋白质的鉴定,速度分别比MS-TopDown和MS-Align+快10倍与2倍.到目前为止,这是唯一能够利用CUDA架构来加速完整蛋白质鉴定的研究工作.CUDA-TP源代码公布在https://github.com/dqiong/CUDA-TP. 展开更多
关键词 “自顶向下”蛋白质组学 蛋白质鉴定 图形处理器 通用并行计算架构 谱图比对
下载PDF
基于三阶运动模型的GRFT算法的并行化实现 被引量:2
5
作者 冯伟刚 张顺生 《信号处理》 CSCD 北大核心 2021年第3期383-389,共7页
广义随机傅里叶变换(GRFT:Generalized Radon-Fourier Transform)是一种广义的MTD(Moving Target Detection)算法,通过搜索目标的速度、加速度、加加速度等高阶运动信息,补偿多个脉冲间的相位来完成相参积累。这种采用搜索的方法完成众... 广义随机傅里叶变换(GRFT:Generalized Radon-Fourier Transform)是一种广义的MTD(Moving Target Detection)算法,通过搜索目标的速度、加速度、加加速度等高阶运动信息,补偿多个脉冲间的相位来完成相参积累。这种采用搜索的方法完成众多脉冲的相参积累,必然会带来巨大的计算量,不利于雷达的实时检测。针对这个问题,根据目标各运动参数之间搜索的独立性和雷达回波信号的存储特点及GRFT算法思路,提出一种基于图形处理器(GPU:Graphic Processing Unit)的GRFT算法,实现了高维搜索并行化问题,并采用通用并行计算架构(CUDA:Computer Unified Device Architecture)完成了GRFT算法的具体实现。仿真结果表明:GRFT算法的计算速度在GPU平台上得到显著提高。 展开更多
关键词 广义随机傅里叶变换 并行 图形处理器 通用并行计算架构
下载PDF
基于GPU的势能场骨架提取并行算法
6
作者 赵丝喆 王宽全 袁永峰 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2016年第5期18-22,共5页
为解决势能场骨架提取方法计算效率低、提取过程耗时大的问题,同时为降低该方法的时间复杂度,提出了基于GPU的势能场骨架提取并行算法,并充分利用CUDA架构特有的常量存储器和共享存储器对普通并行算法进行改进.讨论了如何根据程序和显... 为解决势能场骨架提取方法计算效率低、提取过程耗时大的问题,同时为降低该方法的时间复杂度,提出了基于GPU的势能场骨架提取并行算法,并充分利用CUDA架构特有的常量存储器和共享存储器对普通并行算法进行改进.讨论了如何根据程序和显卡设备的固有属性来分配线程以达到最高的GPU占用率,从而得到最优的加速效果.对多组3D模型进行测试的结果表明,随着数据规模的增大,加速效果逐渐提升,处理256×256×487的体数据时,可获得18倍的加速比. 展开更多
关键词 图形处理器 并行计算 势能场 骨架提取 通用并行计算架构
下载PDF
用CUDA计算“滚球法”防雷联合保护范围在石油化工装置中的应用
7
作者 江伟彬 王亭亭 《石油化工自动化》 CAS 2018年第6期34-36,94,共4页
基于"滚球法"原理,利用GPU的高性能并行计算能力,模拟半径为R的球体,沿需要防直击雷的各个方向滚动,将不触及的范围通过Delaunay法构造平滑曲面,计算出各种防雷保护设施的正确保护范围,补充了GB 50057—2010《建筑物防雷设计... 基于"滚球法"原理,利用GPU的高性能并行计算能力,模拟半径为R的球体,沿需要防直击雷的各个方向滚动,将不触及的范围通过Delaunay法构造平滑曲面,计算出各种防雷保护设施的正确保护范围,补充了GB 50057—2010《建筑物防雷设计规范》中没有提及的不等高接闪杆、避雷带的联合保护的计算方法,且该方法具有较高通用性、准确性,以及计算高速性的特点。 展开更多
关键词 接闪杆 避雷带 保护范围 滚球法 通用并行计算架构
下载PDF
基于NVIDIA GPU的机载SAR实时成像处理算法CUDA设计与实现 被引量:15
8
作者 孟大地 胡玉新 +2 位作者 石涛 孙蕊 李晓波 《雷达学报(中英文)》 CSCD 2013年第4期481-491,共11页
合成孔径雷达(SAR)成像处理的运算量较大,在基于中央处理器(Central Processing Unit,CPU)的工作站或服务器上一般需要耗费较长的时间,无法满足实时性要求。借助于通用并行计算架构(CUDA)编程架构,该文提出一种基于图形处理器(GPU)的SA... 合成孔径雷达(SAR)成像处理的运算量较大,在基于中央处理器(Central Processing Unit,CPU)的工作站或服务器上一般需要耗费较长的时间,无法满足实时性要求。借助于通用并行计算架构(CUDA)编程架构,该文提出一种基于图形处理器(GPU)的SAR成像处理算法实现方案。该方案解决了GPU显存不足以容纳一景SAR数据时数据处理环节与内存/显存间数据传输环节的并行化问题,并能够支持多GPU设备的并行处理,充分利用了GPU设备的计算资源。在NVIDIA K20C和INTEL E5645上的测试表明,与传统基于GPU的SAR成像处理算法相比,该方案能够达到数十倍的速度提升,显著降低了处理设备的功耗,提高了处理设备的便携性,能够达到每秒约36兆采样点的实时处理速度。 展开更多
关键词 SAR 实时成像 图形处理器(GPU) 通用并行计算架构(CUDA)
下载PDF
基于八叉树编码的CUDA光线投射算法 被引量:4
9
作者 康健超 康宝生 +3 位作者 冯筠 王国栋 赵建东 唐斌 《西北大学学报(自然科学版)》 CAS CSCD 北大核心 2012年第1期36-41,共6页
目的针对传统的GPU光线投射算法绘制效果差,绘制效率低的问题,在CUDA架构上对光线投射算法进行优化和加速。方法首先采用八叉树对体数据进行编码,有效地剔除体数据中对重建图像无贡献的部分;其次,将体数据绑定到三维纹理上,根据体数据... 目的针对传统的GPU光线投射算法绘制效果差,绘制效率低的问题,在CUDA架构上对光线投射算法进行优化和加速。方法首先采用八叉树对体数据进行编码,有效地剔除体数据中对重建图像无贡献的部分;其次,将体数据绑定到三维纹理上,根据体数据大小分配线程,每条光线与体数据求交时采用并行计算;最后,在CUDA内核中实现光线投射算法。结果仿真实验结果表明文中算法可以将传统GPU光线投射算法的绘制速度提高7~15倍,并增强算法的绘制效果。结论算法对传统的GPU光线投射算法的绘制速度和效果都有提高。 展开更多
关键词 光线投射算法 通用并行计算架构 八叉树 三维纹理
下载PDF
一种改进的基于CUDA的纹理映射和光线投射结合的体绘制算法 被引量:8
10
作者 朱奭 常晋义 《计算机应用研究》 CSCD 北大核心 2015年第6期1884-1887,共4页
针对传统的基于GPU的光线投射算法绘制效率较低的问题,利用CUDA架构的并行计算特性和对三维纹理的处理能力进行改进和优化。将体数据映射为三维纹理,利用CUDA三维数组进行存储与绑定,纹理拾取的浮点返回值利用线性滤波进行平滑。在传输... 针对传统的基于GPU的光线投射算法绘制效率较低的问题,利用CUDA架构的并行计算特性和对三维纹理的处理能力进行改进和优化。将体数据映射为三维纹理,利用CUDA三维数组进行存储与绑定,纹理拾取的浮点返回值利用线性滤波进行平滑。在传输函数的设计中引入中心差分梯度幅值增强对体数据边界面的绘制效果。每条光线的求交及颜色积累采用并行计算,按照由前向后进行颜色及不透明度累积。设置不透明度阈值,采用不透明度提前终止加速绘制。实验结果表明,绘制速度较传统的基于GPU算法有10%的速度提升,绘制效果也有很大的改善。 展开更多
关键词 通用并行计算架构 光线投射 三维纹理 纹理映射
下载PDF
拉普拉斯生长的GPU实现与硬件加速 被引量:1
11
作者 张学智 齐记 林平 《计算机工程与应用》 CSCD 2012年第22期84-87,共4页
编写实现了六方点阵中拉普拉斯模型的随机行走雪花生长的CUDA(Compute Unified Device Archi-tecture)程序,分析了GPU(Graphic Processing Unit)随机行走计算效率,对比了拉普拉斯模型随机行走雪花生长的GPU与CPU加速特性,给出了该模型... 编写实现了六方点阵中拉普拉斯模型的随机行走雪花生长的CUDA(Compute Unified Device Archi-tecture)程序,分析了GPU(Graphic Processing Unit)随机行走计算效率,对比了拉普拉斯模型随机行走雪花生长的GPU与CPU加速特性,给出了该模型随机计算环境尺寸增加的用时增长曲线。 展开更多
关键词 拉普拉斯模型 随机行走 通用并行计算架构(CUDA)
下载PDF
超高分辨率机载SAR成像算法及其GPU实现 被引量:5
12
作者 田宵骏 梁媚蓉 毛新华 《南京航空航天大学学报》 EI CAS CSCD 北大核心 2015年第3期384-391,共8页
雷达成像分辨率的不断提高,给SAR高精度实时成像处理带来了新的挑战。采用高效精确的成像算法以及对算法进行硬件加速是解决该问题的有效途径。本文提出了一种适用于超高分辨率机载SAR成像的精确高效成像处理方案,并利用并行化硬件平台... 雷达成像分辨率的不断提高,给SAR高精度实时成像处理带来了新的挑战。采用高效精确的成像算法以及对算法进行硬件加速是解决该问题的有效途径。本文提出了一种适用于超高分辨率机载SAR成像的精确高效成像处理方案,并利用并行化硬件平台GPU对该成像方案进行了硬件加速。实测数据处理结果充分验证了该处理方案的聚焦精度和处理效率。 展开更多
关键词 合成孔径雷达 超高分辨率 成像算法 图形处理器 通用并行计算架构
下载PDF
基于实时LOD简化绘制的渲染优化方法 被引量:5
13
作者 刘晓 刘镇 梅向东 《湖南科技大学学报(自然科学版)》 CAS 北大核心 2015年第4期92-96,共5页
随着虚拟展示应用在移动网络中的不断发展,在面对大量移动智能终端的并发请求时,服务端的计算负载成为了实时渲染的主要瓶颈,针对如何优化服务端渲染计算提高渲染效率,提出一种基于场景实时LOD简化绘制的渲染优化方法.方法在服务端实时... 随着虚拟展示应用在移动网络中的不断发展,在面对大量移动智能终端的并发请求时,服务端的计算负载成为了实时渲染的主要瓶颈,针对如何优化服务端渲染计算提高渲染效率,提出一种基于场景实时LOD简化绘制的渲染优化方法.方法在服务端实时绘制过程中根据用户的交互状态,实时简化绘制三维模型的相应分辨率细节层次模型,控制渲染图像质量,避免不必要的图形绘制,降低渲染计算负载.三维模型简化由CUDA实现并行处理,通过空间八叉树进行划分并按照顶点重要程度进行模型并行简化,控制场景渲染过程中的几何复杂度.实验证明,方法能够有效降低渲染耗时,保证用户进行交互浏览时的实时性.在移动网络环境中,方法能够有效降低服务端负载压力,提高渲染效率. 展开更多
关键词 虚拟展示 层次细节模型 通用并行计算架构
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部