期刊文献+
共找到76篇文章
< 1 2 4 >
每页显示 20 50 100
基于嵌入式CPU+GPU异构平台的遥感图像滤波加速
1
作者 谭鹏源 薛长斌 周莉 《空间科学学报》 CAS CSCD 北大核心 2024年第1期95-102,共8页
针对遥感图像在轨实时处理提出一种基于嵌入式CPU+GPU异构平台的遥感图像滤波加速设计方法.以加速拉普拉斯滤波为例,利用GPU的并行计算特点,通过数据划分及数据映射的方法对算法进行并行设计;利用GPU的向量单元和缓存等硬件资源,通过采... 针对遥感图像在轨实时处理提出一种基于嵌入式CPU+GPU异构平台的遥感图像滤波加速设计方法.以加速拉普拉斯滤波为例,利用GPU的并行计算特点,通过数据划分及数据映射的方法对算法进行并行设计;利用GPU的向量单元和缓存等硬件资源,通过采取向量化和向量重组以及工作组调优方法进一步提高了算法的运行速度.在嵌入式开发板上验证了加速设计的可行性和高效性.实验结果表明,相比于单CPU的串行实现,在增加GPU并行处理后的拉普拉斯滤波获得了4.08~16.92倍的加速比.进一步利用GPU硬件资源优化性能后,加速比可达15.38~56.41倍. 展开更多
关键词 嵌入gpu 遥感图像滤波 OPENCL 向量化 向量重组
下载PDF
面向嵌入式环境的暗光图像GPU加速增强算法
2
作者 李鹏亮 韩伟 +4 位作者 李丽娜 刘作龙 潘妍 李晨卉 祁俊雄 《信息技术与信息化》 2024年第4期101-105,共5页
针对已有算法很难满足嵌入式场景下暗光图像增强的高性能和高效性处理需求,面向嵌入式国产GPU加速平台提出一种用于暗光图像增强的高阶分式模型,证明了提出的高阶分式模型在特定情况下等价于Retinex理论模型。为了减少GPU加速过程中每... 针对已有算法很难满足嵌入式场景下暗光图像增强的高性能和高效性处理需求,面向嵌入式国产GPU加速平台提出一种用于暗光图像增强的高阶分式模型,证明了提出的高阶分式模型在特定情况下等价于Retinex理论模型。为了减少GPU加速过程中每个线程的计算开销,提出一种基于像素抽样的快速boxfilter算法,实现GPU的进一步加速,同时为了避免传统伽马变换存在过度曝光和亮度提升不够明显的问题,提出了一种自适应伽马变换的算法。通过实验结果的分析,证明提出的算法在嵌入式计算场景下的高效性和有效性,实现了1280×720像素分辨率图像约148帧/s的处理速度。 展开更多
关键词 嵌入计算 高阶分模型 快速boxfilter 自适应伽马变换 国产gpu加速
下载PDF
基于嵌入式GPU的特征畸变单目视觉定位系统的研究
3
作者 陈泽鹏 李文湧 +4 位作者 劳子健 陈羽 李佼洋 王嘉辉 郑民 《应用光学》 CAS 北大核心 2023年第3期469-475,共7页
视觉定位和导航在物流仓储等领域具有广泛的应用前景,传统单目视觉难以实现准确的定位,而双目视觉虽能完成精确的定位和导航,但硬件成本高且影响车体尺寸。提出一种基于特征物形变的单目定位技术,利用单个相机对地面铺设的特征物(带编... 视觉定位和导航在物流仓储等领域具有广泛的应用前景,传统单目视觉难以实现准确的定位,而双目视觉虽能完成精确的定位和导航,但硬件成本高且影响车体尺寸。提出一种基于特征物形变的单目定位技术,利用单个相机对地面铺设的特征物(带编码的圆环图案)的畸变进行记录,以嵌入式图像处理单元(graphics processing unit,GPU)进行分析,实现端到端的单目视觉定位。其中嵌入式GPU对相机采集的图像通过深度学习目标检测算法识别特征圆环的编码图案,经传统图像处理获取图案物像的形变信息,将该形变信息输入至经极端梯度提升算法(extreme gradient boosting,XGBoost)训练好的回归模型,预测出相机相对图案中心的坐标,同时结合该特征圆环的绝对坐标,最终解算出相机的室内绝对坐标。实验结果表明:在2 m×2 m的范围内定位平均误差仅为0.55 cm,优于文献报道1个数量级,且算法在电脑端和在嵌入式GPU上的定位解算帧率分别为20帧和4帧,具有实时性。 展开更多
关键词 嵌入gpu 室内定位 深度学习 回归模型 圆环编码图案
下载PDF
OpenGL ES图形标准在嵌入式系统中的应用 被引量:6
4
作者 史扬 吴金平 《工业控制计算机》 2008年第3期27-28,共2页
嵌入式系统应用领域越来越广阔,从工业控制、信息家电、个人数字助理到通信娱乐等对图形界面提出了较高的要求。介绍了新一代嵌入式系统图形开发标准OpenGLES发展背景和发展现状,讨论了基于OpenGLES的开发过程,开发方法及在嵌入式系统... 嵌入式系统应用领域越来越广阔,从工业控制、信息家电、个人数字助理到通信娱乐等对图形界面提出了较高的要求。介绍了新一代嵌入式系统图形开发标准OpenGLES发展背景和发展现状,讨论了基于OpenGLES的开发过程,开发方法及在嵌入式系统中的应用,经综合比较及分析表明OpenGLES具有适合性,可移植性以及灵活性等优点。 展开更多
关键词 嵌入系统 opengl ES opengl
下载PDF
嵌入式GPU滑动聚束SAR实时成像方法 被引量:9
5
作者 胡善清 李慧星 +3 位作者 李炳沂 谢宜壮 陈亮 陈禾 《北京理工大学学报》 EI CAS CSCD 北大核心 2020年第9期1018-1025,共8页
针对SAR实时成像系统的传统计算平台实时性不足与功耗过高的问题,研究了一种基于嵌入式GPU的实现方法.为了充分利用嵌入式GPU中有限的内存资源,提出一种内存分割与重配置方案,采用页锁定内存和zero-copy技术,实现数传计算并行化处理;为... 针对SAR实时成像系统的传统计算平台实时性不足与功耗过高的问题,研究了一种基于嵌入式GPU的实现方法.为了充分利用嵌入式GPU中有限的内存资源,提出一种内存分割与重配置方案,采用页锁定内存和zero-copy技术,实现数传计算并行化处理;为解决实时性问题,在算法并行计算环节,利用共享内存、寄存器等资源实现大规模数据并行.结果表明,在TX2上完成16384×8192点滑聚SAR成像处理时间为12.66 s,功耗为15 W.该优化方法也适用于其他模式的雷达处理算法,并可为未来嵌入式实时成像处理提供参考. 展开更多
关键词 嵌入gpu 滑动聚束 合成孔径雷达 在轨实时处理
下载PDF
一种嵌入式GPU上的实时图像语义分割方法 被引量:4
6
作者 董建升 袁景凌 钟忺 《小型微型计算机系统》 CSCD 北大核心 2019年第11期2445-2449,共5页
复杂的深度学习网络在嵌入式平台上的推理速度较低,很难满足实际应用需求.因此针对自动驾驶、智能机器人等实时性应用背景,提出了一个轻量级图像语义分割网络,并利用NVIDIA的推理加速器TensorRT进行合并层、精度校准、并行优化等操作,... 复杂的深度学习网络在嵌入式平台上的推理速度较低,很难满足实际应用需求.因此针对自动驾驶、智能机器人等实时性应用背景,提出了一个轻量级图像语义分割网络,并利用NVIDIA的推理加速器TensorRT进行合并层、精度校准、并行优化等操作,提高模型的计算效率,在嵌入式平台上实现了对深度学习模型的推理加速.实验结果表明,提出的模型在Cityscapes数据集上取得了72. 17%的m Io U,对于尺寸为512×1024的输入图像,经过TensorRT的推理加速后,在嵌入式平台NVIDIA Jetson Xavier上达到了45 FPS的推理速度,该速度约为原模型的1. 8倍.提出的模型和优化方法在保留较高准确度的前提下,实现了嵌入式平台上的实时图像语义分割,为深度学习模型在嵌入式平台上的实时性应用提供了支持. 展开更多
关键词 语义分割 深度学习 嵌入gpu TensorRT
下载PDF
基于嵌入式GPU的低功耗渔船驾驶舱人员检测方法 被引量:2
7
作者 邹勇搏 陈明 冯国富 《山东农业大学学报(自然科学版)》 北大核心 2020年第2期289-293,共5页
针对传统图像检测方法占用过多处理器资源、功耗高、发热量大,无法适应渔船船载电子设备防水防腐防盐雾的密封无风扇设计要求等问题,本文基于嵌入式低功耗处理平台,以可变形部件模型(DPM)算法为基础,采用嵌入式GPU及Open CL编程模型对... 针对传统图像检测方法占用过多处理器资源、功耗高、发热量大,无法适应渔船船载电子设备防水防腐防盐雾的密封无风扇设计要求等问题,本文基于嵌入式低功耗处理平台,以可变形部件模型(DPM)算法为基础,采用嵌入式GPU及Open CL编程模型对算法的滑动窗口检测部分进行并行化加速。在保证系统识别效果的前提下,提高了系统综合运行效率。实验结果表明,与CPU版本的检测性能相比,优化后的方法获得了3.75~4.23倍的加速比;与现有基于工控计算机的船载检测系统的检测方法相比,优化后的方法可以获得6.74~7.37倍的加速比,有效解决了在渔船上进行人员检测效率过低及功耗过高的问题。 展开更多
关键词 嵌入gpu 渔船 图像检测
下载PDF
基于嵌入式GPU的三天线GNSS基带信号处理加速技术 被引量:3
8
作者 杨智博 金天 《导航定位与授时》 2020年第3期23-29,共7页
GNSS软件接收机因其可移植性及灵活性等优点,持续受到业内关注。但传统的软件接收机存在计算量大、耗时长的捕获和跟踪基带信号处理过程,使得软件接收机往往跟踪通道较少,且难以在嵌入式系统上运行。利用嵌入式图形处理器(GPU)的高浮点... GNSS软件接收机因其可移植性及灵活性等优点,持续受到业内关注。但传统的软件接收机存在计算量大、耗时长的捕获和跟踪基带信号处理过程,使得软件接收机往往跟踪通道较少,且难以在嵌入式系统上运行。利用嵌入式图形处理器(GPU)的高浮点性能和并行运算能力,对GNSS软件接收机中耗时长且并行性明显的模块进行加速,实现采用CUDA流的数据读取,以及多采样点并行的捕获和多采样点、多卫星并行的跟踪。采用嵌入式GPU进行加速后,可将数据读取速度提高3.43倍,卫星搜捕速度提高16.83倍,卫星跟踪速度提高11.28倍。实验结果表明,在嵌入式Jetson TX2平台上可以支持超过90个62MHz采样的GNSS卫星信号处理。研制了三天线GNSS信号的定位和测姿接收机,为未来小型嵌入式PNT系统的研制提供新思路。 展开更多
关键词 GNSS 软件接收机 基带信号处理 嵌入gpu PNT
下载PDF
基于嵌入式移动GPU的离散傅里叶变换并行优化 被引量:2
9
作者 曾宝国 杨斌 《单片机与嵌入式系统应用》 2016年第1期12-15,共4页
GPGPU能够针对计算密集型的计算问题进行大规模的并行加速,为DFT在嵌入式平台上的高效实现提供了一种新的方式。基于Mali-T604嵌入式GPU实现了针对DFT和FFT的并行加速方案,并进行了实际测试。实验结果证明,所设计的并行方案能够在ARM嵌... GPGPU能够针对计算密集型的计算问题进行大规模的并行加速,为DFT在嵌入式平台上的高效实现提供了一种新的方式。基于Mali-T604嵌入式GPU实现了针对DFT和FFT的并行加速方案,并进行了实际测试。实验结果证明,所设计的并行方案能够在ARM嵌入式平台上有效加速DFT和FFT,可大大提升移动设备进行数字信号处理的实时性。 展开更多
关键词 DFT FFT GPgpu Mali—T604 gpu 数字信号处理 ARM嵌入系统
下载PDF
嵌入式系统中基于OpenGL的虚拟仪表设计 被引量:4
10
作者 聂文琪 《仪器仪表学报》 EI CAS CSCD 北大核心 2005年第z2期276-277,286,共3页
讨论在VxWorks操作系统下,利用OpenGL设计开发一种基于CAN总线的车辆底盘综合电子系统中虚拟仪表的图形界面的方法。介绍了警示图标的显示、仪表盘的颜色渲染和反走样等的具体实现方法。
关键词 虚拟仪表 嵌入系统 opengl CAN
下载PDF
基于优化存储的嵌入式GPU的字符显示 被引量:1
11
作者 郭云 康涛 徐涵 《计算机系统应用》 2012年第10期162-165,158,共5页
提出并实现了一种基于嵌入式GPU(OES:OpenGL?ES)的优化存储的快速字符显示方法.首先它采用了带宽优化的稀疏阵的存储结构,它具备良好的空间和时间上的性能优势和可扩展的柔韧性.同时,我们采取了静态预定义的字模生成方法,在选择字符显示... 提出并实现了一种基于嵌入式GPU(OES:OpenGL?ES)的优化存储的快速字符显示方法.首先它采用了带宽优化的稀疏阵的存储结构,它具备良好的空间和时间上的性能优势和可扩展的柔韧性.同时,我们采取了静态预定义的字模生成方法,在选择字符显示时,通过稀疏存储的索引,可以快速地定位预定义的字模信息.我们检查了目前桌面PC图形显示环境下(TrueType等)字符的生成,索引,显示的过程,按调入字库大小,分别测试字符处理到具体字符显示在画面时所要的时间关系,明显是逊于本文方法.同时利用嵌入式GPU的多纹理内存的硬件特性,通过图像预过滤,实验证明可以保证画面上的字符显示质量. 展开更多
关键词 嵌入gpu(opengl ES) 字符显示 字符存储 图形优化技术
下载PDF
基于嵌入式GPU虚拟仪表图形软件的实现 被引量:1
12
作者 郭云 康涛 《计算机系统应用》 2012年第10期47-52,共6页
提出并实现了一种基于嵌入式GPU(OES:OpenGL?ES)的跨平台图形应用软件的系统框架.它包括外部事件的驱动,图形应用软件,嵌入式系统入口,嵌入式系统硬件等四个模块.外部事件的驱动主要是响应外部数据或事件的变化,从而控制图形显示内容的... 提出并实现了一种基于嵌入式GPU(OES:OpenGL?ES)的跨平台图形应用软件的系统框架.它包括外部事件的驱动,图形应用软件,嵌入式系统入口,嵌入式系统硬件等四个模块.外部事件的驱动主要是响应外部数据或事件的变化,从而控制图形显示内容的实时更新,以及功能画面的实时切换.图形应用软件模块包括了三个组成部分(1)接口界面(2)中间通讯层(3)处理单元.图形应用软件的接口界面主要是实现客户化的目标要求,采用C++类的面向对象的设计方法.中间通讯层,是为了实现图形应用的任务而安排的结构化的类.处理单元是各种最基本内容的单元实现,它建立在我们的各种实用库之上.嵌入式系统入口,它封装了图形软件的核心函数功能,实现和上层的处理单元间的数据调度.嵌入式系统硬件模块主要是各主流平台(CPU,GPU)相关的数据信息,支持上层的图形应用.本文在虚拟仪表盘面上实践了上述应用软件系统,满足了实时响应,高效处理,高质量图形显示的要求.为实现嵌入式平台的图形显示应用打下了重要的基础.同时,本文的工作提出并解决了若干嵌入式图形显示技术的优化问题,为嵌入式图形显示开发提供了有力的帮助. 展开更多
关键词 嵌入gpu(opengl ES) 图形显示 虚拟仪表 嵌入图形优化技术
下载PDF
基于嵌入式GPU的pyramid LK光流法高速计算方法研究 被引量:3
13
作者 孙瑞鑫 朱国梁 +2 位作者 谢双镱 郭雪亮 柴志雷 《计算机应用研究》 CSCD 北大核心 2022年第7期1966-1972,共7页
在嵌入式计算平台上实现双向约束LK金字塔高精度光流的实时计算,是该算法能否应用于自动驾驶等场景的重要影响因素。为了实现该目的,提出了基于网格划分的特征提取方法及新的双向约束方法;然后设计了动态窗口的金字塔模型,解决了光流计... 在嵌入式计算平台上实现双向约束LK金字塔高精度光流的实时计算,是该算法能否应用于自动驾驶等场景的重要影响因素。为了实现该目的,提出了基于网格划分的特征提取方法及新的双向约束方法;然后设计了动态窗口的金字塔模型,解决了光流计算过程中的负载不均衡问题;最后通过降低计算位宽,使得整体性能获得进一步提升。实验结果表明:在Jetson TX2上,针对真实场景所用的720P视频,所提出方法的性能比OpenCV的GPU版本提升了4.1倍,达到30 fps以上;将采用该方法的SLAM系统成功应用于车载场景并在真实环境中测试,使得系统的性能达到了28 fps。新方法有效地提升了位姿和点云的精度,较好地满足了车载场景的实时处理需求。 展开更多
关键词 LK光流 嵌入gpu CUDA SLAM 并行计算
下载PDF
基于OpenGL ES的嵌入式数控雕刻系统加工仿真设计 被引量:2
14
作者 刘俊 唐善斌 +1 位作者 刘洁 肖文 《制造技术与机床》 CSCD 北大核心 2011年第6期67-69,共3页
以嵌入式数控雕刻系统为研究对象,开发了一种加工轨迹三维仿真软件。采用VS2005作为应用程序开发环境,实现了OpenGL ES的平台构建;通过对NC加工代码进行编译,提取出加工坐标数据,最终实现三维模型的构建以及加工轨迹的动态仿真。
关键词 嵌入 数控系统 opengl ES 三维仿真
下载PDF
嵌入式GPU中二级高速缓存的设计与实现 被引量:2
15
作者 杜慧敏 杨超群 季凯柏 《微电子学与计算机》 CSCD 北大核心 2018年第2期94-99,共6页
针对嵌入式GPU与主存之间进行数据交互时出现速度不匹配的问题,设计了一种适用于嵌入式GPU的二级高速缓存Cache控制器.二级Cache控制器采用四路组相联的映射结构,使用伪最近最少使用(Pseudo_LRU)替换算法,可以管理16~512kB的二级高速缓... 针对嵌入式GPU与主存之间进行数据交互时出现速度不匹配的问题,设计了一种适用于嵌入式GPU的二级高速缓存Cache控制器.二级Cache控制器采用四路组相联的映射结构,使用伪最近最少使用(Pseudo_LRU)替换算法,可以管理16~512kB的二级高速缓存.实验结果表明,当选取Cache大小为128kB时,Cache的命中率达到71.12%. 展开更多
关键词 嵌入gpu 高速缓存控制器 Rseudo_LRU算法
下载PDF
嵌入式GPU中U型存储布局tile缓存的设计与实现 被引量:2
16
作者 郝武 杜慧敏 +1 位作者 张丽果 黄世远 《微电子学与计算机》 北大核心 2019年第3期91-95,共5页
针对嵌入式GPU tile缓存在线性布局和Z型布局写回时由于地址跨度大而导致cache频繁冲突缺失的问题,设计了一种支持多级U型存储布局的tile缓存,使像素数据写回的地址连续,减少cache的冲突缺失,提高cache命中率.实验结果表明,当配置不同... 针对嵌入式GPU tile缓存在线性布局和Z型布局写回时由于地址跨度大而导致cache频繁冲突缺失的问题,设计了一种支持多级U型存储布局的tile缓存,使像素数据写回的地址连续,减少cache的冲突缺失,提高cache命中率.实验结果表明,当配置不同尺寸的tile缓存时,U型布局相对于线性布局cache命中率提高4%~13%,相对于Z型布局cache命中率提高1%~9%. 展开更多
关键词 嵌入gpu tile缓存 U型布局
下载PDF
嵌入式GPU存储管理单元的设计与实现 被引量:2
17
作者 张丽果 刘雄 《西安邮电大学学报》 2018年第3期92-96,共5页
针对虚拟存储技术,设计并实现一种适用于嵌入式GPU的存储管理单元的硬件结构。采用两级页表同时匹配方式,对地址转换后援缓冲器结构进行改进,减少页切换;通过每级页表项存储检查标志位,实现存储保护;利用硬件机制处理异常,减少流水线暂... 针对虚拟存储技术,设计并实现一种适用于嵌入式GPU的存储管理单元的硬件结构。采用两级页表同时匹配方式,对地址转换后援缓冲器结构进行改进,减少页切换;通过每级页表项存储检查标志位,实现存储保护;利用硬件机制处理异常,减少流水线暂停导致的时钟周期浪费,从而实现虚拟地址到物理地址的转换。在SIMC0.18μm工艺库进行综合,并在ZC706开发板进行系统级验证,结果表明,该设计频率可达225 MHz,能够实现嵌入式GPU存储管理的要求。 展开更多
关键词 嵌入gpu 存储管理元 转换后援缓冲器
下载PDF
基于双目相机与嵌入式GPU的SLAM系统设计 被引量:1
18
作者 佘黎煌 童文昊 +1 位作者 孙健伟 许洪瑞 《科技创新与应用》 2021年第4期59-61,66,共4页
定位与地图构建(Simultaneous Localization And Mapping,SLAM)技术在机器人、无人机以及虚拟现实等领域有着广泛的应用。然后由于计算资源等条件的限制,在嵌入式系统中应用SLAM技术仍是一种挑战。文章基于嵌入式GPU技术和双目流摄像头... 定位与地图构建(Simultaneous Localization And Mapping,SLAM)技术在机器人、无人机以及虚拟现实等领域有着广泛的应用。然后由于计算资源等条件的限制,在嵌入式系统中应用SLAM技术仍是一种挑战。文章基于嵌入式GPU技术和双目流摄像头设计实现了嵌入式实时SLAM系统,并结合深度学习的目标识别技术,来进一步优化环境信息的获取并解决环境认知和自身定位等问题。本应用系统样例,综合应用了人工智能、嵌入式操作系统和嵌入式GPU边缘计算技术,是嵌入式技术课程深入建设发展的重要趋势之一。 展开更多
关键词 嵌入教学 嵌入gpu 双目SLAM 深度学习
下载PDF
基于ARM+GPU的嵌入式系统综合实践案例设计 被引量:1
19
作者 佘黎煌 刘俊霆 +3 位作者 罗纪青 刘展鹏 韩世程 刘晨瑞 《计算机教育》 2022年第10期84-87,92,共5页
为了提高学生人工智能知识的学习和应用能力,提出在嵌入式技术课程中开展人工智能相关教学实践案例设计,基于嵌入式ARM+GPU硬件平台,介绍无人驾驶综合应用案例的实现方法及其实践结果。
关键词 人工智能 嵌入gpu 无人驾驶 教学实践
下载PDF
利用嵌入式GPU可编程管线的编程优化系统开销
20
作者 张誉磊 戎蒙恬 《计算机光盘软件与应用》 2011年第14期186-187,共2页
本文通过在MJPEG回放中如何应用GPU Shading Language编程帮助提高嵌入式系统性能的分析,阐述了对GPU可编程管线的合理利用,使其不光用于3D图像的渲染,并且在协助CPU进行通用计算方面起到更多作用的观点。
关键词 嵌入系统 gpu SHADING LANGUAGE 性能优化
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部