期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
ARM NEON平台的D2C算法实现与优化 被引量:1
1
作者 蒙敏荣 张勰 《单片机与嵌入式系统应用》 2022年第3期27-31,共5页
基于ARM Cortex A53处理器平台,对NEON协处理器的指令和编程优化方法等技术进行了分析,并以此平台进行了D2C(Depth to Color)算法的优化实现。在树莓派3B+SDK开发板上进行了充分实验,测试结果表明,NEON/VFP协处理器在保持高的算法精度... 基于ARM Cortex A53处理器平台,对NEON协处理器的指令和编程优化方法等技术进行了分析,并以此平台进行了D2C(Depth to Color)算法的优化实现。在树莓派3B+SDK开发板上进行了充分实验,测试结果表明,NEON/VFP协处理器在保持高的算法精度的同时可以较好地提高D2C算法的运算效率,并且保持低功耗、低成本。 展开更多
关键词 arm neon SIMD D2C 矢量化 树莓派3B+
下载PDF
ARM NEON技术在车位识别算法中的应用 被引量:1
2
作者 王宁 蒋大林 董珂 《现代电子技术》 2013年第18期105-107,共3页
为了在车位检测系统中不使用DSP的情况下,达到实时处理和节约成本的目的,在嵌入式Linux系统中使用了CORTEX-A系列的NEON协处理器技术来优化一种车位图像检测算法的代码。在CORTEX-A8平台上使用该图像处理算法进行了大量的处理测试,图像... 为了在车位检测系统中不使用DSP的情况下,达到实时处理和节约成本的目的,在嵌入式Linux系统中使用了CORTEX-A系列的NEON协处理器技术来优化一种车位图像检测算法的代码。在CORTEX-A8平台上使用该图像处理算法进行了大量的处理测试,图像算法处理速度得到很大提升。最后在多个平台下使用该图像处理算法进行测试对比,使用了NEON技术后其算法处理速度提升明显,能够满足实时要求。 展开更多
关键词 arm CORTEX-A8 neon GCC
下载PDF
基于ARM NEON的H.265解码器优化 被引量:2
3
作者 简欢 《电视技术》 北大核心 2014年第15期102-105,共4页
基于ARM Cortex A9处理器平台,对NEON处理器的指令和编程优化方法等技术进行了分析,并以此为平台进行了H.265软件解码器的优化实现。在瑞芯微电子的RK3188 SDK开发板上进行了充分测试,实验结果表明NEON处理器可以较好地提高H.265软件解... 基于ARM Cortex A9处理器平台,对NEON处理器的指令和编程优化方法等技术进行了分析,并以此为平台进行了H.265软件解码器的优化实现。在瑞芯微电子的RK3188 SDK开发板上进行了充分测试,实验结果表明NEON处理器可以较好地提高H.265软件解码器的执行效率。 展开更多
关键词 H 265标准 arm neon 视频解码器
下载PDF
ARM Cortex-A9的NEON技术研究及应用 被引量:10
4
作者 陈新泽 杨斌 《单片机与嵌入式系统应用》 2013年第10期46-49,共4页
ARM Cortex-A系列处理器首次集成了NEON技术,可以有效加速多媒体应用。本文基于Cortex-A9处理器,对NEON技术进行研究,并对JM解码器进行NEON优化,提供实际优化效果。在PandaBoard开发板上对不同分辨率的多个测试序列进行了解码测试,测试... ARM Cortex-A系列处理器首次集成了NEON技术,可以有效加速多媒体应用。本文基于Cortex-A9处理器,对NEON技术进行研究,并对JM解码器进行NEON优化,提供实际优化效果。在PandaBoard开发板上对不同分辨率的多个测试序列进行了解码测试,测试结果显示,优化后的解码速率提高了,而且提高分辨率并不影响优化效果。 展开更多
关键词 arm CORTEX-A9 neon技术 PandaBoard开发板 JM解码器 多媒体加速
下载PDF
ARM处理器上的格点QCD计算与优化 被引量:1
5
作者 孙玮 毕玉江 程耀东 《计算机科学》 CSCD 北大核心 2023年第6期52-57,共6页
格点量子色动力学(格点QCD)是高能物理领域中需要大规模并行计算的最主要应用之一,相关研究通常需要消耗大量计算资源,核心是求解大规模稀疏线性方程组。文中基于国产鲲鹏920 ARM处理器,研究了格点QCD的计算热点Dslash,并将其扩展到64... 格点量子色动力学(格点QCD)是高能物理领域中需要大规模并行计算的最主要应用之一,相关研究通常需要消耗大量计算资源,核心是求解大规模稀疏线性方程组。文中基于国产鲲鹏920 ARM处理器,研究了格点QCD的计算热点Dslash,并将其扩展到64个节点(6 144核),展示了格点QCD计算的线性扩展性。基于roofline性能分析模型,发现格点QCD是典型的内存限制应用,并通过将Dslash中的3×3复幺正矩阵根据对称性压缩,将其性能提升约22%。对于大规模稀疏线性方程的求解,在ARM处理器上探索了常用的Krylov子空间迭代算法BiCGStab,以及近年来发展起来的前沿的multigrid算法,发现即使考虑预处理时间,在实际物理计算中使用multigrid算法相比BiCGStab依然有几倍至一个数量级的加速。此外,还考虑了鲲鹏920处理器上的NEON向量化指令,发现将其用于multigrid计算时可以带来约20%的加速。因此,在ARM处理器上使用multigrid算法能极大地加速实际的物理研究。 展开更多
关键词 格点QCD arm架构 多重网格算法 鲲鹏920 neon向量化
下载PDF
基于ARM架构的滤波函数优化 被引量:4
6
作者 陈思润 顾乃杰 +1 位作者 苏俊杰 贺爱香 《计算机应用与软件》 北大核心 2018年第9期138-143,共6页
随着人们对移动设备图像视觉的追求日益提高,Android设备的图像处理速度难以满足移动客户端海量应用的性能需求。分析并研究ARM架构硬件特性,使用Cortex-A系列支持的SIMD数据级并行计算技术NEON对OpenCV函数库中的滤波函数进行优化。具... 随着人们对移动设备图像视觉的追求日益提高,Android设备的图像处理速度难以满足移动客户端海量应用的性能需求。分析并研究ARM架构硬件特性,使用Cortex-A系列支持的SIMD数据级并行计算技术NEON对OpenCV函数库中的滤波函数进行优化。具体介绍中值滤波的优化过程,且在Cortex-A72开发板上进行充分的测试。实验结果表明,中值滤波函数优化效果显著,对比OpenCV源码性能提升了17倍,图像处理模块中的其他滤波函数均有较大的性能提升。 展开更多
关键词 arm Cortex—A neon SIMD OPENCV 中值滤波
下载PDF
基于ARM的图像几何变换算法库实现和优化技术研究 被引量:1
7
作者 王麓涵 贾海鹏 +1 位作者 张云泉 张广婷 《计算机科学》 CSCD 北大核心 2022年第10期10-17,共8页
高性能原语基础算法库(Intel■Integrated Performance Primitives, Intel IPP)是面向信号、图像处理领域的高性能多媒体加速库。然而,截至目前,暂时没有基于ARM架构的高性能IPP库。文中针对镜像变换、重映射、仿射、透视变换等基础图... 高性能原语基础算法库(Intel■Integrated Performance Primitives, Intel IPP)是面向信号、图像处理领域的高性能多媒体加速库。然而,截至目前,暂时没有基于ARM架构的高性能IPP库。文中针对镜像变换、重映射、仿射、透视变换等基础图像几何变换算法,实现了一个基于ARM计算平台的高性能算法库PerfIPP,并通过SIMD汇编优化、内存对齐、数据预计算、高性能矩阵转置等优化技术,显著提升了上述算法的性能。同时,通过对比不同指令组合、不同指令排列、不同取数存储方式等所带来的性能差异,总结图像几何变换算法在ARM计算平台上实现与优化的关键技术。实验结果表明,在华为鲲鹏920平台上,相比开源计算机视觉库OpenCV,PerfIPP在满足精度要求的同时,在上述基础图像几何变换上获得了108.08%~435.5%的性能提升,并达到了在英特尔至强E5-2640处理器上Intel IPP库平均性能的83.79%。 展开更多
关键词 IPP arm neon Intrinsic 几何变换 插值
下载PDF
基于ARM Cortex-A8平台的Out-of-place FFT算法优化 被引量:2
8
作者 王家樑 陈颖琪 《现代电子技术》 2008年第23期144-147,150,共5页
随着信号处理与多媒体技术的深入发展应用,运算功耗日益成为一个重要的因素。这样,对于算法性能也提出了更高的要求,而FFT算法则是音视频编解码以及信号处理中的一个重要组成部分。主要研究基于ARM Cortex-A8平台上的非原址(Out-of-plac... 随着信号处理与多媒体技术的深入发展应用,运算功耗日益成为一个重要的因素。这样,对于算法性能也提出了更高的要求,而FFT算法则是音视频编解码以及信号处理中的一个重要组成部分。主要研究基于ARM Cortex-A8平台上的非原址(Out-of-place)FFT算法的性能优化。利用ARM Cortex-A8的NEON多媒体处理运算引擎提供的并行运算机制,采用非原址运算方法,减少比特翻转的重排序内存访问和搬移操作,同时运用相同蝶形单元有共同旋转因子,共同运算操作的特性,进行并行计算,大幅度减少运算循环数量,改善运算效率,大大提高了FFT算法的性能指标,减少片上功耗。 展开更多
关键词 傅里叶变换 arm Cortex—A8 neon指令集 Out—of—place FFT 并行操作
下载PDF
基于RISC-V向量指令集的内嵌汇编函数设计与实现
9
作者 李雪 尹健 贾光帅 《中国集成电路》 2023年第12期36-39,65,共5页
RISC-V作为一种新兴的开源指令集架构,其基于RSIC-V向量指令集的算法函数尚未形成标准。在实际应用中,基于RSIC-V向量指令集的内嵌汇编函数的开发仍在发展阶段。本文以欧拉公式为算例,实现算法从ARM NEON指令集到RSIC-V向量指令集的移植... RISC-V作为一种新兴的开源指令集架构,其基于RSIC-V向量指令集的算法函数尚未形成标准。在实际应用中,基于RSIC-V向量指令集的内嵌汇编函数的开发仍在发展阶段。本文以欧拉公式为算例,实现算法从ARM NEON指令集到RSIC-V向量指令集的移植,完成相关内嵌汇编函数的设计。该算法在相应的处理器平台上进行测试,结果显示基于RSIC-V向量指令集的算法效率得到显著提高。 展开更多
关键词 RISC-V 向量指令集 内嵌汇编 arm neon
下载PDF
数控系统中GUI软件平台设计和实现 被引量:2
10
作者 杨文锦 王传兵 《制造技术与机床》 北大核心 2017年第9期174-176,共3页
在嵌入式系统中,人机交互GUI一般采用既有的开源系统。自主设计和实现了一种应用于嵌入式数控系统中的跨平台GUI组件,采用面向对象中设计模式的软件设计方法,增加了系统的稳定性和可复用性,缩短设计周期;并创新性地利用ARM的NEON指令集... 在嵌入式系统中,人机交互GUI一般采用既有的开源系统。自主设计和实现了一种应用于嵌入式数控系统中的跨平台GUI组件,采用面向对象中设计模式的软件设计方法,增加了系统的稳定性和可复用性,缩短设计周期;并创新性地利用ARM的NEON指令集功能,增强显示效率。 展开更多
关键词 GUI 设计模式 arm neon
下载PDF
嵌入式机器视觉系统优化研究 被引量:1
11
作者 付连锐 王兆仲 《电子设计工程》 2012年第14期179-182,共4页
介绍了基于ARM+DSP架构的嵌入式机器视觉系统的特性,分析了制约嵌入式机器视觉系统性能的因素。从操作系统和应用程序方面,讨论了嵌入式机器视觉系统的优化方案。通过对嵌入式Linux内核和文件系统进行裁剪,对应用程序代码进行大量的优化... 介绍了基于ARM+DSP架构的嵌入式机器视觉系统的特性,分析了制约嵌入式机器视觉系统性能的因素。从操作系统和应用程序方面,讨论了嵌入式机器视觉系统的优化方案。通过对嵌入式Linux内核和文件系统进行裁剪,对应用程序代码进行大量的优化,并充分利用Cotex-A处理器独有的NEON加速技术,使系统开机启动时间缩短25 s,应用程序运行速度提高2.5倍。 展开更多
关键词 嵌入式 机器视觉 优化 arm neon
下载PDF
基于Jetson TX1带通采样宽带定向算法优化
12
作者 赵德铭 马晓川 杨力 《网络新媒体技术》 2019年第3期28-33,共6页
带通采样宽带定向算法优化方法基于ARM平台的NEON协处理器,提高主动声呐宽带信号定向算法实时性。实验结果表明:利用NEON协处理器的并行运算的优化方法比仅仅利用ARM处理器实现带通采样宽带定向算法速度提高接近一倍,进而实现数据处理... 带通采样宽带定向算法优化方法基于ARM平台的NEON协处理器,提高主动声呐宽带信号定向算法实时性。实验结果表明:利用NEON协处理器的并行运算的优化方法比仅仅利用ARM处理器实现带通采样宽带定向算法速度提高接近一倍,进而实现数据处理实时性;与具有同等处理速度的DSP阵列信号处理平台相比,克服了开发周期长、移植性差等缺点。 展开更多
关键词 arm平台 宽带定向算法 实时性 neon协处理器
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部