期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
发掘函数级单指令多数据向量化的方法
1
作者 李颖颖 高伟 +2 位作者 高雨辰 翟胜伟 李朋远 《计算机应用》 CSCD 北大核心 2017年第8期2200-2208,共9页
当前面向单指令多数据(SIMD)扩展部件的两类向量化方法分别是循环级向量化方法和超字级并行(SLP)方法。针对当前编译器不能实现函数级向量化的问题,提出一种基于静态单赋值的函数级向量化方法。该方法首先分析程序的变量属性,然后利用... 当前面向单指令多数据(SIMD)扩展部件的两类向量化方法分别是循环级向量化方法和超字级并行(SLP)方法。针对当前编译器不能实现函数级向量化的问题,提出一种基于静态单赋值的函数级向量化方法。该方法首先分析程序的变量属性,然后利用一组包括向量函数子句、一致子句、线性子句等编译指示子句指导编译器实现函数级向量化,最后利用变量属性结果对向量化代码进行了优化。从多媒体和图像处理领域选择部分测试用例对所提的函数级向量化的功能和性能在国产申威平台上进行测试,与程序串行执行相比,采用函数级向量化后程序的执行效率更高。实验结果表明函数级向量化可以取得类似任务级并行的加速效果,该方法可以指导自动函数级向量化的实现。 展开更多
关键词 单指令多数据扩展 并行性 函数级向量化 编译指示 静态单赋值
下载PDF
AES算法的SIMD指令集扩展方法与实现
2
作者 卢仕听 王帅 +1 位作者 韩军 曾晓洋 《计算机工程》 CAS CSCD 北大核心 2011年第6期121-123,共3页
基于MIPS32 4k系列的处理器架构,提出一种AES算法的SIMD指令集扩展方法,利用处理器流水线对齐级和AES数据访问单元,实现64 bit数据位宽的并行处理操作。对不同实现方式的性能进行比较,结果表明,该方法的加解密运算性能有较大提高,硬件... 基于MIPS32 4k系列的处理器架构,提出一种AES算法的SIMD指令集扩展方法,利用处理器流水线对齐级和AES数据访问单元,实现64 bit数据位宽的并行处理操作。对不同实现方式的性能进行比较,结果表明,该方法的加解密运算性能有较大提高,硬件代价相对较小,且具有编程灵活性。 展开更多
关键词 单指令多数据 高等加密标准 指令扩展
下载PDF
武进市政部件普查数据采集软件开发
3
作者 刘军 刘全海 +1 位作者 杨志惠 王华 《城市勘测》 2010年第6期43-46,共4页
主要介绍武进市政部件普查数据采集软件各功能模块的特色,并详细介绍了各功能模块开发思路,并给出了程序的主要代码。
关键词 AUTOCAD二次开发 市政部件 功能模块 XDATA扩展属性 ACCESS数据 程序源码
下载PDF
基于SSE指令的大内存快速拷贝 被引量:1
4
作者 钱昌松 刘志刚 刘代志 《计算机应用研究》 CSCD 北大核心 2005年第2期113-114,120,共3页
在深入研究单指令多数据流扩展指令集(StreamingSIMDExtensions,SSE)数据传输指令操作特点的基础上,充分考虑了数据预取、数据对齐、CPU缓存和新的128位寄存器等因素,在VisualC++平台上用嵌入汇编开发了内存拷贝函数。通过实验分析了各... 在深入研究单指令多数据流扩展指令集(StreamingSIMDExtensions,SSE)数据传输指令操作特点的基础上,充分考虑了数据预取、数据对齐、CPU缓存和新的128位寄存器等因素,在VisualC++平台上用嵌入汇编开发了内存拷贝函数。通过实验分析了各内存拷贝函数拷贝速度与拷贝内存量之间的对应关系。 展开更多
关键词 单指令多数据扩展指令 内存拷贝 MMX 代码优化
下载PDF
H.264编码器的SSE2指令级优化 被引量:1
5
作者 王琰 向校萱 祁燕 《计算机工程与应用》 CSCD 2012年第10期217-221,共5页
H.264视频编码标准采用了很多新技术,具有更优越的编码效率,同时也增加了计算复杂度,无法满足实时应用。由于单指令多数据扩展指令集2(SSE2)的并行运算能力可以提高计算机对多媒体数据的实时处理。文中主要采用了SSE2对H.264中的一些耗... H.264视频编码标准采用了很多新技术,具有更优越的编码效率,同时也增加了计算复杂度,无法满足实时应用。由于单指令多数据扩展指令集2(SSE2)的并行运算能力可以提高计算机对多媒体数据的实时处理。文中主要采用了SSE2对H.264中的一些耗时较多的关键模块,例如整数像素运动估计中计算SAD、整数DCT变换、量化、Hadamard变换以及亚像素运动估计中计算SATD进行了指令级优化。实验结果表明,经过优化后,在保持视频图像质量的前提下,相应模块运行速度得到了提高,使H.264编码器整体的编码速度较好地满足实时要求。 展开更多
关键词 H.264编码 绝对误差和 整数DCT变换 变换绝对差值总和 单指令多数据扩展指令集2(SSE2)
下载PDF
基于单指令多数据流扩展的光线投射算法优化
6
作者 邹云鹏 齐季 康雁 《生物医学工程学杂志》 CAS CSCD 北大核心 2012年第2期212-216,共5页
光线投射算法是目前医学图像可视化领域应用范围最广、成像效果最好的算法之一。由于大量的采样、梯度、光照和混合计算,所以该算法的运算开销也比较大。单指令多数据流扩展(SSE)指令集支持向量计算可以很好的支持光线投射算法的特性,... 光线投射算法是目前医学图像可视化领域应用范围最广、成像效果最好的算法之一。由于大量的采样、梯度、光照和混合计算,所以该算法的运算开销也比较大。单指令多数据流扩展(SSE)指令集支持向量计算可以很好的支持光线投射算法的特性,通过将梯度、光照和混合计算向量化,不仅可以明显提升算法的执行效率,而且可以绘制出高质量的可视化结果。 展开更多
关键词 医学图像可视化 光线投射 优化 单指令多数据扩展
原文传递
基于数据并行的碰撞检测
7
作者 彭振 吴百锋 《计算机工程》 CAS CSCD 北大核心 2017年第9期1-6,共6页
在建筑信息建模的精确碰撞检测应用中,数据量日趋庞大,但串行执行无法随处理机主频的增加而持续加速。针对该问题,构建面向多核及众核处理机的数据并行计算模型,基于此提出一种数据并行碰撞检测方法。对参与碰撞检测的模型进行立方体细... 在建筑信息建模的精确碰撞检测应用中,数据量日趋庞大,但串行执行无法随处理机主频的增加而持续加速。针对该问题,构建面向多核及众核处理机的数据并行计算模型,基于此提出一种数据并行碰撞检测方法。对参与碰撞检测的模型进行立方体细分,去除数据相关性,设计数据并行的模型组合、冲突检测和归约计算过程,并分析算法的抽象形式和理论执行时间。实验结果表明,该方法具有可行性和持续可扩展性,可为解决数据密集型问题提供一种高效的数据并行方式。 展开更多
关键词 数据并行 碰撞检测 单指令多数据 建筑信息建模 持续可扩展
下载PDF
一种基于剪切的SLP向量化方法
8
作者 李颖颖 奚慧兴 +2 位作者 高伟 李伟 翟胜伟 《计算机应用研究》 CSCD 北大核心 2018年第9期2578-2582,共5页
作为多媒体和科学计算等领域重要的程序加速器件之一,SIMD扩展部件现已广泛集成于各类处理器中。自动向量化方法是目前生成SIMD向量化程序的重要手段。超字并行SLP(superword level parallelism)方法现已广泛应用于编译器中,并成为实现... 作为多媒体和科学计算等领域重要的程序加速器件之一,SIMD扩展部件现已广泛集成于各类处理器中。自动向量化方法是目前生成SIMD向量化程序的重要手段。超字并行SLP(superword level parallelism)方法现已广泛应用于编译器中,并成为实现基本块级代码向量化的主要手段。SLP在进行收益评估时仅考虑代码段整体向量化的收益,并没有考虑到向量化收益为负的片段会降低最终整体的向量化收益,从而导致SLP方法无法达到最好的向量化效果。基于此,提出了一种基于剪切的SLP向量化方法(throttling SLP,TSLP)。通过寻找最优的向量化子图,去除了向量化收益为负的代码段,从而可以获得更好的向量化效果。通过标准测试程序的实验结果表明,与原来的SLP方法相比,TSLP方法平均能够获得9%的性能提升。 展开更多
关键词 单指令多数据扩展部件 自动向量化 超字并行 代价模型
下载PDF
SIMD自动向量化编译优化概述 被引量:30
9
作者 高伟 赵荣彩 +2 位作者 韩林 庞建民 丁锐 《软件学报》 EI CSCD 北大核心 2015年第6期1265-1284,共20页
SIMD扩展部件是集成到通用处理器中的加速部件,旨在发掘多媒体程序和科学计算程序的数据级并行.首先介绍SIMD扩展部件的背景和研究现状,然后从发掘方法、数据布局、多平台向量化这3个角度介绍了SIMD自动向量化的研究问题、困难和最新研... SIMD扩展部件是集成到通用处理器中的加速部件,旨在发掘多媒体程序和科学计算程序的数据级并行.首先介绍SIMD扩展部件的背景和研究现状,然后从发掘方法、数据布局、多平台向量化这3个角度介绍了SIMD自动向量化的研究问题、困难和最新研究成果,最后展望了SIMD编译优化未来的研究方向. 展开更多
关键词 SIMD扩展部件 自动向量化 数据级并行 编译优化
下载PDF
一种改进的控制流SIMD向量化方法 被引量:3
10
作者 高伟 李颖颖 +2 位作者 孙回回 李雁冰 赵荣彩 《软件学报》 EI CSCD 北大核心 2017年第8期2046-2063,共18页
SIMD扩展部件是近年来集成到通用处理器中的加速部件,旨在发掘多媒体和科学计算等程序的数据级并行.控制依赖给发掘程序中的数据级并行带来了阻碍,当前,无论基于loop-based还是SLP的控制流向量化方法都需要if转换,而没有考虑循环内蕴含... SIMD扩展部件是近年来集成到通用处理器中的加速部件,旨在发掘多媒体和科学计算等程序的数据级并行.控制依赖给发掘程序中的数据级并行带来了阻碍,当前,无论基于loop-based还是SLP的控制流向量化方法都需要if转换,而没有考虑循环内蕴含的向量并行度,导致生成的向量代码效率较低.此外,不精确的代价模型指导控制流向量化,同样导致生成的向量代码效率较低.为此,提出了改进的控制流SIMD向量化方法.首先,提出了含有控制依赖的循环分布算法,分离循环的可向量化部分和不可向量化部分,同时考虑分布时数据的局部性;其次,提出了一种直接向量化控制流的方法,该方法考虑了基本块间的向量重用;最后,利用精确的代价模型指导超字选择指令和超字条件分支指令的生成.实验结果表明:与现有的控制流向量化方法相比,改进方法生成的向量代码性能提高了24%. 展开更多
关键词 SIMD扩展部件 控制依赖 数据依赖 循环分布
下载PDF
H.264网络视频编码优化技术研究 被引量:2
11
作者 段大高 崔岩松 邓中亮 《电视技术》 北大核心 2005年第3期22-24,27,共4页
在CDMA1x无线视频传输系统的基础上,使用IntelSSE2技术对H.264编码中的SATD(SAD)计算、亚像素内插、整数变换和量化等复杂耗时模块进行了优化,使编码器的编码速度得到显著提高。
关键词 H.264标准 单指令多数据扩展 编码优化 无线视频传输
下载PDF
利用编译器进行地理信息系统软件的优化
12
作者 朱雷 潘懋 +2 位作者 李会军 徐绘宏 李丽勤 《计算机工程与应用》 CSCD 北大核心 2005年第13期27-28,77,共3页
在地理信息系统中需要处理的数据量越来越大的趋势下,提高软件代码的执行效率变得非常重要。论文介绍并讨论了利用编译器进行代码优化的各种情况;并采用地理信息系统中的一些空间分析的功能进行了测试。实验表明采用这种方法,提高了程... 在地理信息系统中需要处理的数据量越来越大的趋势下,提高软件代码的执行效率变得非常重要。论文介绍并讨论了利用编译器进行代码优化的各种情况;并采用地理信息系统中的一些空间分析的功能进行了测试。实验表明采用这种方法,提高了程序的运行速度,增强了程序分析处理数据的能力。 展开更多
关键词 地理信息系统 全程序优化 单指令多数据流式扩展
下载PDF
基于SIMD技术的σ-LFSR
13
作者 曾光 王政 韩文报 《计算机应用研究》 CSCD 北大核心 2008年第8期2434-2437,2443,共5页
σ-线性反馈移位寄存器(σ-LFSR)是一类适合软件快速实现的新型反馈移位寄存器。结合第二代单指令多数据流扩展指令集SSE2,设计了一类基于SIMD技术的σ-LFSR。这类σ-LFSR充分利用SSE2提供的128bit整数数据结构及其操作,获得了非常高的... σ-线性反馈移位寄存器(σ-LFSR)是一类适合软件快速实现的新型反馈移位寄存器。结合第二代单指令多数据流扩展指令集SSE2,设计了一类基于SIMD技术的σ-LFSR。这类σ-LFSR充分利用SSE2提供的128bit整数数据结构及其操作,获得了非常高的软件实现效率,同时其输出序列达到了最大周期并具有良好的随机性。所得结论表明这类基于SIMD技术的σ-LFSR可以作为适合软件实现的高速序列密码驱动部分。 展开更多
关键词 σ-线性反馈移位寄存器 单指令多数据技术 第二代单指令多数据扩展指令 序列密码 快速软件加密
下载PDF
基于SSE的FDTD程序设计 被引量:1
14
作者 李太全 肖柏勋 《微计算机信息》 2012年第10期31-32,67,共3页
应用单指令多数据流式扩展(SSE)指令集,实现时域有限差分算法(FDTD)的核心运算,并在考虑SSE指令的时延、执行端口和相互间相关性的前提下,进一步优化指令的排列顺序、数据的存取和FDTD循环,FDTD的迭代速度得到显著提高。通过对一组不同... 应用单指令多数据流式扩展(SSE)指令集,实现时域有限差分算法(FDTD)的核心运算,并在考虑SSE指令的时延、执行端口和相互间相关性的前提下,进一步优化指令的排列顺序、数据的存取和FDTD循环,FDTD的迭代速度得到显著提高。通过对一组不同网格数计算时间的测试,运算速度比原C语句的速度提高约2倍。 展开更多
关键词 并行计算 时域有限差分算法 单指令多数据流式扩展
下载PDF
脉冲耦合神经网络的并行加速优化算法研究
15
作者 钟瑾 施俊 常谦 《生物医学工程学进展》 CAS 2010年第1期7-11,共5页
并行编程技术可以有效提高算法的执行效率。文中分别利用CPU的单指令多数据流扩展指令集(Streaming SIMD Extensions,SSE)技术和多核并行编程技术,对脉冲耦合神经网络(Pulse Coupled Neural Network,PCNN)分割算法进行并行编程优化,以... 并行编程技术可以有效提高算法的执行效率。文中分别利用CPU的单指令多数据流扩展指令集(Streaming SIMD Extensions,SSE)技术和多核并行编程技术,对脉冲耦合神经网络(Pulse Coupled Neural Network,PCNN)分割算法进行并行编程优化,以减少算法的运行时间。实验结果表明,SSE技术以及多核并行编程技术大大加快了PCNN分割算法的运行速度,有效提高了算法的执行效率,在一定程度上解决了该方法计算量大、耗时多的问题,具有应用于医学图像处理的潜在价值。 展开更多
关键词 脉冲耦合神经网络 单指令多数据扩展指令集(SSE) 多核 并行编程
下载PDF
基于SSE技术的H.264运动估计的并行处理
16
作者 李小红 《合肥学院学报(自然科学版)》 2005年第3期21-24,共4页
H.264标准是ITU-T视频编码专家组(VCEG)和ISO/IECMPEG委员会正在制定的用于视频通信的新一代视频编码标准。运动估计是H.264最关键技术,占计算量的主要部分,因而成为视频压缩处理的瓶颈,因此必须研究运动估计的并行处理算法。通过介绍SS... H.264标准是ITU-T视频编码专家组(VCEG)和ISO/IECMPEG委员会正在制定的用于视频通信的新一代视频编码标准。运动估计是H.264最关键技术,占计算量的主要部分,因而成为视频压缩处理的瓶颈,因此必须研究运动估计的并行处理算法。通过介绍SSE技术的特点、数据结构和内联函数,在此基础上用SSE技术实现了运动估计并行算法。 展开更多
关键词 H.264 运动估计 单指令多数据流式扩展技术 单指令多数据技术
下载PDF
SIMD非对齐访存结构设计与实现 被引量:3
17
作者 余成龙 王永文 《计算机工程》 CAS CSCD 北大核心 2016年第9期1-4,共4页
单指令流多数据流(SIMD)是实现数据级并行的有效方法,但访问地址非对齐的数据严重影响程序的向量化,造成处理器性能下降。为降低非对齐访存延时,对高性能应用程序的访存结构进行建模,设计并实现SIMD分离缓冲行非对齐访存结构与双体cach... 单指令流多数据流(SIMD)是实现数据级并行的有效方法,但访问地址非对齐的数据严重影响程序的向量化,造成处理器性能下降。为降低非对齐访存延时,对高性能应用程序的访存结构进行建模,设计并实现SIMD分离缓冲行非对齐访存结构与双体cache非对齐访存结构。实验结果表明,在双体cache非对齐访存结构下,通过两数组相加与SIMD向量化实现的非对齐访存代码可达到对齐访存代码性能的99%,提高了SIMD向量化的访存效率。 展开更多
关键词 高性能计算 数据级并行 向量化 单指令多数据扩展 非对齐访存 Gem5模拟器
下载PDF
基于DAQ和FPGA开发星务软件测试平台 被引量:1
18
作者 云颖 宋雷军 沈炳华 《飞行器测控学报》 2012年第4期80-83,共4页
针对航天软件自动化测试和测试通用性要求的不断提高,提出基于DAQ(数据采集)和FPGA(现场可编程门阵列)的星务软件测试平台构建方案,在PXI(PCI eXtensions for Instrumentation,外设部件互联标准在仪器领域的扩展)系统环境下应用N... 针对航天软件自动化测试和测试通用性要求的不断提高,提出基于DAQ(数据采集)和FPGA(现场可编程门阵列)的星务软件测试平台构建方案,在PXI(PCI eXtensions for Instrumentation,外设部件互联标准在仪器领域的扩展)系统环境下应用NI(美国国家仪器公司)的DAQ板卡和FPGA板卡实现星务软件外围数据的仿真模拟,应用Lab-VIEW编程实现信号的解析和良好的人机交互界面。在实际测试中,它能够很好地完成一系列星务软件的自动化动态测试、故障模拟测试等,大大缩短了测试周期,提高了测试效率。此平台完全满足航天软件现代化测试的要求,具有开发周期短、使用效率高、通用性强等优点。 展开更多
关键词 数据采集(DAQ) 现场可编程门阵列(FPGA) 外设部件互联标准在仪器领域的扩展(PXI)系统 LABVIEW 星务软件 软件测试平台
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部