期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
基于SSE指令的大内存快速拷贝 被引量:1
1
作者 钱昌松 刘志刚 刘代志 《计算机应用研究》 CSCD 北大核心 2005年第2期113-114,120,共3页
在深入研究单指令多数据流扩展指令集(StreamingSIMDExtensions,SSE)数据传输指令操作特点的基础上,充分考虑了数据预取、数据对齐、CPU缓存和新的128位寄存器等因素,在VisualC++平台上用嵌入汇编开发了内存拷贝函数。通过实验分析了各... 在深入研究单指令多数据流扩展指令集(StreamingSIMDExtensions,SSE)数据传输指令操作特点的基础上,充分考虑了数据预取、数据对齐、CPU缓存和新的128位寄存器等因素,在VisualC++平台上用嵌入汇编开发了内存拷贝函数。通过实验分析了各内存拷贝函数拷贝速度与拷贝内存量之间的对应关系。 展开更多
关键词 单指令多数据流扩展指令集 内存拷贝 MMX 代码优化
下载PDF
H.264编码器的SSE2指令级优化 被引量:1
2
作者 王琰 向校萱 祁燕 《计算机工程与应用》 CSCD 2012年第10期217-221,共5页
H.264视频编码标准采用了很多新技术,具有更优越的编码效率,同时也增加了计算复杂度,无法满足实时应用。由于单指令多数据扩展指令集2(SSE2)的并行运算能力可以提高计算机对多媒体数据的实时处理。文中主要采用了SSE2对H.264中的一些耗... H.264视频编码标准采用了很多新技术,具有更优越的编码效率,同时也增加了计算复杂度,无法满足实时应用。由于单指令多数据扩展指令集2(SSE2)的并行运算能力可以提高计算机对多媒体数据的实时处理。文中主要采用了SSE2对H.264中的一些耗时较多的关键模块,例如整数像素运动估计中计算SAD、整数DCT变换、量化、Hadamard变换以及亚像素运动估计中计算SATD进行了指令级优化。实验结果表明,经过优化后,在保持视频图像质量的前提下,相应模块运行速度得到了提高,使H.264编码器整体的编码速度较好地满足实时要求。 展开更多
关键词 H.264编码 绝对误差和 整数DCT变换 变换绝对差值总和 单指令多数据扩展指令集2(sse2)
下载PDF
利用SIMD指令加速VLSI设计规则检查 被引量:1
3
作者 赵冬晖 潘日华 池凤彬 《微电子学与计算机》 CSCD 北大核心 2008年第7期68-71,共4页
提出通过利用SIMD技术强大的运算能力和并行能力,有效地提高DRC效率的方法.实验表明经过利用SIMD方法优化后的DRC算法的效率,是经编译器优化DRC的2倍左右,与原始的C代码DRC算法相比有一个数量级的提高.
关键词 VLSI DRC simd sse指令集
下载PDF
Blocking optimized SIMD tree search on modern processors 被引量:2
4
作者 张倬 陆宇凡 +2 位作者 沈文枫 徐炜民 郑衍衡 《Journal of Shanghai University(English Edition)》 CAS 2011年第5期437-444,共8页
Tree search is a widely used fundamental algorithm. Modern processors provide tremendous computing power by integrating multiple cores, each with a vector processing unit. This paper reviews some studies on exploiting... Tree search is a widely used fundamental algorithm. Modern processors provide tremendous computing power by integrating multiple cores, each with a vector processing unit. This paper reviews some studies on exploiting single instruction multiple date (SIMD) capacity of processors to improve the performance of tree search, and proposes several improvement methods on reported SIMD tree search algorithms. Based on blocking tree structure, blocking for memory alignment and dynamic blocking prefetch are proposed to optimize the overhead of memory access. Furthermore, as a way of non-linear loop unrolling, the search branch unwinding shows that the number of branches can exceed the data width of SIMD instructions in the SIMD search algorithm. The experiments suggest that blocking optimized SIMD tree search algorithm can achieve 1.6 times response speed faster than the un-optimized algorithm. 展开更多
关键词 single instruction multiple date simd tree search binary search streaming simd extensions (sse Cell broadband engine (BE)
下载PDF
H.264网络视频编码优化技术研究 被引量:2
5
作者 段大高 崔岩松 邓中亮 《电视技术》 北大核心 2005年第3期22-24,27,共4页
在CDMA1x无线视频传输系统的基础上,使用IntelSSE2技术对H.264编码中的SATD(SAD)计算、亚像素内插、整数变换和量化等复杂耗时模块进行了优化,使编码器的编码速度得到显著提高。
关键词 H.264标准 单指令多数据流扩展 编码优化 无线视频传输
下载PDF
一种电子输运的矢量化Monte Carlo模拟方法 被引量:1
6
作者 翁学军 罗立民 汪家旺 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2002年第2期193-196,共4页
给出了一种采用SSE(StreamingSIMDExtensions)技术实现矢量化模拟电子在人体组织中输运的蒙特卡罗方法 ,并对一个计算放疗剂量分布的蒙特卡罗代码DPM进行了实施 ,将DPM模拟电子的方式由原来的一个个顺序模拟改为一次模拟 4个电子 ,这 4... 给出了一种采用SSE(StreamingSIMDExtensions)技术实现矢量化模拟电子在人体组织中输运的蒙特卡罗方法 ,并对一个计算放疗剂量分布的蒙特卡罗代码DPM进行了实施 ,将DPM模拟电子的方式由原来的一个个顺序模拟改为一次模拟 4个电子 ,这 4个电子进行同一个动作时 ,这部分程序可借助于SSE指令实现并行处理 .计算结果显示 :在不增加任何硬件成本的情况下 ,可以提高计算电子剂量分布的速度 1 .8倍左右 . 展开更多
关键词 放射治疗 蒙特卡罗模拟 剂量分布计算 sse技术 DPM代码 电子输运 矢量化模拟 人体组织
下载PDF
FDTD算法的三级并行实现 被引量:1
7
作者 张立红 余文华 《计算机工程》 CAS CSCD 北大核心 2011年第S1期333-335,共3页
传统的并行FDTD算法都是基于MPI或OpenMP或MPI+OpenMP的一级或两级并行算法。为加速基于MPI+OpenMP的两级并行FDTD算法,把基于SSE指令集的并行加速技术引入到FDTD算法中,采用基于MPI+OpenMP+SSE指令集的三级并行加速技术。在PC集群上对C... 传统的并行FDTD算法都是基于MPI或OpenMP或MPI+OpenMP的一级或两级并行算法。为加速基于MPI+OpenMP的两级并行FDTD算法,把基于SSE指令集的并行加速技术引入到FDTD算法中,采用基于MPI+OpenMP+SSE指令集的三级并行加速技术。在PC集群上对CPML吸收边界下点源在真空中传播的理想情况进行加速测试。基于SSE指令集的加速技术理想加速比为4,实验中在网格数为200 200 200情况下得到的加速比为2.44,加速效果较好。 展开更多
关键词 时域有限差分 消息传递接口 OpenMP共享存储编程 sse指令集 并行
下载PDF
等效环路时域有限差分算法及其核内加速技术
8
作者 刘立国 莫锦军 +1 位作者 付云起 袁乃昌 《系统工程与电子技术》 EI CSCD 北大核心 2013年第6期1138-1142,共5页
提出了一种新颖的有限差分算法——等效环路有限差分算法。这种算法借鉴传输线算法的思想,在Yee氏网格中引入集总元件的概念,由于其良好的物理思想,可实现对于色散介质的仿真计算。单指令多数据指令集(streaming single-instruction mul... 提出了一种新颖的有限差分算法——等效环路有限差分算法。这种算法借鉴传输线算法的思想,在Yee氏网格中引入集总元件的概念,由于其良好的物理思想,可实现对于色散介质的仿真计算。单指令多数据指令集(streaming single-instruction multiple-data extensions,SSE)技术是Intel公司提出的核内并行加速技术,普通的个人电脑都支持这种技术。结合SSE技术,可实现对算法的有效加速,这种加速技术无须硬件的改进即可实现理论上最高4倍的加速。分别利用等效环路有限差分算法、普通有限差分算法仿真计算了平面倒F天线(pla-nar inverted-F antenna,PIFA)的端口反射系数和天线方向图,并与实测数据进行了比较,验证了算法的正确性。在实际的运算中,使用SSE技术普遍可实现2倍以上的加速比,加速算法的有效性得到了验证。 展开更多
关键词 等效环路 时域有限差分 加速比 单指令多数据指令集 集总元件
下载PDF
脉冲耦合神经网络的并行加速优化算法研究
9
作者 钟瑾 施俊 常谦 《生物医学工程学进展》 CAS 2010年第1期7-11,共5页
并行编程技术可以有效提高算法的执行效率。文中分别利用CPU的单指令多数据流扩展指令集(Streaming SIMD Extensions,SSE)技术和多核并行编程技术,对脉冲耦合神经网络(Pulse Coupled Neural Network,PCNN)分割算法进行并行编程优化,以... 并行编程技术可以有效提高算法的执行效率。文中分别利用CPU的单指令多数据流扩展指令集(Streaming SIMD Extensions,SSE)技术和多核并行编程技术,对脉冲耦合神经网络(Pulse Coupled Neural Network,PCNN)分割算法进行并行编程优化,以减少算法的运行时间。实验结果表明,SSE技术以及多核并行编程技术大大加快了PCNN分割算法的运行速度,有效提高了算法的执行效率,在一定程度上解决了该方法计算量大、耗时多的问题,具有应用于医学图像处理的潜在价值。 展开更多
关键词 脉冲耦合神经网络 单指令多数据流扩展指令集(sse) 多核 并行编程
下载PDF
基于单指令多数据流扩展的光线投射算法优化
10
作者 邹云鹏 齐季 康雁 《生物医学工程学杂志》 CAS CSCD 北大核心 2012年第2期212-216,共5页
光线投射算法是目前医学图像可视化领域应用范围最广、成像效果最好的算法之一。由于大量的采样、梯度、光照和混合计算,所以该算法的运算开销也比较大。单指令多数据流扩展(SSE)指令集支持向量计算可以很好的支持光线投射算法的特性,... 光线投射算法是目前医学图像可视化领域应用范围最广、成像效果最好的算法之一。由于大量的采样、梯度、光照和混合计算,所以该算法的运算开销也比较大。单指令多数据流扩展(SSE)指令集支持向量计算可以很好的支持光线投射算法的特性,通过将梯度、光照和混合计算向量化,不仅可以明显提升算法的执行效率,而且可以绘制出高质量的可视化结果。 展开更多
关键词 医学图像可视化 光线投射 优化 单指令多数据流扩展
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部