期刊文献+
共找到71篇文章
< 1 2 4 >
每页显示 20 50 100
VLIW处理器ISA建模与辅助软件优化技术 被引量:3
1
作者 严迎建 叶建森 +1 位作者 刘军伟 徐劲松 《计算机工程与设计》 CSCD 北大核心 2009年第11期2727-2729,2752,共4页
在基于VLIW结构的分组密码专用处理器设计过程中,研究了VLIW处理器的指令集体系结构建模技术。设计了一个指令精确的指令集模拟器,通过附加一个流水线相关及停顿统计模块,实现了周期精确的程序运行统计和流水线停顿统计。结合指令集模... 在基于VLIW结构的分组密码专用处理器设计过程中,研究了VLIW处理器的指令集体系结构建模技术。设计了一个指令精确的指令集模拟器,通过附加一个流水线相关及停顿统计模块,实现了周期精确的程序运行统计和流水线停顿统计。结合指令集模拟器、汇编器以及调试器,设计了一个面向VLIW处理器的辅助程序优化环境。利用模拟器和调试器来评估程序的指令级并行度以及资源占用情况,辅助程序开发者优化VLIW处理器程序,从而达到软硬件协作开发VLIW处理器指令级并行性的最终目的。 展开更多
关键词 超长指令字(vliw) 处理器建模 指令集体系结构 指令集模拟器 指令级并行
下载PDF
定制VLIW结构实现四精度浮点基本函数 被引量:1
2
作者 雷元武 窦勇 +1 位作者 倪时策 周杰 《电子学报》 EI CAS CSCD 北大核心 2012年第9期1715-1722,共8页
本文针对科学应用中基本函数种类多、实现复杂、使用频率低的特点,提出一种定制VLIW结构四精度浮点基本函数协处理器(QPC-Processor).该结构通过显示并行技术挖掘基本函数实现算法的并行性,在同一硬件平台上通过元操作的不同组合来计算... 本文针对科学应用中基本函数种类多、实现复杂、使用频率低的特点,提出一种定制VLIW结构四精度浮点基本函数协处理器(QPC-Processor).该结构通过显示并行技术挖掘基本函数实现算法的并行性,在同一硬件平台上通过元操作的不同组合来计算多种基本函数.同时,本文还提出基本函数元操作序列到定制VLIW指令的映射算法,指导基本函数的设计.最后,在FPGA平台上进行验证.实验结果表明,相对软件实现,单个QPC-Processor能够取得6倍以上的加速比,而且,QFC-Processor在同一硬件平台上实现多种类型的算法,弥补单一算法的不足,获得较高的硬件资源利用率. 展开更多
关键词 四精度浮点算术 超长指令字 基本函数 CORDIC算法
下载PDF
一种基于VLIW结构的高性能变长指令发射机制 被引量:1
3
作者 杨惠 陈书明 《计算机研究与发展》 EI CSCD 北大核心 2013年第10期2239-2246,共8页
指令压缩技术能够克服传统超长指令字(very long instruction word,VLIW)结构的指令高速缓冲(cache)中长指令字密度低的缺陷,使长指令字中的各条指令能紧密地排列在高速缓冲行(cache line)中,但可能导致长指令字分置于两个cache line,... 指令压缩技术能够克服传统超长指令字(very long instruction word,VLIW)结构的指令高速缓冲(cache)中长指令字密度低的缺陷,使长指令字中的各条指令能紧密地排列在高速缓冲行(cache line)中,但可能导致长指令字分置于两个cache line,使其不能同时参与取指与发射,从而成为处理器的性能瓶颈.受到分置cache line的影响,传统提升循环效率的软件流水方法性能下降.高性能变长指令发射窗的机制能够解决分离指令字带来的取指发射问题,为取指流水线提供高效连续的指令流,特别地,该机制缓存循环的一次迭代,硬件支持循环的软件流水,有效地增强VLIW结构的数字信号处理器(digital signal processor,DSP)的性能.通过搭建时钟精确的处理器仿真模型,并基于DSP?IMG库上进行仿真,结果显示,采用两级指令发射窗机制,平均性能提高约21.89%. 展开更多
关键词 超长指令字 指令发射 指令压缩 软件流水 取指流水线
下载PDF
消除VLIW结构上的循环体间冗余流相关 被引量:1
4
作者 容红波 汤志忠 《软件学报》 EI CSCD 北大核心 2000年第1期126-132,共7页
数据相关是并行处理的基本依据 .该文指出 ,VLIW(very long instruction word)特有的锁步性质使其数据相关性分析具有与众不同的特点 .同一体差上的流相关形成一个线序集合 ,多体差上的特征流相关之间也存在包含关系 .据此 ,提出一种用... 数据相关是并行处理的基本依据 .该文指出 ,VLIW(very long instruction word)特有的锁步性质使其数据相关性分析具有与众不同的特点 .同一体差上的流相关形成一个线序集合 ,多体差上的特征流相关之间也存在包含关系 .据此 ,提出一种用于 VL IW的消除循环体间冗余流相关的方法 .该方法是完备的 ,可以去除所有冗余的体间流相关 ,从而减轻循环调度的负担 .文章给出判定单体差和多体差存在冗余的充分必要条件 ,以及消除冗余的线性复杂度的算法 .这种方法具有普遍意义 ,可作为 VL IW上软件流水和多指令流调度的基础 . 展开更多
关键词 vliw 循环调度 数据相关 冗余 并行处理
下载PDF
A scalable and low power VLIW DSP core for embedded system design 被引量:1
5
作者 Sheraz Anjum 陈杰 +4 位作者 韩亮 林川 张晓潇 苏叶华 程亚奇 《Journal of Harbin Institute of Technology(New Series)》 EI CAS 2008年第2期172-175,共4页
Aims to provide the block architecture of CoStar3400 DSP that is a high performance, low power and scalable VLIW DSP core, it efficiently deployed a variable-length execution set (VLES) execution model which utilizes ... Aims to provide the block architecture of CoStar3400 DSP that is a high performance, low power and scalable VLIW DSP core, it efficiently deployed a variable-length execution set (VLES) execution model which utilizes the maximum parallelism by allowing multiple address generations and data arithmetic logic units to execute multiple instructions in a single clock cycle. The scalability was provided mainly in using more or less number of functional units according to the intended application. Low power support was added by careful architectural design techniques such as fine-grain clock gating and activation of only the required number of control signals at each stage of the pipeline. The said features of the core make it a suitable candidate for many SoC configurations, especially for compute intensive applications such as wire-line and wireless communications, including infrastructure and subscriber communications. The embedded system designers can efficiently use the scalability and VLIW features of the core by scaling the number of execution units according to specific needs of the application to effectively reduce the power consumption, chip area and time to market the intended final product. 展开更多
关键词 Very long instruction word (vliw low Dower DSP compute intensive system on chip (SoC)
下载PDF
VLIW处理器循环指令缓冲器设计与实现
6
作者 李勇 胡慧俐 杨焕荣 《计算机应用》 CSCD 北大核心 2014年第4期1005-1009,共5页
数字信号处理软件中循环程序在执行时间上占有很大比例,用指令缓冲器暂存循环代码可以减少程序存储器的访问次数,提高处理器性能。在VLIW处理器指令流水线中增加一个支持循环指令的缓冲器,该缓冲器能够缓存循环程序指令,并以软件流水的... 数字信号处理软件中循环程序在执行时间上占有很大比例,用指令缓冲器暂存循环代码可以减少程序存储器的访问次数,提高处理器性能。在VLIW处理器指令流水线中增加一个支持循环指令的缓冲器,该缓冲器能够缓存循环程序指令,并以软件流水的形式向功能部件派发循环程序指令。这样循环程序代码只需访存一次而执行多次,大大减少了访存次数。在循环指令运行期间,缓冲器发出信号使程序存储器进入睡眠状态可以降低处理器功耗。典型的应用程序测试表明,使用了循环缓冲后,取指流水线空闲率可达90%以上,处理器整体性能提高10%左右,而循环缓冲的硬件面积开销大约占取指流水线的9%。 展开更多
关键词 超长指令字处理器 循环程序 循环缓冲器 软件流水
下载PDF
Efficient matrix inversion based on VLIW architecture
7
作者 Li Zhang Fu Li Guangming Shi 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2014年第3期393-398,共6页
Matrix inversion is a critical part in communication, signal processing and electromagnetic system. A flexible and scalable very long instruction word (VLIW) processor with clustered architecture is proposed for mat... Matrix inversion is a critical part in communication, signal processing and electromagnetic system. A flexible and scalable very long instruction word (VLIW) processor with clustered architecture is proposed for matrix inversion. A global register file (RF) is used to connect al the clusters. Two nearby clusters share a local register file. The instruction sets are also designed for the VLIW processor. Experimental results show that the proposed VLIW architecture takes only 45 latency to invert a 4 × 4 matrix when running at 150 MHz. The proposed design is roughly five times faster than the DSP solution in processing speed. 展开更多
关键词 matrix inversion very long instruction word (vliw latency register file (RF) cluster.
下载PDF
基于VLIW体系结构的流相关分析
8
作者 容红波 mail.cic.tsinghua.edu.cn +1 位作者 汤志忠 tsinghua.edu.cn 《软件学报》 EI CSCD 北大核心 2000年第5期646-653,共8页
流相关是影响 VL IW( very long instruction word)结构上的循环调度的一个关键因素 .目前的研究未利用 VL IW的锁步特性 .利用这一性质 ,围绕着包含这一概念 ,该文为 VL IW结构上的流相关分析提出了一个完整的娄学模型 ,发现体间流相... 流相关是影响 VL IW( very long instruction word)结构上的循环调度的一个关键因素 .目前的研究未利用 VL IW的锁步特性 .利用这一性质 ,围绕着包含这一概念 ,该文为 VL IW结构上的流相关分析提出了一个完整的娄学模型 ,发现体间流相关集合可划分为若干不相交的线序集合 ,存在且仅存在一个独立的、全包含的流相关集合 (基 ) ,使其他所有流相关都不必要 .该模型允许多周期操作和条件分支 .该结果可作为研究 VLIW的数学基础 。 展开更多
关键词 vliw 体系结构 流相关分析 数据处理
下载PDF
Word长文档框架结构的编排技巧 被引量:3
9
作者 万德年 《办公自动化(综合月刊)》 2011年第3期53-55,62,共4页
本文通过详细讲解如何灵活运用Word的各种命令来编排Word文字、图形、表格混合的长文档,使人们在日常的Word办公应用中的排版更简单直接,且达到更好的图文效果。
关键词 word长文档 命令 灵活运用 编排
下载PDF
VLIW中指令级的并行处理分析
10
作者 徐建兵 曲俊华 《现代电力》 2002年第5期69-75,共7页
在研究超长指令 (VL IW,Very L ong Instruction Word)体系结构的基础上 ,总结了 VL IW体系结构的指令结构特征、处理器结构体征和执行特征 ,用VL IW的编译调度很好的提高了指令级的并行处理。提高指令级并行性是实现高性能中央处理器... 在研究超长指令 (VL IW,Very L ong Instruction Word)体系结构的基础上 ,总结了 VL IW体系结构的指令结构特征、处理器结构体征和执行特征 ,用VL IW的编译调度很好的提高了指令级的并行处理。提高指令级并行性是实现高性能中央处理器的主要手段 ,因而如何实现指令的动态调度和解决控制相关以及多指令流出 ,这就成为了开发一个指令级并行性能高的微处理器的关键所在。文中介绍了 VL IW的循环展开的指令处理技术 ,大大提高了指令的执行速度 ,从一个方面预示了 VL IW的发展前景。 展开更多
关键词 vliw 指令级 并行处理分析 中央处理器 超长指令字 编译调度 微处理器 体系结构
下载PDF
一种基于寄存器压力的VLIWDSP分簇算法 被引量:9
11
作者 雷一鸣 洪一 +1 位作者 徐云 姜海涛 《计算机应用》 CSCD 北大核心 2010年第1期274-276,共3页
寄存器是程序运行时最宝贵的资源之一,软件流水在对VLIW DSP指令调度的同时,会显著增加寄存器的压力,从而导致寄存器溢出,软件流水中止。在以往的研究中,软件流水之前的指令分簇会更多地考虑指令并行性,往往会把寄存器的压力交给寄存器... 寄存器是程序运行时最宝贵的资源之一,软件流水在对VLIW DSP指令调度的同时,会显著增加寄存器的压力,从而导致寄存器溢出,软件流水中止。在以往的研究中,软件流水之前的指令分簇会更多地考虑指令并行性,往往会把寄存器的压力交给寄存器分配阶段,当物理寄存器不够分配时会造成寄存器溢出。通过考察指令运行时的寄存器压力情况对指令进行分簇,这样可根据各个簇的寄存器压力的动态信息减少寄存器的溢出,提高指令运行效率。 展开更多
关键词 超长指令字 编译器 分簇 寄存器压力 软件流水 模变量扩展
下载PDF
一种新的基于VLIW的IDCT和运动补偿算法 被引量:2
12
作者 欧阳万里 肖创柏 刘广 《电子学报》 EI CAS CSCD 北大核心 2005年第11期2074-2079,共6页
本文使用矩阵形式在超长指令字(VLIW)的观点下将几种经典算法与已有的适合于VLIW的算法进行了比较.然后利用VLIW结构的特性,提出了一种快速IDCT算法.与现有算法相比,新算法进一步减少了所需的指令周期.并利用VLIW结构的寄存器特性,将视... 本文使用矩阵形式在超长指令字(VLIW)的观点下将几种经典算法与已有的适合于VLIW的算法进行了比较.然后利用VLIW结构的特性,提出了一种快速IDCT算法.与现有算法相比,新算法进一步减少了所需的指令周期.并利用VLIW结构的寄存器特性,将视频编解码过程中的运动补偿(预测)和IDCT(DCT)组合,使运动补偿所需时间降低为原来的约50%,这种思想能应用于MPEG1/2/4,H.263和H.264. 展开更多
关键词 超长指令字(vliw) 离散余弦变换(DCT) IDCT 快速算法 并行算法 运动补偿 视频压缩 DSP
下载PDF
基于数据流图的异构VLIW DSP分簇方法 被引量:1
13
作者 邱鹏飞 洪一 +1 位作者 耿锐 徐云 《计算机应用》 CSCD 北大核心 2011年第4期935-937,977,共4页
超长指令字数字信号处理器(VLIW DSP)的指令级并行性(ILP)主要通过指令分簇和软件流水来实现。在以前的研究中,指令分簇主要只考虑指令级并行性和减少簇间转移指令,对异构体系结构和某些寄存器只能分在指定簇上的情况考虑较少。提出一... 超长指令字数字信号处理器(VLIW DSP)的指令级并行性(ILP)主要通过指令分簇和软件流水来实现。在以前的研究中,指令分簇主要只考虑指令级并行性和减少簇间转移指令,对异构体系结构和某些寄存器只能分在指定簇上的情况考虑较少。提出一种基于数据流图(DFG)的异构体系结构上的分簇方法,利用指令的相关性将DFG划分为与簇数目相同个数的子图,再根据特殊寄存器对簇的要求采用启发式算法对子图进行调整,实验结果表明这种分簇方法使得负载更均衡,加速比相对于传统方法可以提高8%左右。 展开更多
关键词 超长指令字 指令级并行性 异构 分簇 启发式算法
下载PDF
VLIW-Superscalar混合结构处理器分支预测结构设计 被引量:1
14
作者 杜勇 李秦华 +3 位作者 陈峰扬 郭德源 李笑天 何虎 《计算机应用与软件》 CSCD 北大核心 2014年第8期25-27,78,共4页
在一款同时支持超标量与超长指令字执行方式混合结构数字信号处理器上,为超标量结构添加分支预测功能。为控制硬件设计的复杂度,同时保证分支预测的命中率,分支预测方案使用gshare预测器。在设计完成的硬件上,运行由Open64编译器编译的D... 在一款同时支持超标量与超长指令字执行方式混合结构数字信号处理器上,为超标量结构添加分支预测功能。为控制硬件设计的复杂度,同时保证分支预测的命中率,分支预测方案使用gshare预测器。在设计完成的硬件上,运行由Open64编译器编译的Dhrystone、Coremark基准测试程序。实验结果表明,在添加分支预测功能后,处理器的性能提高30%~35%。 展开更多
关键词 超标量 超长指令字 数字信号处理器 分支预测
下载PDF
面向图像识别的深度学习VLIW处理器设计 被引量:2
15
作者 李林 张盛兵 吴鹃 《西北工业大学学报》 EI CAS CSCD 北大核心 2020年第1期216-224,共9页
为了适应航空航天领域高分辨率图像识别和本地化高效处理的需求,解决现有研究中计算并行性不足的问题,在对深度卷积神经网络模型各层计算优化的基础上,设计了一款可扩展的多处理器簇的深度学习超长指令字(VLIW)处理器体系结构。设计中... 为了适应航空航天领域高分辨率图像识别和本地化高效处理的需求,解决现有研究中计算并行性不足的问题,在对深度卷积神经网络模型各层计算优化的基础上,设计了一款可扩展的多处理器簇的深度学习超长指令字(VLIW)处理器体系结构。设计中采用了特征图和神经元的并行处理,基于VLIW的指令级并行,多处理器簇的数据级并行以及流水线技术。FPGA原型系统测试结果表明,该处理器可有效完成图像分类和目标检测应用;当工作频率为200 MHz时,处理器的峰值性能可以达到128 GOP/s;针对选取的测试基准,该处理器的计算速度至少是CPU的12倍,是GPU的7倍;对比软件框架运行结果,处理器的测试精度的平均误差不超过1%。 展开更多
关键词 图像识别 深度学习 卷积神经网络 超长指令字(vliw) 处理器 可扩展
下载PDF
基于整数线性规划的VLIW DSP指令分簇调度 被引量:2
16
作者 周鹏 刘纯纲 郑启龙 《计算机应用研究》 CSCD 北大核心 2022年第10期3078-3083,共6页
在分簇VLIW DSP上,指令分簇是一项对程序性能有重要影响的编译优化,但现有的指令分簇算法只能处理顺序的程序区域,且难以获得最佳的分簇方案。针对这些问题,提出一种基于整数线性规划的统一指令分簇与指令调度的方法。该方法使用0-1决... 在分簇VLIW DSP上,指令分簇是一项对程序性能有重要影响的编译优化,但现有的指令分簇算法只能处理顺序的程序区域,且难以获得最佳的分簇方案。针对这些问题,提出一种基于整数线性规划的统一指令分簇与指令调度的方法。该方法使用0-1决策变量表示函数中指令的分簇、指令的局部调度以及簇间传输指令的全局调度,并将指令之间的依赖关系和对处理器资源的竞争关系构造为线性约束,最终得到一个以最小化函数的估计执行时间为目标的整数线性规划模型。实验结果表明,求解该模型得到的分簇调度方案对程序性能的优化显著强于现有算法,并且求解模型所耗费的时间是可接受的。 展开更多
关键词 数字信号处理器 超长指令字 指令分簇 指令调度 整数线性规划
下载PDF
数字信号变换函数在多簇VLIW DSP上的优化 被引量:2
17
作者 甄扬 顾乃杰 叶鸿 《计算机工程》 CAS CSCD 北大核心 2016年第3期47-52,共6页
针对BWDSP100体系结构特点,基于循环展开、指令调度以及软件流水等并行优化技术,结合多簇超长指令架构的特点,通过使用超算硬件指令、零开销循环、指令重新编排与并行等方法对BWDSP100数字信号处理函数库中的函数实施并行化,并基于库中... 针对BWDSP100体系结构特点,基于循环展开、指令调度以及软件流水等并行优化技术,结合多簇超长指令架构的特点,通过使用超算硬件指令、零开销循环、指令重新编排与并行等方法对BWDSP100数字信号处理函数库中的函数实施并行化,并基于库中原有的顺序版本实现并行优化版本。实验结果表明,在4宏并行化模式下,所有函数加速比达到9以上,90%的函数加速比超过10,平均加速比为11.12。 展开更多
关键词 超长指令字 单指令流多数据流 数字信号处理器 循环展开 并行化 多簇
下载PDF
面向Superscalar与VLIW混合架构处理器的调试器设计 被引量:1
18
作者 杨群 李笑天 何虎 《计算机应用与软件》 CSCD 2015年第5期84-87,163,共5页
描述基于GDB的支持超标量(Superscalar)和超长指令字(VLIW)双模式混合架构的调试器设计。该调试器设计分为代理调试端和客户端两部分,代理调试端实现基于RSP协议的基本调试代理功能,客户端实现目标处理器的添加,调试器初始化,寄存器数... 描述基于GDB的支持超标量(Superscalar)和超长指令字(VLIW)双模式混合架构的调试器设计。该调试器设计分为代理调试端和客户端两部分,代理调试端实现基于RSP协议的基本调试代理功能,客户端实现目标处理器的添加,调试器初始化,寄存器数据、操作码等的处理。测试结果表明调试器实现了远程调试,查看、修改寄存器及内存值,添加、删除断点,反汇编,查看栈信息及单步等程序调试功能。 展开更多
关键词 GDB 超标量 超长指令字 Gem5 混合架构 调试器
下载PDF
一种面向VLIW指令压缩的寄存器分配算法 被引量:1
19
作者 朱少波 姚庆栋 +1 位作者 洪享 史册 《计算机工程》 CAS CSCD 北大核心 2003年第20期154-156,共3页
针对VLIW结构的指令压缩方法,通过对编译中间代码的深入分析和总结,提出一种改进的寄存器分配算法,该算法在线性扫描的基础上,对寄存器的选择添加约束条件,应用该算法能够使得目标代码中寄存器的编号尽量靠近,从而达到更好的压缩... 针对VLIW结构的指令压缩方法,通过对编译中间代码的深入分析和总结,提出一种改进的寄存器分配算法,该算法在线性扫描的基础上,对寄存器的选择添加约束条件,应用该算法能够使得目标代码中寄存器的编号尽量靠近,从而达到更好的压缩效果。 展开更多
关键词 超长指令字 寄存器分配 线性扫描 指令压缩 vliw 算法
下载PDF
分簇VLIW DSP上支持单双字模式选择的SIMD编译优化 被引量:2
20
作者 黄胜兵 郑启龙 郭连伟 《计算机应用》 CSCD 北大核心 2015年第8期2371-2374,共4页
BWDSP100是一款采用超长指令字(VLIW)和单指令多数据流(SIMD)架构的针对高性能计算领域而设计的32位静态标量数字信号处理器,其指令级并行(ILP)主要是通过其特殊的分簇体系结构和SIMD指令来实现,然而现有的编译框架无法对这些特殊的SIM... BWDSP100是一款采用超长指令字(VLIW)和单指令多数据流(SIMD)架构的针对高性能计算领域而设计的32位静态标量数字信号处理器,其指令级并行(ILP)主要是通过其特殊的分簇体系结构和SIMD指令来实现,然而现有的编译框架无法对这些特殊的SIMD指令提供支持。由于BWDSP100拥有丰富的SIMD向量化资源,且其所运用的雷达数字信号处理领域对程序的性能要求极高,因此针对BWDSP100结构的特点,在传统Open64编译器中SIMD编译优化框架的基础上提出并实现了一种支持单双字模式选择的SIMD编译优化算法,通过该算法可以显著提高一些在DSP上有着广泛运用计算密集型程序的性能。实验结果表明,与优化前相比,该算法方案在BWDSP编译器上的实现能够平均取得5.66的加速比。 展开更多
关键词 编译优化 指令级并行 分簇体系数字信号处理器 超长指令字 单指令多数据流 Open64编译器
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部