期刊文献+
共找到43篇文章
< 1 2 3 >
每页显示 20 50 100
VLIW DSP指令级精度模拟器的快速实现方法 被引量:3
1
作者 朱大林 郭德源 何虎 《计算机工程与设计》 CSCD 北大核心 2013年第1期256-261,共6页
为了以最小代价开发出超长指令字(VLIW)数字信号处理器(DSP)的指令级精度的模拟器,缩短开发周期,提出了一种基于开源模拟器(gem5)的开发方法。对gem5模拟器和VLIW DSP的指令执行流程分别进行分析,指出指令在gem5模拟器上以纯32位指令环... 为了以最小代价开发出超长指令字(VLIW)数字信号处理器(DSP)的指令级精度的模拟器,缩短开发周期,提出了一种基于开源模拟器(gem5)的开发方法。对gem5模拟器和VLIW DSP的指令执行流程分别进行分析,指出指令在gem5模拟器上以纯32位指令环境顺序执行和指令在VLIW DSP上以16/32位混合指令环境并行执行之间的矛盾是开发的难点。在gem5的顺序执行模型的基础上,通过加入并行的判决、执行机制和16/32位混合指令的取指机制建立了VLIWDSP的模型,并具体实现了一款VLIW DSP的模拟器。通过一组针对每条指令的测试程序和一组DSP典型应用程序验证了该方法的正确性和可行性。 展开更多
关键词 超长指令字(vliw) 数字信号处理器(dsp) 处理器建模 模拟器 指令级精度
下载PDF
VLIW DSP处理器下累加计算优化方法 被引量:1
2
作者 杨阳朝 顾乃杰 +1 位作者 任开新 赵增 《小型微型计算机系统》 CSCD 北大核心 2015年第8期1915-1920,共6页
当今VLIW DSP处理器拥有的指令种类越来越多,它们大多利用单一指令来完成一组复杂的计算,从而提高相关操作的执行效率.无论是在现有数字信号处理程序中,还是使用各种优化手段之后的程序代码中,累加计算在VLIW DSP处理器运算的程序中总... 当今VLIW DSP处理器拥有的指令种类越来越多,它们大多利用单一指令来完成一组复杂的计算,从而提高相关操作的执行效率.无论是在现有数字信号处理程序中,还是使用各种优化手段之后的程序代码中,累加计算在VLIW DSP处理器运算的程序中总是频繁出现,编译器如何自动高效地识别并合成处理器特有的累加指令就变得尤为重要.提出一种VLIW DSP处理器下累加计算优化方法,算法可以自动合成目标处理器的累加指令,充分利用处理器体系结构和资源的特点.最后在BWDSP处理器上实现本文的优化算法,实验结果表明,本算法有效减小了程序累加部分的汇编代码长度,从而提高了BWDSP对累加计算的处理能力. 展开更多
关键词 vliw dsp 累加 编译器 BWdsp
下载PDF
分簇VLIW DSP调度技术 被引量:1
3
作者 袁正才 刘春林 +1 位作者 胡定磊 陈书明 《计算机应用研究》 CSCD 北大核心 2004年第8期80-82,86,共4页
分簇VLIWDSP在减少硬件设计复杂性的同时 ,显著地增加了编译器进行指令调度的难度。提出通过在调度中首先进行指令簇划分然后再簇内调度 ,这样在增加很少几条拷贝指令的条件下充分利用分簇的特性提高指令的并行度 。
关键词 VUW dsp 编译 指令划分 调度
下载PDF
一种基于机器描述的VLIW DSP编译技术
4
作者 袁正才 刘春林 胡定磊 《计算机工程》 CAS CSCD 北大核心 2004年第22期79-80,116,共3页
VLIW DSP机器由于硬件控制简单,指令的并行性完全在编译时决定。因此编译程序成为基于VLIW DSP机器应用的关键因素。文章描述通过在编译程序中使用目标机器描述技术,提高了编译程序的可重定目标性,减少了生成目标编译程序的难度。
关键词 编译程序 机器描述 vliw dsp 计算机
下载PDF
基于VLIW DSP加密与认证算法的实现 被引量:1
5
作者 许杰 麻军平 何虎 《计算机应用》 CSCD 北大核心 2012年第6期1650-1653,共4页
针对HD视频数据流传输过程中数据安全与完整性问题,介绍了一种专用于DES、3DES、SHA1、MD5、RSA的加密VLIW DSP(LILY-DSP)。为了提高性能和降低成本,DSP设计成具有11级流水线和2个并行执行簇,每一簇具有3个功能单元的专用并行结构。为... 针对HD视频数据流传输过程中数据安全与完整性问题,介绍了一种专用于DES、3DES、SHA1、MD5、RSA的加密VLIW DSP(LILY-DSP)。为了提高性能和降低成本,DSP设计成具有11级流水线和2个并行执行簇,每一簇具有3个功能单元的专用并行结构。为了提高速率,定制了专用指令实现复杂操作。提出了基于此DSP的对称加密算法、公钥加密和认证算法实现方法。仿真实现结果表明,基于VLIW DSP加密和认证算法能很好地满足实时HDvideo数据流需求。 展开更多
关键词 超长指令字 并行结构 数字信号处理 数据加密标准 SHA1 MD5 RSA
下载PDF
基于整数线性规划的VLIW DSP指令分簇调度 被引量:2
6
作者 周鹏 刘纯纲 郑启龙 《计算机应用研究》 CSCD 北大核心 2022年第10期3078-3083,共6页
在分簇VLIW DSP上,指令分簇是一项对程序性能有重要影响的编译优化,但现有的指令分簇算法只能处理顺序的程序区域,且难以获得最佳的分簇方案。针对这些问题,提出一种基于整数线性规划的统一指令分簇与指令调度的方法。该方法使用0-1决... 在分簇VLIW DSP上,指令分簇是一项对程序性能有重要影响的编译优化,但现有的指令分簇算法只能处理顺序的程序区域,且难以获得最佳的分簇方案。针对这些问题,提出一种基于整数线性规划的统一指令分簇与指令调度的方法。该方法使用0-1决策变量表示函数中指令的分簇、指令的局部调度以及簇间传输指令的全局调度,并将指令之间的依赖关系和对处理器资源的竞争关系构造为线性约束,最终得到一个以最小化函数的估计执行时间为目标的整数线性规划模型。实验结果表明,求解该模型得到的分簇调度方案对程序性能的优化显著强于现有算法,并且求解模型所耗费的时间是可接受的。 展开更多
关键词 数字信号处理器 超长指令字 指令分簇 指令调度 整数线性规划
下载PDF
A scalable and low power VLIW DSP core for embedded system design 被引量:1
7
作者 Sheraz Anjum 陈杰 +4 位作者 韩亮 林川 张晓潇 苏叶华 程亚奇 《Journal of Harbin Institute of Technology(New Series)》 EI CAS 2008年第2期172-175,共4页
Aims to provide the block architecture of CoStar3400 DSP that is a high performance, low power and scalable VLIW DSP core, it efficiently deployed a variable-length execution set (VLES) execution model which utilizes ... Aims to provide the block architecture of CoStar3400 DSP that is a high performance, low power and scalable VLIW DSP core, it efficiently deployed a variable-length execution set (VLES) execution model which utilizes the maximum parallelism by allowing multiple address generations and data arithmetic logic units to execute multiple instructions in a single clock cycle. The scalability was provided mainly in using more or less number of functional units according to the intended application. Low power support was added by careful architectural design techniques such as fine-grain clock gating and activation of only the required number of control signals at each stage of the pipeline. The said features of the core make it a suitable candidate for many SoC configurations, especially for compute intensive applications such as wire-line and wireless communications, including infrastructure and subscriber communications. The embedded system designers can efficiently use the scalability and VLIW features of the core by scaling the number of execution units according to specific needs of the application to effectively reduce the power consumption, chip area and time to market the intended final product. 展开更多
关键词 系统芯片 大规模集成电路 指令软件 分析方法
下载PDF
分簇VLIW DSP上支持单双字模式选择的SIMD编译优化 被引量:2
8
作者 黄胜兵 郑启龙 郭连伟 《计算机应用》 CSCD 北大核心 2015年第8期2371-2374,共4页
BWDSP100是一款采用超长指令字(VLIW)和单指令多数据流(SIMD)架构的针对高性能计算领域而设计的32位静态标量数字信号处理器,其指令级并行(ILP)主要是通过其特殊的分簇体系结构和SIMD指令来实现,然而现有的编译框架无法对这些特殊的SIM... BWDSP100是一款采用超长指令字(VLIW)和单指令多数据流(SIMD)架构的针对高性能计算领域而设计的32位静态标量数字信号处理器,其指令级并行(ILP)主要是通过其特殊的分簇体系结构和SIMD指令来实现,然而现有的编译框架无法对这些特殊的SIMD指令提供支持。由于BWDSP100拥有丰富的SIMD向量化资源,且其所运用的雷达数字信号处理领域对程序的性能要求极高,因此针对BWDSP100结构的特点,在传统Open64编译器中SIMD编译优化框架的基础上提出并实现了一种支持单双字模式选择的SIMD编译优化算法,通过该算法可以显著提高一些在DSP上有着广泛运用计算密集型程序的性能。实验结果表明,与优化前相比,该算法方案在BWDSP编译器上的实现能够平均取得5.66的加速比。 展开更多
关键词 编译优化 指令级并行 分簇体系数字信号处理器 超长指令字 单指令多数据流 Open64编译器
下载PDF
数字信号变换函数在多簇VLIW DSP上的优化 被引量:2
9
作者 甄扬 顾乃杰 叶鸿 《计算机工程》 CAS CSCD 北大核心 2016年第3期47-52,共6页
针对BWDSP100体系结构特点,基于循环展开、指令调度以及软件流水等并行优化技术,结合多簇超长指令架构的特点,通过使用超算硬件指令、零开销循环、指令重新编排与并行等方法对BWDSP100数字信号处理函数库中的函数实施并行化,并基于库中... 针对BWDSP100体系结构特点,基于循环展开、指令调度以及软件流水等并行优化技术,结合多簇超长指令架构的特点,通过使用超算硬件指令、零开销循环、指令重新编排与并行等方法对BWDSP100数字信号处理函数库中的函数实施并行化,并基于库中原有的顺序版本实现并行优化版本。实验结果表明,在4宏并行化模式下,所有函数加速比达到9以上,90%的函数加速比超过10,平均加速比为11.12。 展开更多
关键词 超长指令字 单指令流多数据流 数字信号处理器 循环展开 并行化 多簇
下载PDF
基于CEVA-XC4500 DSP平台5G-LDPC码编码实现
10
作者 吴思远 陈成 +1 位作者 姜明 徐安来 《无线电工程》 2024年第2期457-462,共6页
低密度奇偶校验(Low-Density Parity-Check,LDPC)码是第五代移动通信技术(5th Generation Mobile Communication Technology,5G)系统采用的信道编码技术之一,用于业务信道高速数据传输,具有很强的抗干扰能力和纠错能力。5G-LDPC码编译... 低密度奇偶校验(Low-Density Parity-Check,LDPC)码是第五代移动通信技术(5th Generation Mobile Communication Technology,5G)系统采用的信道编码技术之一,用于业务信道高速数据传输,具有很强的抗干扰能力和纠错能力。5G-LDPC码编译码在嵌入式平台的实现是一个值得关注的研究方向。CEVA-XC4500数字信号处理(Digital Signal Processing,DSP)芯片具有极低功耗、高密度计算、集成了超长指令字(Very Long Instruction Word,VLIW)和单指令多数据(Single Instruction Multiple Data,SIMD)矢量功能的特点。针对CEVA-XC4500 DSP矢量汇编指令和内联指令集的特点,提出一系列针对5G-LDPC码编码的代码优化方法,使其满足5G-LDPC码编码工程应用指标要求。仿真结果表明,优化后的5G-LDPC码编码在CEVA-XC4500 DSP内核上表现良好,中长块编码吞吐率超过100 Mb/s、核心矩阵吞吐率超过1 Gb/s,最大吞吐率达到250 Mb/s、最大核心矩阵吞吐率达到1.6 Gb/s。如果CEVA-XC4500 DSP芯片的最大数据位宽将来能进一步增大,吞吐率可以做得更好。该5G-LDPC码编码的代码优化方法为其他信道编码在类似嵌入式平台的实现提供了参考。 展开更多
关键词 CEVA-XC4500 dsp 超长指令字 单指令多数据 5G-低密度奇偶校验码编码 矢量化
下载PDF
基于VLIW体系结构的DSP寄存器堆的设计 被引量:2
11
作者 胡正伟 韩月秋 +1 位作者 陈禾 张晓明 《华北电力大学学报(自然科学版)》 CAS 北大核心 2006年第3期66-69,共4页
在研究了基于VLIW体系结构DSP的特点基础上,通过对寄存器堆的组织结构、组成单元、功能实现等方面的分析,提出了该结构寄存器堆的设计方案。该方案实现了多组数据的正确并行读写操作,满足了VLIW体系结构的CPU对多数据流处理的要求。该... 在研究了基于VLIW体系结构DSP的特点基础上,通过对寄存器堆的组织结构、组成单元、功能实现等方面的分析,提出了该结构寄存器堆的设计方案。该方案实现了多组数据的正确并行读写操作,满足了VLIW体系结构的CPU对多数据流处理的要求。该方案针对VLIW体系结构采用流水线操作、条件执行的特点,通过对写入数据分别采用写控制信号的方法,实现流水线阻塞和指令的条件执行。由于VLIW体系结构具有很多共性,该方案可以根据具体的硬件进行修改,具有很好的可移植性。 展开更多
关键词 vliw 数字信号处理器 寄存器堆 流水线阻塞
下载PDF
基于寄存器压力差异化的VLIWDSP编译器超块调度算法
12
作者 鲍丽丹 张铁军 王东辉 《微电子学与计算机》 CSCD 北大核心 2015年第9期18-22,共5页
为了有效开发VLIW DSP处理器的指令级并行性,提出一种基于寄存器压力差异化的超块调度算法.该算法在传统列表调度的基础上扩展调度区间,同时以启发式的优先级函数综合考虑不同代码段的执行频率特性,设置差异化的寄存器压力敏感度.实验... 为了有效开发VLIW DSP处理器的指令级并行性,提出一种基于寄存器压力差异化的超块调度算法.该算法在传统列表调度的基础上扩展调度区间,同时以启发式的优先级函数综合考虑不同代码段的执行频率特性,设置差异化的寄存器压力敏感度.实验显示该调度算法在有限的寄存器资源下合理开发指令并行度,达到提高程序性能的目的. 展开更多
关键词 数字信号处理器 超长指令字 编译器 指令调度 寄存器
下载PDF
超长指令字DSP标量访存单元的设计与优化 被引量:1
13
作者 郑康 李晨 +2 位作者 陈海燕 刘胜 方粮 《计算机工程与科学》 CSCD 北大核心 2023年第11期1929-1940,共12页
近年来,随着集成电路技术的发展处理器与存储器之间的速度差异越来越大,存储器愈发成为制约计算系统性能的瓶颈。对于嵌入式、低功耗领域的DSP而言,其架构和应用场景与通用CPU不同,CPU的访存设计难以满足DSP的访存需求。针对超长指令字... 近年来,随着集成电路技术的发展处理器与存储器之间的速度差异越来越大,存储器愈发成为制约计算系统性能的瓶颈。对于嵌入式、低功耗领域的DSP而言,其架构和应用场景与通用CPU不同,CPU的访存设计难以满足DSP的访存需求。针对超长指令字DSP在访存实时性、顺序与固定延迟、高效数据一致性方面的需求,设计了一种适用于DSP的标量访存单元,可配置的设计能够满足DSP的访存实时性;基于ID的顺序机制保证超长指令字架构对Load指令返回数据的顺序与固定延迟要求,存储开销为87.5 B;硬件查找“首1”加速了数据一致性所需的写回操作。当Cache中25%,50%和75%的行需要写回时,优化后的一致性写回开销为逐行扫描方法的26.4%,51.3%和76.2%,只与有效脏行数量成正比,与Cache容量无关。 展开更多
关键词 标量访存单元 dsp 超长指令字
下载PDF
Architecture Design of a Variable Length Instruction Set VLIW DSP 被引量:11
14
作者 沈钲 何虎 +2 位作者 杨旭 贾迪 孙义和 《Tsinghua Science and Technology》 SCIE EI CAS 2009年第5期561-569,共9页
The cost of the central register file and the size of the program code limit the scalability of very long instruction word(VLIW) processors with increasing numbers of functional units.This paper presents the archite... The cost of the central register file and the size of the program code limit the scalability of very long instruction word(VLIW) processors with increasing numbers of functional units.This paper presents the architectural design of a six-way VLIW digital signal processor(DSP) with clustered register files.The architecture uses a variable length instruction set and supports dynamic instruction dispatching.The one-level memory system architecture of the processor includes 16-KB instruction and data caches and 16-KB instruction and data on-chip RAM.A compiler based on the Open64 was developed for the system.Evaluations show that the processor is suitable for high performance applications with a high code density and small program code size. 展开更多
关键词 digital signal processor(dsp very long instruction word(vliw variable length instruction set clustered register file
原文传递
分簇结构超长指令字DSP编译器的设计与实现 被引量:7
15
作者 胡定磊 陈书明 刘春林 《小型微型计算机系统》 CSCD 北大核心 2006年第2期348-353,共6页
超长指令字(VLIW)是高端DSP普遍采用的体系结构,VLIWDSP在硬件上没有调度和冲突判决的机制,其性能的发挥完全依靠编译器的优化效果.基于可重定向编译基础设施IMPACT,为分簇VLIWDSPYHFT-D4设计与实现了优化编译器.其中着重讨论了可重定... 超长指令字(VLIW)是高端DSP普遍采用的体系结构,VLIWDSP在硬件上没有调度和冲突判决的机制,其性能的发挥完全依靠编译器的优化效果.基于可重定向编译基础设施IMPACT,为分簇VLIWDSPYHFT-D4设计与实现了优化编译器.其中着重讨论了可重定向信息的定义、代码注释、SIMD指令的支持、分簇寄存器分配以及指令级并行开发和资源冲突解决等内容.实验结果表明该编译器可以达到较好的优化效果. 展开更多
关键词 vliw dsp 编译器 分簇寄存器分配 指令级并行
下载PDF
一种DSP和通用CPU一体化的处理器架构及其4核实现 被引量:3
16
作者 王志君 梁利平 +3 位作者 洪钦智 罗汉青 王昳 赵淳 《微电子学与计算机》 CSCD 北大核心 2014年第10期32-38,共7页
提出了一种DSP和通用CPU一体化的处理器架构,并完成了一款基于该架构的同构4核处理器设计和流片验证.该处理器基于VLIW结构,支持自主定义的DSP指令系统,兼容现有通用的MIPS 4KC处理器指令集,支持最大8个指令通道的并行发射.处理器在不改... 提出了一种DSP和通用CPU一体化的处理器架构,并完成了一款基于该架构的同构4核处理器设计和流片验证.该处理器基于VLIW结构,支持自主定义的DSP指令系统,兼容现有通用的MIPS 4KC处理器指令集,支持最大8个指令通道的并行发射.处理器在不改变CPU的指令编码以及执行顺序的前提下,实现了芯片结构上的DSP和CPU执行处理的一体化,适合在统一的平台上同时完成宽带通信和多媒体的信号和协议处理的嵌入式应用开发.处理器内核通过自主定义的DSP指令字中前后并行标识位和一条专用的前导paralink指令实现了DSP与CPU指令的并行发射.在4核处理器的同构架构上,采用了全局读局部写的多核间片上数据存储策略,在控制硬件开销的基础上实现片上数据的共享.仿真和流片验证结果表明,所提出的DSP和CPU一体化处理器架构可行,在宽带通信和多媒体等嵌入式应用上具有优势. 展开更多
关键词 多核处理器 dsp和CPU一体化 vliw结构
下载PDF
YHFT-DX高性能DSP指令控制流水线设计与优化 被引量:1
17
作者 郭阳 甄体智 李勇 《计算机工程与应用》 CSCD 北大核心 2010年第7期69-71,103,共4页
YHFT-DX是国防科技大学设计的一款高性能定点DSP。论文设计并实现了YHFT-DX指令控制流水线,提出了在YHFT-DX超长指令字结构中跨取指包边界派发和指令预取的方法,有效提升了流水线的性能。对指令流水线进行了高频结构优化,将派发部件的... YHFT-DX是国防科技大学设计的一款高性能定点DSP。论文设计并实现了YHFT-DX指令控制流水线,提出了在YHFT-DX超长指令字结构中跨取指包边界派发和指令预取的方法,有效提升了流水线的性能。对指令流水线进行了高频结构优化,将派发部件的关键路径延时压缩40%,满足了600MHz频率的设计目标。 展开更多
关键词 数字信号处理器 超长指令字 流水线 跨边界派发 指令预取
下载PDF
针对DSP指令生成与二进制翻译的汇编器实现 被引量:1
18
作者 肖贺 刘佩林 《信息技术》 2011年第3期47-50,共4页
DSP指令生成与优化和二进制翻译是现代编译工具值得关注的热点问题。针对DSP指令的特点提出一种通用的DSP指令生成(支持VLIW指令)与二进制翻译技术,并应用于GNU汇编器(GAS)。包含该技术的汇编器PCA(Post Compilation Assembler)先将输... DSP指令生成与优化和二进制翻译是现代编译工具值得关注的热点问题。针对DSP指令的特点提出一种通用的DSP指令生成(支持VLIW指令)与二进制翻译技术,并应用于GNU汇编器(GAS)。包含该技术的汇编器PCA(Post Compilation Assembler)先将输入的汇编指令转化成类似LISP的中间语言。PCA通过对此中间语言分析以及窥孔优化,最终生成高质量的目标平台DSP代码。 展开更多
关键词 dsp指令生成 vliw指令 二进制翻译 编译后优化 窥孔优化
下载PDF
对基于VelociTI结构DSP指令排序分配方法的改进
19
作者 胡正伟 《华北电力大学学报(自然科学版)》 CAS 北大核心 2007年第5期95-98,共4页
排序法是一种基于VelociTI结构的DSP指令分配方法。为了完善排序法,对该方法的不足进行了改进。改进的排序法在实现原有指令分配功能的基础上,完成了多周期NOPs指令的检测和当前执行包地址的生成,并结合指令执行条件测试原理,将排序后... 排序法是一种基于VelociTI结构的DSP指令分配方法。为了完善排序法,对该方法的不足进行了改进。改进的排序法在实现原有指令分配功能的基础上,完成了多周期NOPs指令的检测和当前执行包地址的生成,并结合指令执行条件测试原理,将排序后的执行包中没有被占用功能单元对应的字段设置为无条件不执行。用改进的排序法成功设计了一个DSP指令分配单元的RTL模型,仿真结果验证了方法的正确性。 展开更多
关键词 超长指令字 Veloci TI结构 数字信号处理器 指令分配 排序法
下载PDF
基于BWDSP100的传播分簇算法研究与实现 被引量:4
20
作者 王昊 黄光红 王向前 《中国集成电路》 2014年第8期24-28,共5页
BWDSP100是一款SIMD和VLIW架构高性能DSP,它的指令级并行性主要通过指令分簇和软件流水来实现。本文针对BWDSP100的特点,提出了一种新的分簇算法——传播分簇,该算法考虑了负载均衡和特殊ABI规则,不会产生簇间转移指令。实验结果表明,... BWDSP100是一款SIMD和VLIW架构高性能DSP,它的指令级并行性主要通过指令分簇和软件流水来实现。本文针对BWDSP100的特点,提出了一种新的分簇算法——传播分簇,该算法考虑了负载均衡和特殊ABI规则,不会产生簇间转移指令。实验结果表明,该分簇方法在Open64编译器上的实现可以取得比传统方法更好的效果。 展开更多
关键词 数字信号处理器 超长指令字 指令级并行 分簇
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部