期刊文献+
共找到29篇文章
< 1 2 >
每页显示 20 50 100
基于CEVA-XC4500 DSP平台5G-LDPC码编码实现
1
作者 吴思远 陈成 +1 位作者 姜明 徐安来 《无线电工程》 2024年第2期457-462,共6页
低密度奇偶校验(Low-Density Parity-Check,LDPC)码是第五代移动通信技术(5th Generation Mobile Communication Technology,5G)系统采用的信道编码技术之一,用于业务信道高速数据传输,具有很强的抗干扰能力和纠错能力。5G-LDPC码编译... 低密度奇偶校验(Low-Density Parity-Check,LDPC)码是第五代移动通信技术(5th Generation Mobile Communication Technology,5G)系统采用的信道编码技术之一,用于业务信道高速数据传输,具有很强的抗干扰能力和纠错能力。5G-LDPC码编译码在嵌入式平台的实现是一个值得关注的研究方向。CEVA-XC4500数字信号处理(Digital Signal Processing,DSP)芯片具有极低功耗、高密度计算、集成了超长指令字(Very Long Instruction Word,VLIW)和单指令多数据(Single Instruction Multiple Data,SIMD)矢量功能的特点。针对CEVA-XC4500 DSP矢量汇编指令和内联指令集的特点,提出一系列针对5G-LDPC码编码的代码优化方法,使其满足5G-LDPC码编码工程应用指标要求。仿真结果表明,优化后的5G-LDPC码编码在CEVA-XC4500 DSP内核上表现良好,中长块编码吞吐率超过100 Mb/s、核心矩阵吞吐率超过1 Gb/s,最大吞吐率达到250 Mb/s、最大核心矩阵吞吐率达到1.6 Gb/s。如果CEVA-XC4500 DSP芯片的最大数据位宽将来能进一步增大,吞吐率可以做得更好。该5G-LDPC码编码的代码优化方法为其他信道编码在类似嵌入式平台的实现提供了参考。 展开更多
关键词 CEVA-XC4500 DSP 超长指令 单指令多数据 5G-低密度奇偶校验码编码 矢量化
下载PDF
面向飞腾迈创数字处理器的内核代码自动生成框架
2
作者 赵宵磊 陈照云 +2 位作者 时洋 文梅 张春元 《计算机研究与发展》 EI CSCD 北大核心 2023年第6期1232-1245,共14页
数字信号处理器(digital signal processor,DSP)通常采用超长指令字(very long instruction word,VLIW)和单指令多数据(single instruction multiple data,SIMD)的架构来提升处理器整体计算性能,从而适用于高性能计算、图像处理、嵌入... 数字信号处理器(digital signal processor,DSP)通常采用超长指令字(very long instruction word,VLIW)和单指令多数据(single instruction multiple data,SIMD)的架构来提升处理器整体计算性能,从而适用于高性能计算、图像处理、嵌入式系统等各个领域.飞腾迈创数字处理器(FT-Matrix)作为国防科技大学自主研制的高性能通用数字信号处理器,其极致计算性能的体现依赖于对VLIW与SIMD架构特点的充分挖掘.不止是飞腾迈创系列,绝大多数处理器上高度优化的内核代码或核心库函数都依赖于底层汇编级工具或手工开发.然而,手工编写内核算子的开发方法总是需要大量的时间和人力开销来充分释放硬件的性能潜力.尤其是VLIW+SIMD的处理器,专家级汇编开发的难度更为突出.针对这些问题,提出一种面向飞腾迈创数字处理器的高性能的内核代码自动生成框架(automatic kernel code-generation framework on FT-Matrix),将飞腾迈创处理器的架构特性引入到多层次的内核代码优化方法中.该框架包括3层优化组件:自适应循环分块、标向量协同的自动向量化和细粒度的指令级优化.该框架可以根据硬件的内存层次结构和内核的数据布局自动搜索最优循环分块参数,并进一步引入标量-向量单元协同的自动向量化指令选择与数据排布,以提高内核代码执行时的数据复用和并行性.此外,该框架提供了类汇编的中间表示,以应用各种指令级优化来探索更多指令级并行性(ILP)的优化空间,同时也为其他硬件平台提供了后端快速接入和自适应代码生成的模块,以实现高效内核代码开发的敏捷设计.实验表明,该框架生成的内核基准测试代码的平均性能是目标-数字信号处理器(DSP)--的手工函数库的3.25倍,是使用普通向量C语言编写的内核代码的20.62倍. 展开更多
关键词 内核代码生成 超长指令字-单指令多数据 循环分块 标量-向量协同 信号处理器
下载PDF
软件无线电数字信号处理器体系结构研究 被引量:4
3
作者 刘衡竹 莫方政 +4 位作者 张波涛 赵恒 刘冬培 陈艇 周理 《国防科技大学学报》 EI CAS CSCD 北大核心 2009年第5期6-11,共6页
软件无线电因被认为是无线通信技术未来的发展趋势而受到广泛关注。目前数字信号处理器是软件无线电发展的瓶颈。通过分析、比较目前几种较为典型的软件无线电数字信号处理器结构,归纳总结各种结构各自设计出发点和优缺点,并对软件无线... 软件无线电因被认为是无线通信技术未来的发展趋势而受到广泛关注。目前数字信号处理器是软件无线电发展的瓶颈。通过分析、比较目前几种较为典型的软件无线电数字信号处理器结构,归纳总结各种结构各自设计出发点和优缺点,并对软件无线电数字信号处理器的发展趋势做了展望。 展开更多
关键词 软件无线电数信号处理器 可重构 单指令多数据 超长指令
下载PDF
海量STAP数据的脉冲压缩快速实现
4
作者 任磊 王永良 +1 位作者 母其勇 陈辉 《数据采集与处理》 CSCD 北大核心 2008年第3期342-346,共5页
在空时二维自适应处理系统中对海量数据作脉压处理耗时颇大。本文基于单片数字信号处理器(DSP)从数据级和指令级两个方面进行优化,通过合理调度处理器资源并利用片内并行技术,快速实现了对海量数据的脉冲压缩优化处理。以空时二维自适... 在空时二维自适应处理系统中对海量数据作脉压处理耗时颇大。本文基于单片数字信号处理器(DSP)从数据级和指令级两个方面进行优化,通过合理调度处理器资源并利用片内并行技术,快速实现了对海量数据的脉冲压缩优化处理。以空时二维自适应处理(STAP)系统中单景四重频数据为分析对象,比较了采用商业库优化方法和本文方法优化后的两种情况。实验结果证明,在处理时间上取得了1.801的加速比,误差控制在10-5量级,1 024点脉压处理时间为50.456μs,验证了本文方法的有效性。 展开更多
关键词 脉冲压缩 海量数据 单指令多数据流(SIMD) 超长指令(VLIW) TS201
下载PDF
基于SIMD技术的σ-LFSR
5
作者 曾光 王政 韩文报 《计算机应用研究》 CSCD 北大核心 2008年第8期2434-2437,2443,共5页
σ-线性反馈移位寄存器(σ-LFSR)是一类适合软件快速实现的新型反馈移位寄存器。结合第二代单指令多数据流扩展指令集SSE2,设计了一类基于SIMD技术的σ-LFSR。这类σ-LFSR充分利用SSE2提供的128bit整数数据结构及其操作,获得了非常高的... σ-线性反馈移位寄存器(σ-LFSR)是一类适合软件快速实现的新型反馈移位寄存器。结合第二代单指令多数据流扩展指令集SSE2,设计了一类基于SIMD技术的σ-LFSR。这类σ-LFSR充分利用SSE2提供的128bit整数数据结构及其操作,获得了非常高的软件实现效率,同时其输出序列达到了最大周期并具有良好的随机性。所得结论表明这类基于SIMD技术的σ-LFSR可以作为适合软件实现的高速序列密码驱动部分。 展开更多
关键词 σ-线性反馈移位寄存器 单指令多数据技术 第二代单指令多数据流扩展指令 序列密码 快速软件加密
下载PDF
数字信号变换函数在多簇VLIW DSP上的优化 被引量:2
6
作者 甄扬 顾乃杰 叶鸿 《计算机工程》 CAS CSCD 北大核心 2016年第3期47-52,共6页
针对BWDSP100体系结构特点,基于循环展开、指令调度以及软件流水等并行优化技术,结合多簇超长指令架构的特点,通过使用超算硬件指令、零开销循环、指令重新编排与并行等方法对BWDSP100数字信号处理函数库中的函数实施并行化,并基于库中... 针对BWDSP100体系结构特点,基于循环展开、指令调度以及软件流水等并行优化技术,结合多簇超长指令架构的特点,通过使用超算硬件指令、零开销循环、指令重新编排与并行等方法对BWDSP100数字信号处理函数库中的函数实施并行化,并基于库中原有的顺序版本实现并行优化版本。实验结果表明,在4宏并行化模式下,所有函数加速比达到9以上,90%的函数加速比超过10,平均加速比为11.12。 展开更多
关键词 超长指令 单指令多数据 信号处理器 循环展开 并行化 多簇
下载PDF
分簇VLIW DSP上支持单双字模式选择的SIMD编译优化 被引量:2
7
作者 黄胜兵 郑启龙 郭连伟 《计算机应用》 CSCD 北大核心 2015年第8期2371-2374,共4页
BWDSP100是一款采用超长指令字(VLIW)和单指令多数据流(SIMD)架构的针对高性能计算领域而设计的32位静态标量数字信号处理器,其指令级并行(ILP)主要是通过其特殊的分簇体系结构和SIMD指令来实现,然而现有的编译框架无法对这些特殊的SIM... BWDSP100是一款采用超长指令字(VLIW)和单指令多数据流(SIMD)架构的针对高性能计算领域而设计的32位静态标量数字信号处理器,其指令级并行(ILP)主要是通过其特殊的分簇体系结构和SIMD指令来实现,然而现有的编译框架无法对这些特殊的SIMD指令提供支持。由于BWDSP100拥有丰富的SIMD向量化资源,且其所运用的雷达数字信号处理领域对程序的性能要求极高,因此针对BWDSP100结构的特点,在传统Open64编译器中SIMD编译优化框架的基础上提出并实现了一种支持单双字模式选择的SIMD编译优化算法,通过该算法可以显著提高一些在DSP上有着广泛运用计算密集型程序的性能。实验结果表明,与优化前相比,该算法方案在BWDSP编译器上的实现能够平均取得5.66的加速比。 展开更多
关键词 编译优化 指令级并行 分簇体系数信号处理器 超长指令 单指令多数据 Open64编译器
下载PDF
面向LTE-A终端软基带的矢量处理器设计 被引量:1
8
作者 张建正 秦晓卫 周武旸 《无线通信技术》 2014年第3期15-20,共6页
面向移动终端处理器的低功耗、低成本、高效率、灵活升级的需求,本文在对LTEA基带算法并行性分析的基础上,提出了一种基于超长指令字(Very Long Instruction Word,VLIW)和单指令多数据(Single Instruction Multiple Data,SIMD)混合结构... 面向移动终端处理器的低功耗、低成本、高效率、灵活升级的需求,本文在对LTEA基带算法并行性分析的基础上,提出了一种基于超长指令字(Very Long Instruction Word,VLIW)和单指令多数据(Single Instruction Multiple Data,SIMD)混合结构的矢量处理器作为终端软基带解决方案。该矢量处理器采用变长的VLIW指令字,共有7条矢量数据通路,每条通路可执行16个16bit的定点运算;采用分组的系数存储器提高灵活性,受限访问的寄存器组降低电路面积;同时设计了SHUF和ISHUF指令专门用于快速傅里叶变换(FFT)和维特比(VITERBI)译码算法的矢量化实现。最后本文实现和分析了FFT和VITERBI译码算法。 展开更多
关键词 软基带 矢量处理器 超长指令 单指令多数据
下载PDF
一种新颖的向量基-8布斯乘加器的设计
9
作者 张喆 张盛兵 黄小平 《微电子学与计算机》 CSCD 北大核心 2010年第11期20-24,共5页
提出一种新颖的部分冗余向量基-8布斯编码乘加器,快速地处理了部分积中的正负三倍被乘数项,并以亚字并行的方式支持单指令多数据流操作,可以完成16*16的有符号乘法运算以及两个8*8的有符号乘法运算.使用了4∶2压缩器进行部分积的压缩,... 提出一种新颖的部分冗余向量基-8布斯编码乘加器,快速地处理了部分积中的正负三倍被乘数项,并以亚字并行的方式支持单指令多数据流操作,可以完成16*16的有符号乘法运算以及两个8*8的有符号乘法运算.使用了4∶2压缩器进行部分积的压缩,并使用进位控制逻辑来控制短向量间的进位. 展开更多
关键词 向量基-8布斯 并行 单指令多数据 4∶2压缩器
下载PDF
Tensilica发布第三代ConnX 545CK 8-MAC VLIW DSP内核
10
《中国新通信》 2010年第9期43-43,共1页
近日,Tensilica发布第三代ConnX 545CK 8-MAC(乘数累加器)VLIW(超长指令字)DSP(数字信号处理器)内核,用于片上系统(SoC)的设计。经改进的第三代数据处理器(DPU)内核,运行速度提高20%,芯片面积减少11%,功耗降低30%。
关键词 DSP内核 第三代 VLIW 信号处理器 超长指令 数据处理器 片上系统 累加器
下载PDF
Tensilica发布第三代ConnX 545CK 8-MAC VLIW DSP内核
11
《电子与电脑》 2010年第5期87-87,共1页
TensiliCa发布第三代COnnX 545CK8-MAc(乘数累加器)VLIW(超长指令字)DSP(数字信号处理器)内核,用于片上系统(SoC)的设计。经改进的第三代数据处理器(DPU)内核,运行速度提高20%,芯片面积减少11%.功耗降低30%。
关键词 DSP内核 第三代 VLIW 信号处理器 超长指令 数据处理器 片上系统 运行速度
下载PDF
DSP体系结构发展的新趋势 被引量:4
12
作者 黄 峰 李胜平 +2 位作者 朱全庆 熊召新 邹雪城 《计算机工程》 CAS CSCD 北大核心 2002年第4期1-2,218,共3页
CISC→RISC设计思想对DSP体系结构设计中数据和指令级并行性开发产生了深刻影响,融合RISC和SIMD技术的单核处理器已经成为DSP体系结构设计的新趋势。
关键词 超长指令 单指令多数据 数据级并行性 指令级并行性 DSP 信号处理器 体系结构 单核处理器
下载PDF
分簇VLIW DSP的SIMD编译优化 被引量:3
13
作者 林传文 顾乃杰 +1 位作者 雷一鸣 洪一 《中国科学技术大学学报》 CAS CSCD 北大核心 2011年第8期708-714,共7页
针对数字信号处理的应用特点,提出了一种识别SIMD指令的一般性方法;针对分簇结构SIMD指令的特点,给出了新的指令分簇算法和寄存器分配算法;最后在BWDSP100芯片的编译器上实现这些优化方法.实验结果表明,上述优化方法能充分发挥分簇结构S... 针对数字信号处理的应用特点,提出了一种识别SIMD指令的一般性方法;针对分簇结构SIMD指令的特点,给出了新的指令分簇算法和寄存器分配算法;最后在BWDSP100芯片的编译器上实现这些优化方法.实验结果表明,上述优化方法能充分发挥分簇结构SIMD指令的优势,提高编译器的效率. 展开更多
关键词 超长指令 分簇结构 单指令多数据 编译优化
下载PDF
一种基于HXDSP的移位器查找表技术 被引量:1
14
作者 叶鸿 顾乃杰 +2 位作者 林传文 张孝慈 陈瑞 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2019年第10期2044-2050,共7页
高性能信号处理应用的快速发展,对相应处理器的运算速度及吞吐效率提出了巨大挑战。移位器是数字信号处理器(DSP)上的重要部件,通过为移位器设计额外专用随机存取存储器(RAM)和查找表(LUT),并对其指令集及架构进行优化调整,从而达到提... 高性能信号处理应用的快速发展,对相应处理器的运算速度及吞吐效率提出了巨大挑战。移位器是数字信号处理器(DSP)上的重要部件,通过为移位器设计额外专用随机存取存储器(RAM)和查找表(LUT),并对其指令集及架构进行优化调整,从而达到提高处理器使用效率和传输速率的目的。此外,基于移位器与相应查找表指令,可在数据暂存的同时进行移位、提取、算术与逻辑运算处理,将部分数据运算的过程直接合并在对移位器RAM的数据存读取过程中,显著地提高了运算部件的使用效率。结果表明:基于移位器查找表的暂存技术可以达到与传输总线接近的吞吐率,对信号处理算法快速傅里叶变换(FFT)可以达到加速比约为1. 15~1. 20的性能提升效果。 展开更多
关键词 信号处理器(DSP) 移位器 查找表(LUT) 单指令多数据流(SIMD) 超长指令(VLIW)
下载PDF
多态并行阵列机中处理单元的设计与实现 被引量:2
15
作者 李涛 刘应天 乔虹 《西安邮电大学学报》 2015年第3期21-28,共8页
针对新型多态并行阵列机,设计一种专用处理单元。该处理单元采用四级流水线的超长指令字结构,指令系统采用无寄存器文件的直接寻址方式,加入独有的阻塞-非阻塞模式和邻接共享存储实现分布式指令并行和流处理运算,使用特殊指令完成PE间... 针对新型多态并行阵列机,设计一种专用处理单元。该处理单元采用四级流水线的超长指令字结构,指令系统采用无寄存器文件的直接寻址方式,加入独有的阻塞-非阻塞模式和邻接共享存储实现分布式指令并行和流处理运算,使用特殊指令完成PE间通信以及MIMD和SIMD的快速切换。实验结果表明,该处理单元能够实现运算模式分区并发执行和切换,工作最大频率可达167MHz.。 展开更多
关键词 阵列结构 处理单元 超长指令 阻塞标志 数据通信
下载PDF
面向VLIW DSP结构的编译器的设计与实现 被引量:1
16
作者 王敏 王红梅 +2 位作者 张铁军 单睿 王东辉 《微计算机应用》 2009年第7期49-54,共6页
VLIW编译器实现指令并行性挖掘、相关性检查、指令调度等职能,对VLIW处理器的性能影响较大。本文基于一款VLIW DSP芯片,利用可重定位编译器IMPACT的前端和代码生成器模板,设计和实现了高性能的VLIW编译器。利用伪数据类型和Intrinsic函... VLIW编译器实现指令并行性挖掘、相关性检查、指令调度等职能,对VLIW处理器的性能影响较大。本文基于一款VLIW DSP芯片,利用可重定位编译器IMPACT的前端和代码生成器模板,设计和实现了高性能的VLIW编译器。利用伪数据类型和Intrinsic函数结合,在编译器中构建了对SIMD功能的支持。实验结果显示,对比基于GCC版本的编译器,该编译器生成的指令数平均下降42%,并行包数下降30%。 展开更多
关键词 编译器 超长指令 代码生成器 单指令多数据
下载PDF
一种基于剪切的SLP向量化方法
17
作者 李颖颖 奚慧兴 +2 位作者 高伟 李伟 翟胜伟 《计算机应用研究》 CSCD 北大核心 2018年第9期2578-2582,共5页
作为多媒体和科学计算等领域重要的程序加速器件之一,SIMD扩展部件现已广泛集成于各类处理器中。自动向量化方法是目前生成SIMD向量化程序的重要手段。超字并行SLP(superword level parallelism)方法现已广泛应用于编译器中,并成为实现... 作为多媒体和科学计算等领域重要的程序加速器件之一,SIMD扩展部件现已广泛集成于各类处理器中。自动向量化方法是目前生成SIMD向量化程序的重要手段。超字并行SLP(superword level parallelism)方法现已广泛应用于编译器中,并成为实现基本块级代码向量化的主要手段。SLP在进行收益评估时仅考虑代码段整体向量化的收益,并没有考虑到向量化收益为负的片段会降低最终整体的向量化收益,从而导致SLP方法无法达到最好的向量化效果。基于此,提出了一种基于剪切的SLP向量化方法(throttling SLP,TSLP)。通过寻找最优的向量化子图,去除了向量化收益为负的代码段,从而可以获得更好的向量化效果。通过标准测试程序的实验结果表明,与原来的SLP方法相比,TSLP方法平均能够获得9%的性能提升。 展开更多
关键词 单指令多数据扩展部件 自动向量化 并行 代价模型
下载PDF
AVS量化和反量化C64x+汇编级优化实现
18
作者 牛承珍 《计算机应用与软件》 CSCD 2011年第7期221-223,共3页
AVS标准中,量化和反量化过程被频繁调用,对其优化可以提高整个编码器的编码速度。超长指令字和打包数据处理是在DSP广泛使用的结构。以TI公司C64x+DSP为例介绍了超长指令字和打包数据处理结构特性,并分析了基于这些特性的AVS量化和反量... AVS标准中,量化和反量化过程被频繁调用,对其优化可以提高整个编码器的编码速度。超长指令字和打包数据处理是在DSP广泛使用的结构。以TI公司C64x+DSP为例介绍了超长指令字和打包数据处理结构特性,并分析了基于这些特性的AVS量化和反量化的快速实现方法。利用TI公司的仿真工具CCS3.3提供的性能分析工具对汇编级优化的效果和C语言级优化的效果进行比较,量化汇编级优化效果所需时钟周期约为C语言级优化周期的10.24%,反量化约为30.94%。 展开更多
关键词 AVS 超长指令 打包数据处理 量化 反量化
下载PDF
AVS熵编码C64x+优化
19
作者 白伟 张帅 《山西电子技术》 2014年第3期60-62,共3页
AVS标准中,熵编码模块是比较耗时的模块,对其优化可以提高整个编码器的编码速度。DSP平台片内存储器空间较小,为此本文对AVS熵编码算法模块进行分析,提出了一种使用较少存储空间来存储码表的方法。以TI公司C64x+DSP为例,介绍了超长指令... AVS标准中,熵编码模块是比较耗时的模块,对其优化可以提高整个编码器的编码速度。DSP平台片内存储器空间较小,为此本文对AVS熵编码算法模块进行分析,提出了一种使用较少存储空间来存储码表的方法。以TI公司C64x+DSP为例,介绍了超长指令字和打包数据处理结构特性,并分析了基于这些特性的AVS熵编码的快速实现方法。利用TI公司的仿真工具CCS3.3提供的性能分析工具对汇编级优化的效果和C语言级优化的效果进行比较,帧内熵编码模块汇编级优化效果所需时钟周期约为C语言级优化周期的17.62%,帧间熵编码模块汇编级优化效果所需时钟周期约为C语言级优化周期的13.93%。 展开更多
关键词 超长指令 打包数据处理 ZIG-ZAG扫描 熵编码
下载PDF
基于VLIW DSP加密与认证算法的实现 被引量:1
20
作者 许杰 麻军平 何虎 《计算机应用》 CSCD 北大核心 2012年第6期1650-1653,共4页
针对HD视频数据流传输过程中数据安全与完整性问题,介绍了一种专用于DES、3DES、SHA1、MD5、RSA的加密VLIW DSP(LILY-DSP)。为了提高性能和降低成本,DSP设计成具有11级流水线和2个并行执行簇,每一簇具有3个功能单元的专用并行结构。为... 针对HD视频数据流传输过程中数据安全与完整性问题,介绍了一种专用于DES、3DES、SHA1、MD5、RSA的加密VLIW DSP(LILY-DSP)。为了提高性能和降低成本,DSP设计成具有11级流水线和2个并行执行簇,每一簇具有3个功能单元的专用并行结构。为了提高速率,定制了专用指令实现复杂操作。提出了基于此DSP的对称加密算法、公钥加密和认证算法实现方法。仿真实现结果表明,基于VLIW DSP加密和认证算法能很好地满足实时HDvideo数据流需求。 展开更多
关键词 超长指令 并行结构 信号处理 数据加密标准 SHA1 MD5 RSA
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部