期刊文献+
共找到23篇文章
< 1 2 >
每页显示 20 50 100
基于CEVA-XC4500 DSP平台5G-LDPC码编码实现
1
作者 吴思远 陈成 +1 位作者 姜明 徐安来 《无线电工程》 2024年第2期457-462,共6页
低密度奇偶校验(Low-Density Parity-Check,LDPC)码是第五代移动通信技术(5th Generation Mobile Communication Technology,5G)系统采用的信道编码技术之一,用于业务信道高速数据传输,具有很强的抗干扰能力和纠错能力。5G-LDPC码编译... 低密度奇偶校验(Low-Density Parity-Check,LDPC)码是第五代移动通信技术(5th Generation Mobile Communication Technology,5G)系统采用的信道编码技术之一,用于业务信道高速数据传输,具有很强的抗干扰能力和纠错能力。5G-LDPC码编译码在嵌入式平台的实现是一个值得关注的研究方向。CEVA-XC4500数字信号处理(Digital Signal Processing,DSP)芯片具有极低功耗、高密度计算、集成了超长指令字(Very Long Instruction Word,VLIW)和单指令多数据(Single Instruction Multiple Data,SIMD)矢量功能的特点。针对CEVA-XC4500 DSP矢量汇编指令和内联指令集的特点,提出一系列针对5G-LDPC码编码的代码优化方法,使其满足5G-LDPC码编码工程应用指标要求。仿真结果表明,优化后的5G-LDPC码编码在CEVA-XC4500 DSP内核上表现良好,中长块编码吞吐率超过100 Mb/s、核心矩阵吞吐率超过1 Gb/s,最大吞吐率达到250 Mb/s、最大核心矩阵吞吐率达到1.6 Gb/s。如果CEVA-XC4500 DSP芯片的最大数据位宽将来能进一步增大,吞吐率可以做得更好。该5G-LDPC码编码的代码优化方法为其他信道编码在类似嵌入式平台的实现提供了参考。 展开更多
关键词 CEVA-XC4500 DSP 超长指令字 单指令多数据 5G-低密度奇偶校验码编码 矢量化
下载PDF
DSP体系结构发展综述 被引量:1
2
作者 宋文娜 徐东君 陈亮 《微电子学与计算机》 2023年第4期1-7,共7页
数字信号处理器(Digital Signal Processor,DSP)是一种用于数字信号处理的专用微处理器,在通信、自动化、雷达、航空航天等领域具有重要应用价值.本文系统阐述了DSP体系结构的发展过程和现状,介绍了主要生产厂商的DSP产品及其性能;总结... 数字信号处理器(Digital Signal Processor,DSP)是一种用于数字信号处理的专用微处理器,在通信、自动化、雷达、航空航天等领域具有重要应用价值.本文系统阐述了DSP体系结构的发展过程和现状,介绍了主要生产厂商的DSP产品及其性能;总结了DSP芯片的主要结构特点;分析了现有DSP体系结构设计中提升数据级和指令级并行性的主要技术,包括哈佛结构、硬件乘法器、SIMD、VLIW和超标量等.结合新时代DSP应用需求,本文提出了DSP体系结构研究的三个发展方向:(1)通过增加数据和指令并行性,向超高性能DSP发展,提升矢量、标量并行能力,支持张量计算,集成面向神经网络算子的专用控制通路和功能单元,提升AI计算处理能力;(2)从指令系统入手,将变长指令集与超标量技术结合,在实现指令并行的同时,结合可适应神经网络算法扩展的计算流控制指令,提升AI算法映射能力,同时降低代码密度,减小存储压力和取指带宽,降低成本,提升边缘智能实时处理应用能力;(3)兼容面向稀疏神经网络的压缩和并发访问的分布式存储结构,提升边缘智能片上部署能力和网络层多通道并行计算能力. 展开更多
关键词 哈佛结构 硬件乘法器 SIMD结构 VLIW技术 超标量
下载PDF
面向飞腾迈创数字处理器的内核代码自动生成框架
3
作者 赵宵磊 陈照云 +2 位作者 时洋 文梅 张春元 《计算机研究与发展》 EI CSCD 北大核心 2023年第6期1232-1245,共14页
数字信号处理器(digital signal processor,DSP)通常采用超长指令字(very long instruction word,VLIW)和单指令多数据(single instruction multiple data,SIMD)的架构来提升处理器整体计算性能,从而适用于高性能计算、图像处理、嵌入... 数字信号处理器(digital signal processor,DSP)通常采用超长指令字(very long instruction word,VLIW)和单指令多数据(single instruction multiple data,SIMD)的架构来提升处理器整体计算性能,从而适用于高性能计算、图像处理、嵌入式系统等各个领域.飞腾迈创数字处理器(FT-Matrix)作为国防科技大学自主研制的高性能通用数字信号处理器,其极致计算性能的体现依赖于对VLIW与SIMD架构特点的充分挖掘.不止是飞腾迈创系列,绝大多数处理器上高度优化的内核代码或核心库函数都依赖于底层汇编级工具或手工开发.然而,手工编写内核算子的开发方法总是需要大量的时间和人力开销来充分释放硬件的性能潜力.尤其是VLIW+SIMD的处理器,专家级汇编开发的难度更为突出.针对这些问题,提出一种面向飞腾迈创数字处理器的高性能的内核代码自动生成框架(automatic kernel code-generation framework on FT-Matrix),将飞腾迈创处理器的架构特性引入到多层次的内核代码优化方法中.该框架包括3层优化组件:自适应循环分块、标向量协同的自动向量化和细粒度的指令级优化.该框架可以根据硬件的内存层次结构和内核的数据布局自动搜索最优循环分块参数,并进一步引入标量-向量单元协同的自动向量化指令选择与数据排布,以提高内核代码执行时的数据复用和并行性.此外,该框架提供了类汇编的中间表示,以应用各种指令级优化来探索更多指令级并行性(ILP)的优化空间,同时也为其他硬件平台提供了后端快速接入和自适应代码生成的模块,以实现高效内核代码开发的敏捷设计.实验表明,该框架生成的内核基准测试代码的平均性能是目标-数字信号处理器(DSP)--的手工函数库的3.25倍,是使用普通向量C语言编写的内核代码的20.62倍. 展开更多
关键词 内核代码生成 超长指令字-单指令多数据 循环分块 标量-向量协同 数字信号处理器
下载PDF
DSP体系结构发展的新趋势 被引量:4
4
作者 黄 峰 李胜平 +2 位作者 朱全庆 熊召新 邹雪城 《计算机工程》 CAS CSCD 北大核心 2002年第4期1-2,218,共3页
CISC→RISC设计思想对DSP体系结构设计中数据和指令级并行性开发产生了深刻影响,融合RISC和SIMD技术的单核处理器已经成为DSP体系结构设计的新趋势。
关键词 超长指令字 单指令多数据流 数据级并行性 指令级并行性 DSP 数字信号处理器 体系结构 单核处理器
下载PDF
软件无线电数字信号处理器体系结构研究 被引量:4
5
作者 刘衡竹 莫方政 +4 位作者 张波涛 赵恒 刘冬培 陈艇 周理 《国防科技大学学报》 EI CAS CSCD 北大核心 2009年第5期6-11,共6页
软件无线电因被认为是无线通信技术未来的发展趋势而受到广泛关注。目前数字信号处理器是软件无线电发展的瓶颈。通过分析、比较目前几种较为典型的软件无线电数字信号处理器结构,归纳总结各种结构各自设计出发点和优缺点,并对软件无线... 软件无线电因被认为是无线通信技术未来的发展趋势而受到广泛关注。目前数字信号处理器是软件无线电发展的瓶颈。通过分析、比较目前几种较为典型的软件无线电数字信号处理器结构,归纳总结各种结构各自设计出发点和优缺点,并对软件无线电数字信号处理器的发展趋势做了展望。 展开更多
关键词 软件无线电数字信号处理器 可重构 单指令多数据 超长指令字
下载PDF
Feig DCT算法的矩阵分析与改进 被引量:2
6
作者 肖创柏 付博 +1 位作者 欧阳可里 邬鹏 《北京工业大学学报》 CAS CSCD 北大核心 2007年第9期1002-1008,共7页
离散余弦变换(DCT)是图像处理领域广泛使用的一种变换方法,其中,Feig的2D DCT算法被认为是需要加法和乘法操作次数最少的.为了加深对Feig算法的理解和进一步提出更好的快速算法,首先使用简单的矩阵分解理沦来得到Feig的算法和另外3种不... 离散余弦变换(DCT)是图像处理领域广泛使用的一种变换方法,其中,Feig的2D DCT算法被认为是需要加法和乘法操作次数最少的.为了加深对Feig算法的理解和进一步提出更好的快速算法,首先使用简单的矩阵分解理沦来得到Feig的算法和另外3种不同形式的矩阵分解;然后,对Feig的Scaled-DCT算法做进一步研究,消去了其中隐含的49个求相反数的多余操作,并使其结构更加规整,以适合于SIMD和VLIW结构. 展开更多
关键词 离散余弦变换(DCT) Feig MPEG4 VKIW SIMD 图像处理
下载PDF
分簇VLIW DSP的SIMD编译优化 被引量:3
7
作者 林传文 顾乃杰 +1 位作者 雷一鸣 洪一 《中国科学技术大学学报》 CAS CSCD 北大核心 2011年第8期708-714,共7页
针对数字信号处理的应用特点,提出了一种识别SIMD指令的一般性方法;针对分簇结构SIMD指令的特点,给出了新的指令分簇算法和寄存器分配算法;最后在BWDSP100芯片的编译器上实现这些优化方法.实验结果表明,上述优化方法能充分发挥分簇结构S... 针对数字信号处理的应用特点,提出了一种识别SIMD指令的一般性方法;针对分簇结构SIMD指令的特点,给出了新的指令分簇算法和寄存器分配算法;最后在BWDSP100芯片的编译器上实现这些优化方法.实验结果表明,上述优化方法能充分发挥分簇结构SIMD指令的优势,提高编译器的效率. 展开更多
关键词 超长指令字 分簇结构 单指令流多数据流 编译优化
下载PDF
DSP处理器上的高效串匹配实现 被引量:2
8
作者 叶鸿 顾乃杰 林传文 《小型微型计算机系统》 CSCD 北大核心 2021年第4期847-852,共6页
字符串匹配是生物识别、入侵检测的基础,也是大数据互联网时代的研究热点.随着现代信息技术的发展,日常工作生活中移动及手持小型化设备的使用越发普遍.这些设备的应用场景中包含大量有关串匹配的需求,如人脸识别、实时数据查询等.串匹... 字符串匹配是生物识别、入侵检测的基础,也是大数据互联网时代的研究热点.随着现代信息技术的发展,日常工作生活中移动及手持小型化设备的使用越发普遍.这些设备的应用场景中包含大量有关串匹配的需求,如人脸识别、实时数据查询等.串匹配算法的实时和准确性决定了使用场景的范围,因此在DSP处理器等移动小型化设备的嵌入式处理器上实现高效串匹配算法的问题变得十分迫切.该文针对DSP处理器因缺乏逻辑判断与跳转指令,难以支持高效串匹配运算的问题,提出了一种基于DSP平台特点的改进串匹配算法.该算法采用位并行的思路,在DSP处理器上实现了串匹配算法的并行化.同时通过前序启动、基于VLIW的数学运算替代逻辑判断、Q-grams等优化手段,提高该算法对于DSP平台的适应性与执行效率,最终实现了一种基于HXDSP的高效串匹配算法VBNDM2.实验结果表明,本算法针对DSP平台,有效地提高了串匹配的效率,实现了算法的高效并行化. 展开更多
关键词 DSP 串匹配 VLIW SIMD 位并行
下载PDF
在图像处理应用中几种并行计算技术的比较 被引量:1
9
作者 杨伟健 姚庆栋 《信号处理》 CSCD 2000年第4期367-371,共5页
本文讨论了三种采用不同并行技术的代表处理器芯片在图像处理底层算法中的性能以及资源利用率的问题,给出芯片系列内部纵向和系列间的横向比较结果,可看出阵列并行处理在图像处理底层方面的潜力以及研制多媒体芯片如何综合选用并行处... 本文讨论了三种采用不同并行技术的代表处理器芯片在图像处理底层算法中的性能以及资源利用率的问题,给出芯片系列内部纵向和系列间的横向比较结果,可看出阵列并行处理在图像处理底层方面的潜力以及研制多媒体芯片如何综合选用并行处理技术. 展开更多
关键词 图像处理 并行计算 微处理器 计算机
下载PDF
面向VLIW DSP结构的编译器的设计与实现 被引量:1
10
作者 王敏 王红梅 +2 位作者 张铁军 单睿 王东辉 《微计算机应用》 2009年第7期49-54,共6页
VLIW编译器实现指令并行性挖掘、相关性检查、指令调度等职能,对VLIW处理器的性能影响较大。本文基于一款VLIW DSP芯片,利用可重定位编译器IMPACT的前端和代码生成器模板,设计和实现了高性能的VLIW编译器。利用伪数据类型和Intrinsic函... VLIW编译器实现指令并行性挖掘、相关性检查、指令调度等职能,对VLIW处理器的性能影响较大。本文基于一款VLIW DSP芯片,利用可重定位编译器IMPACT的前端和代码生成器模板,设计和实现了高性能的VLIW编译器。利用伪数据类型和Intrinsic函数结合,在编译器中构建了对SIMD功能的支持。实验结果显示,对比基于GCC版本的编译器,该编译器生成的指令数平均下降42%,并行包数下降30%。 展开更多
关键词 编译器 超长指令字 代码生成器 单指令多数据
下载PDF
一种基于HXDSP的移位器查找表技术 被引量:1
11
作者 叶鸿 顾乃杰 +2 位作者 林传文 张孝慈 陈瑞 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2019年第10期2044-2050,共7页
高性能信号处理应用的快速发展,对相应处理器的运算速度及吞吐效率提出了巨大挑战。移位器是数字信号处理器(DSP)上的重要部件,通过为移位器设计额外专用随机存取存储器(RAM)和查找表(LUT),并对其指令集及架构进行优化调整,从而达到提... 高性能信号处理应用的快速发展,对相应处理器的运算速度及吞吐效率提出了巨大挑战。移位器是数字信号处理器(DSP)上的重要部件,通过为移位器设计额外专用随机存取存储器(RAM)和查找表(LUT),并对其指令集及架构进行优化调整,从而达到提高处理器使用效率和传输速率的目的。此外,基于移位器与相应查找表指令,可在数据暂存的同时进行移位、提取、算术与逻辑运算处理,将部分数据运算的过程直接合并在对移位器RAM的数据存读取过程中,显著地提高了运算部件的使用效率。结果表明:基于移位器查找表的暂存技术可以达到与传输总线接近的吞吐率,对信号处理算法快速傅里叶变换(FFT)可以达到加速比约为1. 15~1. 20的性能提升效果。 展开更多
关键词 数字信号处理器(DSP) 移位器 查找表(LUT) 单指令多数据流(SIMD) 超长指令字(VLIW)
下载PDF
一种媒体处理器的高级语言及其编译系统
12
作者 张丹 赵银亮 +4 位作者 王海 李增智 宋红 曹德宏 刘波 《微电子学与计算机》 CSCD 北大核心 2004年第12期20-23,27,共5页
媒体处理器通常采用汇编语言编程以满足代码大小、性能和能耗方面的要求。本文提出了媒体处理器高级语言的设计原则,并针对Leadtek公司的媒体处理器设计,实现了VP6-C语言及其编译系统。VP6-C语言用于编写多媒体处理中的核心程序,为程序... 媒体处理器通常采用汇编语言编程以满足代码大小、性能和能耗方面的要求。本文提出了媒体处理器高级语言的设计原则,并针对Leadtek公司的媒体处理器设计,实现了VP6-C语言及其编译系统。VP6-C语言用于编写多媒体处理中的核心程序,为程序员提供一种C风格的、自然的编程方式。试验结果表明编译生成的目标代码有较高的质量。 展开更多
关键词 VP6-C VLIW SIMD GCC 媒体处理器
下载PDF
海量STAP数据的脉冲压缩快速实现
13
作者 任磊 王永良 +1 位作者 母其勇 陈辉 《数据采集与处理》 CSCD 北大核心 2008年第3期342-346,共5页
在空时二维自适应处理系统中对海量数据作脉压处理耗时颇大。本文基于单片数字信号处理器(DSP)从数据级和指令级两个方面进行优化,通过合理调度处理器资源并利用片内并行技术,快速实现了对海量数据的脉冲压缩优化处理。以空时二维自适... 在空时二维自适应处理系统中对海量数据作脉压处理耗时颇大。本文基于单片数字信号处理器(DSP)从数据级和指令级两个方面进行优化,通过合理调度处理器资源并利用片内并行技术,快速实现了对海量数据的脉冲压缩优化处理。以空时二维自适应处理(STAP)系统中单景四重频数据为分析对象,比较了采用商业库优化方法和本文方法优化后的两种情况。实验结果证明,在处理时间上取得了1.801的加速比,误差控制在10-5量级,1 024点脉压处理时间为50.456μs,验证了本文方法的有效性。 展开更多
关键词 脉冲压缩 海量数据 单指令多数据流(SIMD) 超长指令字(VLIW) TS201
下载PDF
面向BWDSP100的编译基础设施扩展研究
14
作者 王昊 王向前 《中国集成电路》 2014年第7期40-43,47,共5页
BWDSP100是一款采用16发射、SIMD、VLIW架构的32位高性能DSP,适用于雷达信号处理、电子对抗、通信及图像处理等领域。对这种体系结构,编译器是发挥其高性能的关键因素。本文针对在Openimpact编译基础设施基础上开发BWDSP100编译器过程... BWDSP100是一款采用16发射、SIMD、VLIW架构的32位高性能DSP,适用于雷达信号处理、电子对抗、通信及图像处理等领域。对这种体系结构,编译器是发挥其高性能的关键因素。本文针对在Openimpact编译基础设施基础上开发BWDSP100编译器过程中遇到的一些关键技术加以讨论,并对Openimpact对多簇BWDSP100的支持进行了扩展。 展开更多
关键词 分簇 指令调度
下载PDF
H.264帧内预测模块在TMS320C6416上的并行实现 被引量:1
15
作者 杜谋辉 周媛媛 +1 位作者 余圣发 林嘉宇 《计算机工程与科学》 CSCD 2006年第11期51-53,59,共4页
本文结合DSP芯片TMS320C6416的结构特征,在分析H.264帧内预测模块并行特性的基础上提出了H.264帧内预测模块的并行实现方法。工程实践结果表明,并行处理效果比较理想。
关键词 H.264 TMS320C6416 帧内预测 并行 VLIW SIMD
下载PDF
数字信号变换函数在多簇VLIW DSP上的优化 被引量:2
16
作者 甄扬 顾乃杰 叶鸿 《计算机工程》 CAS CSCD 北大核心 2016年第3期47-52,共6页
针对BWDSP100体系结构特点,基于循环展开、指令调度以及软件流水等并行优化技术,结合多簇超长指令架构的特点,通过使用超算硬件指令、零开销循环、指令重新编排与并行等方法对BWDSP100数字信号处理函数库中的函数实施并行化,并基于库中... 针对BWDSP100体系结构特点,基于循环展开、指令调度以及软件流水等并行优化技术,结合多簇超长指令架构的特点,通过使用超算硬件指令、零开销循环、指令重新编排与并行等方法对BWDSP100数字信号处理函数库中的函数实施并行化,并基于库中原有的顺序版本实现并行优化版本。实验结果表明,在4宏并行化模式下,所有函数加速比达到9以上,90%的函数加速比超过10,平均加速比为11.12。 展开更多
关键词 超长指令字 单指令流多数据流 数字信号处理器 循环展开 并行化 多簇
下载PDF
面向LTE-A终端软基带的矢量处理器设计 被引量:1
17
作者 张建正 秦晓卫 周武旸 《无线通信技术》 2014年第3期15-20,共6页
面向移动终端处理器的低功耗、低成本、高效率、灵活升级的需求,本文在对LTEA基带算法并行性分析的基础上,提出了一种基于超长指令字(Very Long Instruction Word,VLIW)和单指令多数据(Single Instruction Multiple Data,SIMD)混合结构... 面向移动终端处理器的低功耗、低成本、高效率、灵活升级的需求,本文在对LTEA基带算法并行性分析的基础上,提出了一种基于超长指令字(Very Long Instruction Word,VLIW)和单指令多数据(Single Instruction Multiple Data,SIMD)混合结构的矢量处理器作为终端软基带解决方案。该矢量处理器采用变长的VLIW指令字,共有7条矢量数据通路,每条通路可执行16个16bit的定点运算;采用分组的系数存储器提高灵活性,受限访问的寄存器组降低电路面积;同时设计了SHUF和ISHUF指令专门用于快速傅里叶变换(FFT)和维特比(VITERBI)译码算法的矢量化实现。最后本文实现和分析了FFT和VITERBI译码算法。 展开更多
关键词 软基带 矢量处理器 超长指令字 单指令多数据
下载PDF
一种VLIW循环指令的预取和优化策略
18
作者 琚魁 谢憬 毛志刚 《微电子学与计算机》 CSCD 北大核心 2013年第5期19-22,共4页
本文提出了一种VLIW处理器的预取和针对循环指令的优化策略.文中重点介绍了预取普通指令和处理循环指令的方法,以及普通预取和循环预取这两种预取模式间的切换方式.基于该设计和优化方案,可以有效减小取指操作的功耗.实验证明,在针对不... 本文提出了一种VLIW处理器的预取和针对循环指令的优化策略.文中重点介绍了预取普通指令和处理循环指令的方法,以及普通预取和循环预取这两种预取模式间的切换方式.基于该设计和优化方案,可以有效减小取指操作的功耗.实验证明,在针对不同的应用上,减少的功耗从40%到90%不等,优化了该VLIW多运算簇DSP处理器的性能. 展开更多
关键词 DSP处理器 VLIW SIMD 指令预取
下载PDF
分簇VLIW DSP上支持单双字模式选择的SIMD编译优化 被引量:2
19
作者 黄胜兵 郑启龙 郭连伟 《计算机应用》 CSCD 北大核心 2015年第8期2371-2374,共4页
BWDSP100是一款采用超长指令字(VLIW)和单指令多数据流(SIMD)架构的针对高性能计算领域而设计的32位静态标量数字信号处理器,其指令级并行(ILP)主要是通过其特殊的分簇体系结构和SIMD指令来实现,然而现有的编译框架无法对这些特殊的SIM... BWDSP100是一款采用超长指令字(VLIW)和单指令多数据流(SIMD)架构的针对高性能计算领域而设计的32位静态标量数字信号处理器,其指令级并行(ILP)主要是通过其特殊的分簇体系结构和SIMD指令来实现,然而现有的编译框架无法对这些特殊的SIMD指令提供支持。由于BWDSP100拥有丰富的SIMD向量化资源,且其所运用的雷达数字信号处理领域对程序的性能要求极高,因此针对BWDSP100结构的特点,在传统Open64编译器中SIMD编译优化框架的基础上提出并实现了一种支持单双字模式选择的SIMD编译优化算法,通过该算法可以显著提高一些在DSP上有着广泛运用计算密集型程序的性能。实验结果表明,与优化前相比,该算法方案在BWDSP编译器上的实现能够平均取得5.66的加速比。 展开更多
关键词 编译优化 指令级并行 分簇体系数字信号处理器 超长指令字 单指令多数据流 Open64编译器
下载PDF
基于矢量处理器的可编程并行MIMO检测器设计
20
作者 范阿冬 秦晓卫 戴旭初 《电子科技大学学报》 EI CAS CSCD 北大核心 2016年第3期337-343,共7页
针对部分层间并行球形译码(PIPSD)算法的特点,基于超长指令字(VLIW)和单指令多数据(SIMD)混合结构的矢量处理器原型,合理安排处理器结构参数,选择合适的寄存器数目和长度。根据算法和结构的相互作用特点,挖掘算法内在的数据并行性和指... 针对部分层间并行球形译码(PIPSD)算法的特点,基于超长指令字(VLIW)和单指令多数据(SIMD)混合结构的矢量处理器原型,合理安排处理器结构参数,选择合适的寄存器数目和长度。根据算法和结构的相互作用特点,挖掘算法内在的数据并行性和指令并行性,设计高效的指令集和相应的功能单元,软硬件协同优化VLIW分布,在支持多种配置的基础上尽可能减小执行周期数,提高译码吞吐率,从而设计出高效的基于专用指令集矢量处理器的可编程并行MIMO检测器。 展开更多
关键词 多天线检测 单指令多数据 矢量处理器 超长指令字
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部