期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
改进部分积压缩结构的快速乘法器 被引量:1
1
作者 董时华 乔庐峰 《计算机工程》 CAS CSCD 北大核心 2010年第9期252-254,共3页
针对16位乘法器运算速度慢、硬件逻辑资源消耗大的问题,采用华莱士树压缩结构,通过对二阶布思算法、4-2压缩器和保留进位加法器的优化组合使用及对符号数采用合理的添、补、删策略,实现16位符号数快速乘法器的优化设计。该乘法器采用SMI... 针对16位乘法器运算速度慢、硬件逻辑资源消耗大的问题,采用华莱士树压缩结构,通过对二阶布思算法、4-2压缩器和保留进位加法器的优化组合使用及对符号数采用合理的添、补、删策略,实现16位符号数快速乘法器的优化设计。该乘法器采用SMIC 0.18μm工艺标准数字单元库,使用Synopsys Design Compiler综合实现,在1.8 V,25℃条件下,芯片最大路径延时为3.16 ns,内核面积为50 452.75μm2,功耗为5.17 mW。 展开更多
关键词 布思算法 4-2压缩器 保留进位加法器 跳跃进位加法器 华莱士树型结构
下载PDF
一种高速DSP中延迟优化的乘累加单元的设计与实现(英文)
2
作者 Sheraz Anjum 陈杰 李海军 《电子器件》 CAS 2007年第4期1375-1379,共5页
乘累加单元是任何数字信号处理器(DSP)数据通路中的一个关键部分.多年来,硬件工程师们一直倾注于其优化与改进.本文描述了一种速度优化的乘累加单元的设计与实现.本文的乘累加单元是为一种高速VLIW结构的DSP核设计,能够进行16×16+4... 乘累加单元是任何数字信号处理器(DSP)数据通路中的一个关键部分.多年来,硬件工程师们一直倾注于其优化与改进.本文描述了一种速度优化的乘累加单元的设计与实现.本文的乘累加单元是为一种高速VLIW结构的DSP核设计,能够进行16×16+40的无符号和带符号的二进制补码操作.在关键路径延迟上,本文的乘累加单元比其他任何使用相同或不同算数技术实现的乘累加单元都更优.本文的乘累加单元已成功使用于synopsys的工具,并与synopsys的Design Ware库中相同位宽的乘累加单元比较.比较结果表明,本文的乘累加单元比Design Ware库中的任何其他实现都要快,适合于在需要高吞吐率的DSP核中使用.注意:比较是在Design compiler中使用相同属性和开关下进行的. 展开更多
关键词 乘累加单元 改进的波兹编码 部分积 修整向量 Wallace树压缩器 进位保留加法器 进位传播加法器
下载PDF
A High-performance Low Cost Inverse Integer Transform Architecture for AVS Video Standard
3
作者 李宇飞 王琴 付宇卓 《Journal of Shanghai Jiaotong university(Science)》 EI 2008年第1期116-121,共6页
A high-performance, low cost inverse integer transform architecture for advanced video standard (AVS) video coding standard was presented. An 8×8 inverse integer transform is required in AVS video system which is... A high-performance, low cost inverse integer transform architecture for advanced video standard (AVS) video coding standard was presented. An 8×8 inverse integer transform is required in AVS video system which is compute-intensive. A hardware transform is inevitable to compute the transform for the real-time application. Compared with the 4×4 transform for H.264/AVC, the 8×8 integer transform is much more complex and the coefficient in the inverse transform matrix T8 is not inerratic as that in H.264/AVC. Dividing the T8 into matrix S8 and R8, the proposed architecture is implemented with the adders and the specific CSA-trees instead of multipliers, which are area and time consuming. The architecture obtains the data processing rate up to 8 pixels per-cycle at a low cost of area. Synthesized to TSMC 0.18μm COMS process, the architecture attains the operating frequency of 300 MHz at cost of 34 252 gates with a 2-stage pipeline scheme. A reusable scheme is also introduced for the area optimization, which results in the operating frequency of 143 MHz at cost of only 19 758 gates. 展开更多
关键词 传输模式 电视 计算机技术 设计方案
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部