期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
12
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
高吞吐率双模浮点可重构FFT处理器设计实现
被引量:
4
1
作者
魏星
黄志洪
杨海钢
《电子与信息学报》
EI
CSCD
北大核心
2018年第12期3042-3050,共9页
高吞吐浮点可灵活重构的快速傅里叶变换(FFT)处理器可满足尖端雷达实时成像和高精度科学计算等多种应用需求。与定点FFT相比,浮点运算复杂度更高,使得浮点型FFT的运算吞吐率与其实现面积、功耗之间的矛盾问题尤为突出。鉴于此,为降低运...
高吞吐浮点可灵活重构的快速傅里叶变换(FFT)处理器可满足尖端雷达实时成像和高精度科学计算等多种应用需求。与定点FFT相比,浮点运算复杂度更高,使得浮点型FFT的运算吞吐率与其实现面积、功耗之间的矛盾问题尤为突出。鉴于此,为降低运算复杂度,首先将大点数FFT分解成若干个小点数基2k级联子级实现,提出分别针对128/256/512/1024/2048点FFT的优化混合基算法。同时,结合所提出同时支持单通道单精度和双通道半精度两种浮点模式的新型融合加减与点乘运算单元,首次提出一款高吞吐率双模浮点可变点FFT处理器结构,并在28 nm标准CMOS工艺下进行设计并实现。实验结果表明,单通道单精度和双通道半精度浮点两种模式下的运算吞吐率和输出平均信号量化噪声比分别为3.478 GSample/s, 135 dB和6.957 GSample/s, 60 dB。归一化吞吐率面积比相比于现有其他浮点FFT实现可提高约12倍。
展开更多
关键词
快速傅里叶变换
双模浮点
混合基
融合运算单元
下载PDF
职称材料
可重构浮点混合/连续乘-加器的设计与实现
被引量:
1
2
作者
洪琪
何敏
+1 位作者
范继聪
袁粲
《计算机工程》
CAS
CSCD
2014年第7期272-276,共5页
浮点连续乘-加、混合乘-加和三操作数加等浮点算术运算在科学计算领域中应用越来越频繁,为设计一款支持浮点连续乘-加、混合乘-加和三操作数加的多功能浮点运算单元,提出一种可重构浮点混合/连续乘-加器,通过对控制位的配置可以实现多...
浮点连续乘-加、混合乘-加和三操作数加等浮点算术运算在科学计算领域中应用越来越频繁,为设计一款支持浮点连续乘-加、混合乘-加和三操作数加的多功能浮点运算单元,提出一种可重构浮点混合/连续乘-加器,通过对控制位的配置可以实现多种浮点数据操作。该乘-加器采用8级流水线,可以实现单周期的浮点乘累加,大幅提高数据处理吞吐量,同时支持三操作数加和两操作数和的累加。在Modelsim SE6.6f中对该设计进行仿真验证,结果表明其能够在Xilinx Virtex-6 FPGA上实现,资源消耗2 631个LUT,频率可达250 MHz,结果证明该浮点混合/连续乘-加器具有较大的使用价值。
展开更多
关键词
浮点
连续乘-加
混合乘-加
三操作数加
可重构
流水线
下载PDF
职称材料
高性能多通道浮点乘加器
3
作者
罗旻
沈绪榜
高德远
《计算机工程与应用》
CSCD
北大核心
2006年第12期12-15,26,共5页
随着面向数字信号处理以及其他相关领域的专用微处理技术的发展,浮点乘加运算变得日益重要。该操作将乘法和加法相融合,节省了整个运算的执行延时。基于多通路的思想,文章提出了一种改进的多通道浮点乘加器结构。根据对阶时A相对于B...
随着面向数字信号处理以及其他相关领域的专用微处理技术的发展,浮点乘加运算变得日益重要。该操作将乘法和加法相融合,节省了整个运算的执行延时。基于多通路的思想,文章提出了一种改进的多通道浮点乘加器结构。根据对阶时A相对于B×C乘积的位置,将整个处理过程分为四条数据通路,采用不同的数据处理通路,避免了不必要的处理延时。通过对比得出:多通道浮点乘加器无论在速度以及功耗上,都具有一定的优势。
展开更多
关键词
浮点乘加器
多通道
低功耗
数字信号处理
下载PDF
职称材料
一种低成本128位高精度浮点SIMD乘加单元的设计与实现
4
作者
黄立波
王志英
+1 位作者
沈立
马胜
《计算机工程与科学》
CSCD
北大核心
2012年第9期71-76,共6页
SIMD单元集成已经成为提高处理器性能的重要途径之一。虽然定点SIMD单元的硬件复用低成本设计技术已经较为成熟,但是,大部分浮点SIMD单元的硬件设计还停留在简单的硬件复制方法上。本文针对日益增长的128位高精度浮点操作的计算需求,提...
SIMD单元集成已经成为提高处理器性能的重要途径之一。虽然定点SIMD单元的硬件复用低成本设计技术已经较为成熟,但是,大部分浮点SIMD单元的硬件设计还停留在简单的硬件复制方法上。本文针对日益增长的128位高精度浮点操作的计算需求,提出了其相应的SIMD低成本硬件结构方案。综合实验结果表明,所提出的SIMD浮点乘加单元比传统128位高精度浮点乘加单元具有更加优化的性能与面积参数。
展开更多
关键词
浮点乘加
单指令多数据
四精度
下载PDF
职称材料
一种改进的浮点乘加器结构的延时分析
5
作者
靳战鹏
沈绪榜
田芳芳
《计算机应用研究》
CSCD
北大核心
2006年第6期85-87,120,共4页
针对一种改进的浮点乘加器结构,对关键路径的延时进行定量的估算,并将其与传统乘加器结构的延时进行比较。
关键词
浮点乘加器
关键路径
前导零
延时
下载PDF
职称材料
一种快速SIMD浮点乘加器的设计与实现
被引量:
5
6
作者
吴铁彬
刘衡竹
+2 位作者
杨惠
张剑锋
侯申
《计算机工程与科学》
CSCD
北大核心
2012年第1期69-73,共5页
本文设计和实现了5级全流水SIMD浮点乘加器,支持双精度和双单精度浮点乘法、乘累加(减)操作,用Modelsim和NC Verilog测试和验证了RTL代码实现,基于65nm工艺采用Synopsys公司的Design Complier工具综合硬件实现,运行频率可达714.286MHz...
本文设计和实现了5级全流水SIMD浮点乘加器,支持双精度和双单精度浮点乘法、乘累加(减)操作,用Modelsim和NC Verilog测试和验证了RTL代码实现,基于65nm工艺采用Synopsys公司的Design Complier工具综合硬件实现,运行频率可达714.286MHz。结果表明,相比文献[3]中经典的低延迟乘加结构,在相同综合条件下性能提升了17.89%,面积增加了6.61%,功耗降低了25.08%。
展开更多
关键词
浮点乘法
浮点乘累加
SIMD
双单精度
下载PDF
职称材料
一种定浮点合并的FALU设计与实现
被引量:
1
7
作者
王云贵
杨靓
《微处理机》
2011年第2期7-9,13,共4页
算术逻辑单元(ALU)是现代通用处理器和DSP处理器的核心功能部件。设计了一种定浮点合并的FALU,通过结合使用功能单元复用技术、操作数隔离技术和旁路技术,理论上能有效减少芯片的面积,降低芯片的功耗。FALU能实现21种指令,仿真验证显示...
算术逻辑单元(ALU)是现代通用处理器和DSP处理器的核心功能部件。设计了一种定浮点合并的FALU,通过结合使用功能单元复用技术、操作数隔离技术和旁路技术,理论上能有效减少芯片的面积,降低芯片的功耗。FALU能实现21种指令,仿真验证显示其功能完全正确。
展开更多
关键词
定浮点合并
算术逻辑部件
旁路
操作数隔离
下载PDF
职称材料
基于AltiVec技术的浮点乘加单元的设计
8
作者
赵明亮
樊晓桠
+1 位作者
黄小平
姚涛
《计算机测量与控制》
CSCD
北大核心
2010年第1期153-156,共4页
Alti Vec技术是为提高PowerPC的向量处理能力而对PowerPC指令集体系结构的扩展;浮点乘加单元是向量处理单元的主要构成部分,设计一种基于Alti Vec技术的向量浮点乘加单元;在基本浮点乘加器的基础上,提出了java模式下对非规格化数的预规...
Alti Vec技术是为提高PowerPC的向量处理能力而对PowerPC指令集体系结构的扩展;浮点乘加单元是向量处理单元的主要构成部分,设计一种基于Alti Vec技术的向量浮点乘加单元;在基本浮点乘加器的基础上,提出了java模式下对非规格化数的预规格化处理;设计采用了一种半并行的结构,与传统的全并行结构相比可以节省一半的硬件面积;时钟频率为266 MHz时,java模式下5拍可以完成,非java模式下4拍可以完成。
展开更多
关键词
AltiVec
浮点乘加器
java模式
预规格化
下载PDF
职称材料
分离通路浮点乘加器设计与实现
被引量:
1
9
作者
何军
黄永勤
朱英
《计算机科学》
CSCD
北大核心
2013年第8期28-33,共6页
针对传统浮点融合乘加器会增加独立浮点加减法、乘法等运算延迟的缺点,首先设计并实现了一种分离通路浮点乘加器SPFMA,通过分离乘法和加法通路,在保持融合乘加运算延迟6拍延迟不变的情况下,将独立乘法和加法等运算延迟由6拍减为4拍,克...
针对传统浮点融合乘加器会增加独立浮点加减法、乘法等运算延迟的缺点,首先设计并实现了一种分离通路浮点乘加器SPFMA,通过分离乘法和加法通路,在保持融合乘加运算延迟6拍延迟不变的情况下,将独立乘法和加法等运算延迟由6拍减为4拍,克服了传统融合乘加器的缺点。然后经专用工艺单元库逻辑综合评估,SPFMA可工作在1.2GHz以上,面积60779.44um2。最后在硬件仿真加速器平台上运行SPEC CPU2000浮点测试课题对其进行性能评估,结果表明所有浮点课题性能均有所提高,最大提高5.25%,平均提高1.61%,证明SPFMA可进一步提高浮点性能。
展开更多
关键词
浮点加法
浮点乘法
融合乘加
分离通路
浮点性能
运算延迟
下载PDF
职称材料
浮点乘加部件延迟对浮点性能影响的研究
10
作者
何军
田增
+1 位作者
郭勇
陈诚
《计算机工程》
CAS
CSCD
2013年第7期311-313,317,共4页
浮点融合乘加部件会增加独立浮点加减法、乘法等运算延迟。为克服该缺陷,研究将乘加部件独立乘法、加减法等运算延迟由6拍减为4拍时对浮点性能的影响。以某支持乘加运算的国产处理器为基础,修改相关的RTL级设计代码,利用硬件仿真加速器...
浮点融合乘加部件会增加独立浮点加减法、乘法等运算延迟。为克服该缺陷,研究将乘加部件独立乘法、加减法等运算延迟由6拍减为4拍时对浮点性能的影响。以某支持乘加运算的国产处理器为基础,修改相关的RTL级设计代码,利用硬件仿真加速器平台,对SPEC CPU2000浮点测试课题进行评估。实验结果表明,该延迟优化有利于提高浮点性能,最大提高5.25%,平均提高1.61%。
展开更多
关键词
浮点加法
浮点乘法
融合乘加
硬件仿真
浮点性能
运算延迟
下载PDF
职称材料
基于SIMD部件的四倍精度浮点乘加器设计
11
作者
何军
黄永勤
朱英
《计算机科学》
CSCD
北大核心
2013年第12期15-18,51,共5页
如何减少四倍精度浮点运算的硬件开销和延迟是需要解决的重要问题。为减少四倍精度乘加器的硬件开销,基于支持64位×4的双精度浮点SIMD FMA部件,设计并实现了一种新的四倍精度浮点乘加器(QPFMA),来支持4种浮点乘加运算和乘法、加减...
如何减少四倍精度浮点运算的硬件开销和延迟是需要解决的重要问题。为减少四倍精度乘加器的硬件开销,基于支持64位×4的双精度浮点SIMD FMA部件,设计并实现了一种新的四倍精度浮点乘加器(QPFMA),来支持4种浮点乘加运算和乘法、加减法、比较运算,运算延迟为7拍。通过将四倍精度113位×113位尾数乘法器分解为4个57位×57位乘法器来共享双精度浮点SIMD FMA部件的53位×53位乘法器,显著减少了实现QPFMA的硬件开销。基于65nm工艺的逻辑综合结果表明,该QPFMA频率可达1.1GHz,面积是常规QPFMA设计的42.71%,仅与一个双精度浮点乘加器相当。与现有的QPFMA设计相比,相当工艺和频率下,其运算延迟减少了3拍,门数减少了65.96%。
展开更多
关键词
浮点
SIMD部件
乘加
四倍精度
高精度
下载PDF
职称材料
面向E量级超算的并行循环压缩浮点乘加校验结构
12
作者
高剑刚
刘骁
+1 位作者
郑方
唐勇
《计算机学报》
EI
CAS
CSCD
北大核心
2023年第6期1103-1120,共18页
E量级超算面临超十亿浮点融合乘加(Fused Multiply-Add,FMA)部件同时运行的严峻挑战,单个FMA检错率的少量变化可引起系统可用性的较大变动.E级超算核心的高运行频率、实时校验需求对校验逻辑时序提出了更高的要求.同时,E级超算需要控制...
E量级超算面临超十亿浮点融合乘加(Fused Multiply-Add,FMA)部件同时运行的严峻挑战,单个FMA检错率的少量变化可引起系统可用性的较大变动.E级超算核心的高运行频率、实时校验需求对校验逻辑时序提出了更高的要求.同时,E级超算需要控制系统规模,同芯片面积下集成的核心数目更多,片上资源较为紧张.因此,FMA校验设计需要在保证错误检测能力的前提下,对校验逻辑的时序、面积开销进行控制.本文提出了并行循环4:2压缩结构.余数系统模数增大后,并行循环4:2压缩结构能在降低余数生成逻辑的时序、面积开销的同时,提升余数系统的检错能力.本文还对余数域中的FMA尾数运算进行研究,提出了取反符号扩展操作、乘法尾数、加法尾数的余数域加速变换.实验结果表明,本文提出的并行循环4:2混合压缩余数生成逻辑较模加器树余数生成逻辑、CSA(Carry Saved Adder) 3:2压缩余数生成逻辑分别最多可取得19.64%、6.75%的时序优化和71%、18.18%的面积优化.基于并行循环4:2压缩树的模63余数校验在面积开销、检错率、系统可用性上均优于IBM采用的模15浮点FMA校验设计,面积开销、检错率优化效果分别能达到67.61%、5%,系统可用性优化最多可达49.6%.
展开更多
关键词
浮点融合乘加
可用性
浮点校验
模加器
并行循环压缩
下载PDF
职称材料
题名
高吞吐率双模浮点可重构FFT处理器设计实现
被引量:
4
1
作者
魏星
黄志洪
杨海钢
机构
中国科学院电子学研究所
中国科学院大学
出处
《电子与信息学报》
EI
CSCD
北大核心
2018年第12期3042-3050,共9页
基金
国家自然科学基金(61704173
61474120)
北京市科技重大专项课题(Z171100000117019)~~
文摘
高吞吐浮点可灵活重构的快速傅里叶变换(FFT)处理器可满足尖端雷达实时成像和高精度科学计算等多种应用需求。与定点FFT相比,浮点运算复杂度更高,使得浮点型FFT的运算吞吐率与其实现面积、功耗之间的矛盾问题尤为突出。鉴于此,为降低运算复杂度,首先将大点数FFT分解成若干个小点数基2k级联子级实现,提出分别针对128/256/512/1024/2048点FFT的优化混合基算法。同时,结合所提出同时支持单通道单精度和双通道半精度两种浮点模式的新型融合加减与点乘运算单元,首次提出一款高吞吐率双模浮点可变点FFT处理器结构,并在28 nm标准CMOS工艺下进行设计并实现。实验结果表明,单通道单精度和双通道半精度浮点两种模式下的运算吞吐率和输出平均信号量化噪声比分别为3.478 GSample/s, 135 dB和6.957 GSample/s, 60 dB。归一化吞吐率面积比相比于现有其他浮点FFT实现可提高约12倍。
关键词
快速傅里叶变换
双模浮点
混合基
融合运算单元
Keywords
Fast Fourier Transform (EFT)
Dual-mode
floating
point
Mixed-radix
fused
arithmetic unit
分类号
TN47 [电子电信—微电子学与固体电子学]
下载PDF
职称材料
题名
可重构浮点混合/连续乘-加器的设计与实现
被引量:
1
2
作者
洪琪
何敏
范继聪
袁粲
机构
安徽大学电子信息工程学院
出处
《计算机工程》
CAS
CSCD
2014年第7期272-276,共5页
基金
国家"863"计划基金资助项目(2009AA012201)
专用集成电路与系统国家重点实验室开放基金资助项目(12KF004)
文摘
浮点连续乘-加、混合乘-加和三操作数加等浮点算术运算在科学计算领域中应用越来越频繁,为设计一款支持浮点连续乘-加、混合乘-加和三操作数加的多功能浮点运算单元,提出一种可重构浮点混合/连续乘-加器,通过对控制位的配置可以实现多种浮点数据操作。该乘-加器采用8级流水线,可以实现单周期的浮点乘累加,大幅提高数据处理吞吐量,同时支持三操作数加和两操作数和的累加。在Modelsim SE6.6f中对该设计进行仿真验证,结果表明其能够在Xilinx Virtex-6 FPGA上实现,资源消耗2 631个LUT,频率可达250 MHz,结果证明该浮点混合/连续乘-加器具有较大的使用价值。
关键词
浮点
连续乘-加
混合乘-加
三操作数加
可重构
流水线
Keywords
floating
point
continuous
multiply-add
fused
multiply-add
three-operands addition
reconfigurable
pipeline
分类号
TP332 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
高性能多通道浮点乘加器
3
作者
罗旻
沈绪榜
高德远
机构
西北工业大学计算机学院
出处
《计算机工程与应用》
CSCD
北大核心
2006年第12期12-15,26,共5页
基金
国家部委"十五"预研课题资助项目
文摘
随着面向数字信号处理以及其他相关领域的专用微处理技术的发展,浮点乘加运算变得日益重要。该操作将乘法和加法相融合,节省了整个运算的执行延时。基于多通路的思想,文章提出了一种改进的多通道浮点乘加器结构。根据对阶时A相对于B×C乘积的位置,将整个处理过程分为四条数据通路,采用不同的数据处理通路,避免了不必要的处理延时。通过对比得出:多通道浮点乘加器无论在速度以及功耗上,都具有一定的优势。
关键词
浮点乘加器
多通道
低功耗
数字信号处理
Keywords
floating
-
point
fused
multiply-add
,multi-path,low power
分类号
TP39 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种低成本128位高精度浮点SIMD乘加单元的设计与实现
4
作者
黄立波
王志英
沈立
马胜
机构
国防科学技术大学计算机学院
出处
《计算机工程与科学》
CSCD
北大核心
2012年第9期71-76,共6页
基金
国家自然科学基金资助项目(60803041
60773024
+1 种基金
61025009)
国家973计划资助项目(2007CB310901)
文摘
SIMD单元集成已经成为提高处理器性能的重要途径之一。虽然定点SIMD单元的硬件复用低成本设计技术已经较为成熟,但是,大部分浮点SIMD单元的硬件设计还停留在简单的硬件复制方法上。本文针对日益增长的128位高精度浮点操作的计算需求,提出了其相应的SIMD低成本硬件结构方案。综合实验结果表明,所提出的SIMD浮点乘加单元比传统128位高精度浮点乘加单元具有更加优化的性能与面积参数。
关键词
浮点乘加
单指令多数据
四精度
Keywords
floating
-
point
fused
multiply-add
SIMD
quadruple precision
分类号
TP302 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
一种改进的浮点乘加器结构的延时分析
5
作者
靳战鹏
沈绪榜
田芳芳
机构
西北工业大学计算机学院
出处
《计算机应用研究》
CSCD
北大核心
2006年第6期85-87,120,共4页
基金
国防"十五"预研课题资助项目(41308010108)
西北工业大学研究生创业种子基金资助项目(Z20040050)
文摘
针对一种改进的浮点乘加器结构,对关键路径的延时进行定量的估算,并将其与传统乘加器结构的延时进行比较。
关键词
浮点乘加器
关键路径
前导零
延时
Keywords
floating
-
point
fused
multiply-add
Critical Path
Leading-zero
Latency
分类号
TP39 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种快速SIMD浮点乘加器的设计与实现
被引量:
5
6
作者
吴铁彬
刘衡竹
杨惠
张剑锋
侯申
机构
国防科学技术大学计算机学院
出处
《计算机工程与科学》
CSCD
北大核心
2012年第1期69-73,共5页
基金
核高基重大专项(2009ZX01034-001-006)
文摘
本文设计和实现了5级全流水SIMD浮点乘加器,支持双精度和双单精度浮点乘法、乘累加(减)操作,用Modelsim和NC Verilog测试和验证了RTL代码实现,基于65nm工艺采用Synopsys公司的Design Complier工具综合硬件实现,运行频率可达714.286MHz。结果表明,相比文献[3]中经典的低延迟乘加结构,在相同综合条件下性能提升了17.89%,面积增加了6.61%,功耗降低了25.08%。
关键词
浮点乘法
浮点乘累加
SIMD
双单精度
Keywords
floating
-
point
multiply
floating
-
point
fused
multiply-add
(FMAC)
SIMD
double-single precision
floating
-
point
分类号
TP332.2 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
一种定浮点合并的FALU设计与实现
被引量:
1
7
作者
王云贵
杨靓
机构
西安微电子技术研究所
出处
《微处理机》
2011年第2期7-9,13,共4页
文摘
算术逻辑单元(ALU)是现代通用处理器和DSP处理器的核心功能部件。设计了一种定浮点合并的FALU,通过结合使用功能单元复用技术、操作数隔离技术和旁路技术,理论上能有效减少芯片的面积,降低芯片的功耗。FALU能实现21种指令,仿真验证显示其功能完全正确。
关键词
定浮点合并
算术逻辑部件
旁路
操作数隔离
Keywords
floating
-
point
fixed-
point
fused
ALU
By pass
Operand isolation
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于AltiVec技术的浮点乘加单元的设计
8
作者
赵明亮
樊晓桠
黄小平
姚涛
机构
西北工业大学航空微电子中心
出处
《计算机测量与控制》
CSCD
北大核心
2010年第1期153-156,共4页
基金
国家自然基金(60773223)
国家自然基金重点项目(60736012)
文摘
Alti Vec技术是为提高PowerPC的向量处理能力而对PowerPC指令集体系结构的扩展;浮点乘加单元是向量处理单元的主要构成部分,设计一种基于Alti Vec技术的向量浮点乘加单元;在基本浮点乘加器的基础上,提出了java模式下对非规格化数的预规格化处理;设计采用了一种半并行的结构,与传统的全并行结构相比可以节省一半的硬件面积;时钟频率为266 MHz时,java模式下5拍可以完成,非java模式下4拍可以完成。
关键词
AltiVec
浮点乘加器
java模式
预规格化
Keywords
AltiVec
floating point multiply-add fused
java mode
pre-normalization
分类号
TP39 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
分离通路浮点乘加器设计与实现
被引量:
1
9
作者
何军
黄永勤
朱英
机构
上海高性能集成电路设计中心
出处
《计算机科学》
CSCD
北大核心
2013年第8期28-33,共6页
文摘
针对传统浮点融合乘加器会增加独立浮点加减法、乘法等运算延迟的缺点,首先设计并实现了一种分离通路浮点乘加器SPFMA,通过分离乘法和加法通路,在保持融合乘加运算延迟6拍延迟不变的情况下,将独立乘法和加法等运算延迟由6拍减为4拍,克服了传统融合乘加器的缺点。然后经专用工艺单元库逻辑综合评估,SPFMA可工作在1.2GHz以上,面积60779.44um2。最后在硬件仿真加速器平台上运行SPEC CPU2000浮点测试课题对其进行性能评估,结果表明所有浮点课题性能均有所提高,最大提高5.25%,平均提高1.61%,证明SPFMA可进一步提高浮点性能。
关键词
浮点加法
浮点乘法
融合乘加
分离通路
浮点性能
运算延迟
Keywords
floating
-
point
add
floating
-
point
multiply
fused
multiply-add
Separated path
floating
-
point
perfor-mance
Operation latency
分类号
TP332.2 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
浮点乘加部件延迟对浮点性能影响的研究
10
作者
何军
田增
郭勇
陈诚
机构
上海高性能集成电路设计中心
出处
《计算机工程》
CAS
CSCD
2013年第7期311-313,317,共4页
文摘
浮点融合乘加部件会增加独立浮点加减法、乘法等运算延迟。为克服该缺陷,研究将乘加部件独立乘法、加减法等运算延迟由6拍减为4拍时对浮点性能的影响。以某支持乘加运算的国产处理器为基础,修改相关的RTL级设计代码,利用硬件仿真加速器平台,对SPEC CPU2000浮点测试课题进行评估。实验结果表明,该延迟优化有利于提高浮点性能,最大提高5.25%,平均提高1.61%。
关键词
浮点加法
浮点乘法
融合乘加
硬件仿真
浮点性能
运算延迟
Keywords
floating
-
point
add
floating
-
point
multiply
fused
multiply-add
(FMA)
hardware emulation
floating
-
point
performance
operation latency
分类号
TP368.1 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于SIMD部件的四倍精度浮点乘加器设计
11
作者
何军
黄永勤
朱英
机构
上海高性能集成电路设计中心
出处
《计算机科学》
CSCD
北大核心
2013年第12期15-18,51,共5页
文摘
如何减少四倍精度浮点运算的硬件开销和延迟是需要解决的重要问题。为减少四倍精度乘加器的硬件开销,基于支持64位×4的双精度浮点SIMD FMA部件,设计并实现了一种新的四倍精度浮点乘加器(QPFMA),来支持4种浮点乘加运算和乘法、加减法、比较运算,运算延迟为7拍。通过将四倍精度113位×113位尾数乘法器分解为4个57位×57位乘法器来共享双精度浮点SIMD FMA部件的53位×53位乘法器,显著减少了实现QPFMA的硬件开销。基于65nm工艺的逻辑综合结果表明,该QPFMA频率可达1.1GHz,面积是常规QPFMA设计的42.71%,仅与一个双精度浮点乘加器相当。与现有的QPFMA设计相比,相当工艺和频率下,其运算延迟减少了3拍,门数减少了65.96%。
关键词
浮点
SIMD部件
乘加
四倍精度
高精度
Keywords
floating
-
point
, SIMD device,
fused
multiply-add
, Quadruple precision, High precision
分类号
TP332.2 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
面向E量级超算的并行循环压缩浮点乘加校验结构
12
作者
高剑刚
刘骁
郑方
唐勇
机构
国家并行计算机工程技术中心
出处
《计算机学报》
EI
CAS
CSCD
北大核心
2023年第6期1103-1120,共18页
文摘
E量级超算面临超十亿浮点融合乘加(Fused Multiply-Add,FMA)部件同时运行的严峻挑战,单个FMA检错率的少量变化可引起系统可用性的较大变动.E级超算核心的高运行频率、实时校验需求对校验逻辑时序提出了更高的要求.同时,E级超算需要控制系统规模,同芯片面积下集成的核心数目更多,片上资源较为紧张.因此,FMA校验设计需要在保证错误检测能力的前提下,对校验逻辑的时序、面积开销进行控制.本文提出了并行循环4:2压缩结构.余数系统模数增大后,并行循环4:2压缩结构能在降低余数生成逻辑的时序、面积开销的同时,提升余数系统的检错能力.本文还对余数域中的FMA尾数运算进行研究,提出了取反符号扩展操作、乘法尾数、加法尾数的余数域加速变换.实验结果表明,本文提出的并行循环4:2混合压缩余数生成逻辑较模加器树余数生成逻辑、CSA(Carry Saved Adder) 3:2压缩余数生成逻辑分别最多可取得19.64%、6.75%的时序优化和71%、18.18%的面积优化.基于并行循环4:2压缩树的模63余数校验在面积开销、检错率、系统可用性上均优于IBM采用的模15浮点FMA校验设计,面积开销、检错率优化效果分别能达到67.61%、5%,系统可用性优化最多可达49.6%.
关键词
浮点融合乘加
可用性
浮点校验
模加器
并行循环压缩
Keywords
floating
-
point
fused
multiply-add
availability
residue check
modular adder
parallel cyclic compression
分类号
TP302 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
高吞吐率双模浮点可重构FFT处理器设计实现
魏星
黄志洪
杨海钢
《电子与信息学报》
EI
CSCD
北大核心
2018
4
下载PDF
职称材料
2
可重构浮点混合/连续乘-加器的设计与实现
洪琪
何敏
范继聪
袁粲
《计算机工程》
CAS
CSCD
2014
1
下载PDF
职称材料
3
高性能多通道浮点乘加器
罗旻
沈绪榜
高德远
《计算机工程与应用》
CSCD
北大核心
2006
0
下载PDF
职称材料
4
一种低成本128位高精度浮点SIMD乘加单元的设计与实现
黄立波
王志英
沈立
马胜
《计算机工程与科学》
CSCD
北大核心
2012
0
下载PDF
职称材料
5
一种改进的浮点乘加器结构的延时分析
靳战鹏
沈绪榜
田芳芳
《计算机应用研究》
CSCD
北大核心
2006
0
下载PDF
职称材料
6
一种快速SIMD浮点乘加器的设计与实现
吴铁彬
刘衡竹
杨惠
张剑锋
侯申
《计算机工程与科学》
CSCD
北大核心
2012
5
下载PDF
职称材料
7
一种定浮点合并的FALU设计与实现
王云贵
杨靓
《微处理机》
2011
1
下载PDF
职称材料
8
基于AltiVec技术的浮点乘加单元的设计
赵明亮
樊晓桠
黄小平
姚涛
《计算机测量与控制》
CSCD
北大核心
2010
0
下载PDF
职称材料
9
分离通路浮点乘加器设计与实现
何军
黄永勤
朱英
《计算机科学》
CSCD
北大核心
2013
1
下载PDF
职称材料
10
浮点乘加部件延迟对浮点性能影响的研究
何军
田增
郭勇
陈诚
《计算机工程》
CAS
CSCD
2013
0
下载PDF
职称材料
11
基于SIMD部件的四倍精度浮点乘加器设计
何军
黄永勤
朱英
《计算机科学》
CSCD
北大核心
2013
0
下载PDF
职称材料
12
面向E量级超算的并行循环压缩浮点乘加校验结构
高剑刚
刘骁
郑方
唐勇
《计算机学报》
EI
CAS
CSCD
北大核心
2023
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部