期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
基于FPGA的高精度科学计算加速器研究 被引量:10
1
作者 雷元武 窦勇 郭松 《计算机学报》 EI CSCD 北大核心 2012年第1期112-122,共11页
探索了FPGA平台加速高精度科学计算应用的能力和灵活性.首先,研究科学计算中最常用的操作——向量内积,提出基于定点操作的精确向量内积算法.以IEEE 754-2008标准的四精度(Quadruple Precision)浮点算术为例,在FPGA平台上设计了一个基... 探索了FPGA平台加速高精度科学计算应用的能力和灵活性.首先,研究科学计算中最常用的操作——向量内积,提出基于定点操作的精确向量内积算法.以IEEE 754-2008标准的四精度(Quadruple Precision)浮点算术为例,在FPGA平台上设计了一个基于全展开方法的全流水四精度浮点乘累加单元(QPMAC):提出两级存储策略精确存储乘累加和;采用保留进位累加策略减少定点加法器位宽、简化进位处理、优化关键路径;引入累加和划分策略,实现流水吞吐率.最后,在XC5VLX330FPGA芯片上设计一个LU分解和MGS-QR分解加速器原型来验证QPMAC的性能.实验结果表明,与运行在Intel四核处理器上的基于OpenMP的并行算法相比,集成4个QP-MAC单元的加速器能获得42倍到97倍的性能提升,并且能获得更高结果精度和更低能量消耗. 展开更多
关键词 四精度浮点算术 LU分解 MGS-QR分解 FPGA 硬件加速器 E量级计算
下载PDF
面向ARMv8 64位多核处理器的QGEMM设计与实现 被引量:3
2
作者 姜浩 杜琦 +4 位作者 郭敏 全哲 左克 王锋 杨灿群 《计算机学报》 EI CSCD 北大核心 2017年第9期2018-2029,共12页
该文在ARMv8 64位多核处理器上基于OpenBLAS首次设计、实现并优化了四精度矩阵乘法(Quadruple precision General Matrix-Matrix Multiplication,QGEMM).由于浮点计算中不可避免地引入舍入误差,双精度矩阵乘法(DGEMM)在某些情况下不能... 该文在ARMv8 64位多核处理器上基于OpenBLAS首次设计、实现并优化了四精度矩阵乘法(Quadruple precision General Matrix-Matrix Multiplication,QGEMM).由于浮点计算中不可避免地引入舍入误差,双精度矩阵乘法(DGEMM)在某些情况下不能给出令人满意的数值结果,因此需要高精度或多精度算法来实现更精确的计算.Double-double算术是一种较为有效和广泛使用的手段.文中采用double-double数据格式构建结构体存储四精度浮点数据;基于OpenBLAS中的稠密矩阵计算的分块算法,增加四精度数据格式的相关的头文件和源文件,并用汇编代码撰写文中所提出的QGEMM的核心内核;利用无误差变换技术,调整并优化内核中的算法流程,避免规格化操作步骤造成的数据强制依赖关系;通过分析算法的数据依赖关系,设计寄存器的分配和轮转策略,优化指令调度顺序,开发指令级并行性,提高QGEMM的实际性能.根据具体算法使用混合乘加指令(FMA)的程度不同,文中采用了算法理论峰值性能这一概念,其有别于机器理论峰值的概念,能更好地评估文中所提出的QGEMM的实际效率.数值实验表明:文中通过汇编代码实现并优化的QGEMM性能最高达到19.7Gflops,效率为在ARMv864位多核处理器平台上QGEMM算法理论峰值性能的82.1%,在满足数值结果精度要求的同时,其计算速度约是由C语言撰写的未优化的QGEMM和MBLAS中QGEMM的5.8倍,是编译器GCC实现的long double数据格式的QGEMM的24倍.同时数值实验还显示文中提出的QGEMM针对不同规模的矩阵具有较好的线程可扩展性. 展开更多
关键词 ARMv8 64位多核处理器 QGEMM 四精度 double—double数据格式 LONG double数据格式 OpenBLAS
下载PDF
定制VLIW结构实现四精度浮点基本函数 被引量:1
3
作者 雷元武 窦勇 +1 位作者 倪时策 周杰 《电子学报》 EI CAS CSCD 北大核心 2012年第9期1715-1722,共8页
本文针对科学应用中基本函数种类多、实现复杂、使用频率低的特点,提出一种定制VLIW结构四精度浮点基本函数协处理器(QPC-Processor).该结构通过显示并行技术挖掘基本函数实现算法的并行性,在同一硬件平台上通过元操作的不同组合来计算... 本文针对科学应用中基本函数种类多、实现复杂、使用频率低的特点,提出一种定制VLIW结构四精度浮点基本函数协处理器(QPC-Processor).该结构通过显示并行技术挖掘基本函数实现算法的并行性,在同一硬件平台上通过元操作的不同组合来计算多种基本函数.同时,本文还提出基本函数元操作序列到定制VLIW指令的映射算法,指导基本函数的设计.最后,在FPGA平台上进行验证.实验结果表明,相对软件实现,单个QPC-Processor能够取得6倍以上的加速比,而且,QFC-Processor在同一硬件平台上实现多种类型的算法,弥补单一算法的不足,获得较高的硬件资源利用率. 展开更多
关键词 四精度浮点算术 超长指令字 基本函数 CORDIC算法
下载PDF
一种低成本128位高精度浮点SIMD乘加单元的设计与实现
4
作者 黄立波 王志英 +1 位作者 沈立 马胜 《计算机工程与科学》 CSCD 北大核心 2012年第9期71-76,共6页
SIMD单元集成已经成为提高处理器性能的重要途径之一。虽然定点SIMD单元的硬件复用低成本设计技术已经较为成熟,但是,大部分浮点SIMD单元的硬件设计还停留在简单的硬件复制方法上。本文针对日益增长的128位高精度浮点操作的计算需求,提... SIMD单元集成已经成为提高处理器性能的重要途径之一。虽然定点SIMD单元的硬件复用低成本设计技术已经较为成熟,但是,大部分浮点SIMD单元的硬件设计还停留在简单的硬件复制方法上。本文针对日益增长的128位高精度浮点操作的计算需求,提出了其相应的SIMD低成本硬件结构方案。综合实验结果表明,所提出的SIMD浮点乘加单元比传统128位高精度浮点乘加单元具有更加优化的性能与面积参数。 展开更多
关键词 浮点乘加 单指令多数据 四精度
下载PDF
基于FPGA的增量式编码器信号采集系统 被引量:8
5
作者 梅荣军 骆敏舟 陈晓丹 《测控技术》 CSCD 北大核心 2014年第7期54-56,60,共4页
利用Verilog语言在FPGA内设计了一种实时高精度增量式编码器信号采集系统,实现了编码器信号的四倍频、计数,与DSP高速通信等功能,并精简了系统电路。同时分析、减小伺服系统在实际运行中采集编码器数据时产生的误差。最后通过在ModelSi... 利用Verilog语言在FPGA内设计了一种实时高精度增量式编码器信号采集系统,实现了编码器信号的四倍频、计数,与DSP高速通信等功能,并精简了系统电路。同时分析、减小伺服系统在实际运行中采集编码器数据时产生的误差。最后通过在ModelSim下软件仿真和Altera公司EP2C8Q208C芯片上硬件测试,验证计数与传输的准确性。 展开更多
关键词 FPGA 高精度 四倍频 增量式编码器
下载PDF
四联滑移齿轮的液压控制机构设计 被引量:1
6
作者 李爱花 王其松 《装备制造技术》 2016年第5期42-43,共2页
四联滑移齿轮的液压控制机构是应用于卧式车床的主轴箱的一种变速传动结构,通过液压缸实现四联滑移齿轮在传动轴上的四工位精确定位,从而使调速更精确。液压缸的设计具有双悬伸准停特点,四联滑移齿轮的移动控制平稳可靠。
关键词 四联滑移齿轮 液压移动控制 精确定位 变速
下载PDF
一种高性能四倍精度浮点乘加器的设计与实现 被引量:1
7
作者 何军 黄永勤 朱英 《计算机工程》 CAS CSCD 2014年第2期294-299,共6页
高精度、高性能浮点运算部件是高性能微处理器设计的重要部分。通过对传统双精度浮点乘加运算算法的研究,结合四倍精度浮点数据格式特点,设计并实现一种高性能的四倍精度浮点乘加器(QPFMA),该乘加器支持多种浮点运算,运算延迟为7拍,全... 高精度、高性能浮点运算部件是高性能微处理器设计的重要部分。通过对传统双精度浮点乘加运算算法的研究,结合四倍精度浮点数据格式特点,设计并实现一种高性能的四倍精度浮点乘加器(QPFMA),该乘加器支持多种浮点运算,运算延迟为7拍,全流水结构。采用双路加法器改进算法结构,优化头零预测和规格化移位逻辑,减小运算延迟和硬件开销。通过参数化设计验证方法,实现高效的正确性验证。逻辑综合结果表明,基于65 nm工艺,该QPFMA频率可达1.2 GHz,比现有的QPFMA设计运算延迟减少3拍,频率提高约11.63%。 展开更多
关键词 浮点运算 乘加 四倍精度 高精度 参数化
下载PDF
基于双精度与四精度的重力场解算精度分析 被引量:2
8
作者 朱永超 万晓云 周保兴 《大地测量与地球动力学》 CSCD 北大核心 2020年第1期94-97,110,共5页
基于动力学方法比较分析了双精度与四精度模式下重力场模型的解算精度,主要包括缔合勒让德函数计算、数值积分器及重力场反演结果。结果显示,在勒让德函数计算方面,部分角度在双精度模式下计算至1900阶以后会出现溢出问题,而在四精度模... 基于动力学方法比较分析了双精度与四精度模式下重力场模型的解算精度,主要包括缔合勒让德函数计算、数值积分器及重力场反演结果。结果显示,在勒让德函数计算方面,部分角度在双精度模式下计算至1900阶以后会出现溢出问题,而在四精度模式下任何角度都满足精度要求,并且计算结果比双精度模式高8个量级。数值积分器Adams预测校正法积分1 d的位置和速度误差,在四精度模式下比在双精度模式下高4个量级。在精密轨道反演重力场计算方面,动力学方法在双精度及四精度模式下反演结果一致,统计其计算至60阶的累计大地水准面误差为1.29×10^-5 m,这是因为动力学方法的线性误差相对计算误差而言是主要误差;非线性动力学方法在四精度模式下比在双精度模式下高7个量级,其大地水准面误差分别为8.92×10^-15 m和8.16×10^-8 m。 展开更多
关键词 四精度 勒让德函数 数值积分器 动力学积分法
下载PDF
基于幽门螺杆菌药敏试验的个体化四联方案与经验四联方案的成本-效果分析
9
作者 陈亚芳 赵玉琴 +3 位作者 戴娜 张桂珍 杨勇 文婷婷 《中国处方药》 2021年第4期51-53,共3页
目的比较根据幽门螺杆菌药敏试验结果制定个体化根治方案与经验四联疗法的成本和效果,为临床选择经济有效的根治方案提供参考。方法选择2019年1月~12月在幽门螺杆菌(Hp)门诊就诊且符合入选标准的患者,根据药敏结果分别纳入经验治疗组和... 目的比较根据幽门螺杆菌药敏试验结果制定个体化根治方案与经验四联疗法的成本和效果,为临床选择经济有效的根治方案提供参考。方法选择2019年1月~12月在幽门螺杆菌(Hp)门诊就诊且符合入选标准的患者,根据药敏结果分别纳入经验治疗组和个体化治疗组,分析两组成本-效果。结果51例接受个体化治疗,96例纳入经验治疗组。经验治疗组和个体化治疗组的Hp根治率为85.41%、92.0%,两组的成本-效果比(CER)分别为3.80、3.09,以个体化治疗组为参照,经验治疗组单位增量成本-效果比(ICER)为-5.82。结论个体化四联方案的成本-效果明显优于经验四联方案,有条件的地区或医院应开展Hp药敏检测,针对性地制定根治Hp的方案,提高根治率,降低成本。 展开更多
关键词 幽门螺杆菌 经验四联疗法 个体化四联疗法 成本-效果分析
下载PDF
基于SIMD部件的四倍精度浮点乘加器设计
10
作者 何军 黄永勤 朱英 《计算机科学》 CSCD 北大核心 2013年第12期15-18,51,共5页
如何减少四倍精度浮点运算的硬件开销和延迟是需要解决的重要问题。为减少四倍精度乘加器的硬件开销,基于支持64位×4的双精度浮点SIMD FMA部件,设计并实现了一种新的四倍精度浮点乘加器(QPFMA),来支持4种浮点乘加运算和乘法、加减... 如何减少四倍精度浮点运算的硬件开销和延迟是需要解决的重要问题。为减少四倍精度乘加器的硬件开销,基于支持64位×4的双精度浮点SIMD FMA部件,设计并实现了一种新的四倍精度浮点乘加器(QPFMA),来支持4种浮点乘加运算和乘法、加减法、比较运算,运算延迟为7拍。通过将四倍精度113位×113位尾数乘法器分解为4个57位×57位乘法器来共享双精度浮点SIMD FMA部件的53位×53位乘法器,显著减少了实现QPFMA的硬件开销。基于65nm工艺的逻辑综合结果表明,该QPFMA频率可达1.1GHz,面积是常规QPFMA设计的42.71%,仅与一个双精度浮点乘加器相当。与现有的QPFMA设计相比,相当工艺和频率下,其运算延迟减少了3拍,门数减少了65.96%。 展开更多
关键词 浮点 SIMD部件 乘加 四倍精度 高精度
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部