期刊文献+
共找到26篇文章
< 1 2 >
每页显示 20 50 100
基于HLS技术的Rijndael算法IP核实现与优化 被引量:1
1
作者 孙桂玲 纪永鑫 +1 位作者 张潺潺 李维祥 《微电子学与计算机》 CSCD 北大核心 2010年第4期205-208,212,共5页
为了降低传统设计模式在应对大规模SoC设计时带来高复杂度,使用高层次综合HLS技术进行了Rijndael算法IP核的设计、综合与仿真.针对Rijndael算法中的多种运算模块,研究并设计了面向硬件的编码方式及优化方案.通过对比,使用高层次综合技... 为了降低传统设计模式在应对大规模SoC设计时带来高复杂度,使用高层次综合HLS技术进行了Rijndael算法IP核的设计、综合与仿真.针对Rijndael算法中的多种运算模块,研究并设计了面向硬件的编码方式及优化方案.通过对比,使用高层次综合技术设计的IP核在各方面都接近或超越了使用传统方式设计的IP核,而设计复杂度大大降低,证明了使用HLS方法进行设计的优越性. 展开更多
关键词 高层次综合 Catapult synthesis RIJNDAEL SYSTEMC
下载PDF
基于Xilinx Vivado HLS的小型无人机平衡仪设计 被引量:6
2
作者 张展 崔晋伟 陆炯 《电子科技》 2015年第7期172-174,178,共4页
针对FPGA开发难度大,流程繁琐的问题,提出了一种基于FPGA的飞行控制系统快速开发方法。该方法引进Xilinx Vivado HLS开发工具,首先在ARM平台上设计飞行控制系统,后将代码快速移植到FPGA平台,实现一个完整的四旋翼平衡仪系统。实践验证表... 针对FPGA开发难度大,流程繁琐的问题,提出了一种基于FPGA的飞行控制系统快速开发方法。该方法引进Xilinx Vivado HLS开发工具,首先在ARM平台上设计飞行控制系统,后将代码快速移植到FPGA平台,实现一个完整的四旋翼平衡仪系统。实践验证表明,文中所提方法与传统方法相比,流程更为简便,且易于实现。 展开更多
关键词 FPGA 平衡仪 高级综合工具
下载PDF
基于HLS的矩阵求逆算法设计优化 被引量:2
3
作者 凌元 韩文俊 孙健 《电子技术与软件工程》 2021年第22期93-96,共4页
本文主要研究了HLS多层动态边界循环的优化策略。HLS利用C/C++语言完成算法设计和验证,通过高级综合工具自动生成RTL代码,显著缩短了算法FPGA设计复杂度及实现效率,在信号处理算法实现方面有着显著的优势。但对于具有多层动态循环边界... 本文主要研究了HLS多层动态边界循环的优化策略。HLS利用C/C++语言完成算法设计和验证,通过高级综合工具自动生成RTL代码,显著缩短了算法FPGA设计复杂度及实现效率,在信号处理算法实现方面有着显著的优势。但对于具有多层动态循环边界的算法,由于各层循环的数据依赖性及循环边界的不可预知性,HLS难以实现理想的结果。本文以Cholesky分解矩阵求逆算法为例,通过对矩阵求逆计算过程数据计算顺序、数据依赖性、运算步骤进行了分析与理论计算,提出了一种将多层循环优化为单层、两层循环的方法,解决了流水线优化指令高效应用问题。实现结果表明,经过优化后,在资源增加较少的情况下,矩阵求逆延迟性能提升118倍。 展开更多
关键词 hls(high level synthesis) FPGA 矩阵求逆 Cholesky PIPELINE
下载PDF
基于HLS的实时图像去雾实现 被引量:7
4
作者 齐乐 张小刚 姚航 《计算机工程》 CAS CSCD 北大核心 2016年第5期224-229,共6页
户外图像或视频受到大气中烟雾的影响,存在模糊不清及颜色偏移等问题,在很大程度上影响户外视频系统正常稳定工作。现有的去雾算法计算复杂度较高,仅依靠软件对视频级进行去雾有一定难度。针对这一现状,分析暗原色先验去雾算法的计算瓶... 户外图像或视频受到大气中烟雾的影响,存在模糊不清及颜色偏移等问题,在很大程度上影响户外视频系统正常稳定工作。现有的去雾算法计算复杂度较高,仅依靠软件对视频级进行去雾有一定难度。针对这一现状,分析暗原色先验去雾算法的计算瓶颈,利用高级层次综合(HLS)工具实现去雾算法的硬件化,使用流水线技术将去雾算法运行在现场可编程门阵列上。实验结果表明,在保证去雾质量的前提下,对于1080P的实时场景,可以达到每秒45帧以上的处理速度,基本满足高清视频去雾的需求。 展开更多
关键词 暗通道 去雾 视频 现场可编程门阵列 实时 高级层次综合工具
下载PDF
基于HLS的SAR回波模拟硬件加速设计 被引量:2
5
作者 韩思齐 韩力 +1 位作者 孙林 吴琼之 《电子设计工程》 2018年第11期158-164,共7页
针对合成孔径雷达(SAR)回波模拟的实时性需求,提出了一种基于高层次综合(HLS)的回波模拟硬件加速系统。实时性是衡量回波模拟系统性能的重要指标,随着成像区域复杂度、成像质量要求等不断提高,回波模拟的计算复杂度急剧增加,模拟过程耗... 针对合成孔径雷达(SAR)回波模拟的实时性需求,提出了一种基于高层次综合(HLS)的回波模拟硬件加速系统。实时性是衡量回波模拟系统性能的重要指标,随着成像区域复杂度、成像质量要求等不断提高,回波模拟的计算复杂度急剧增加,模拟过程耗时巨大。将FPGA应用于SAR回波生成硬件加速,并引入高层次综合方法,解决了传统硬件开发的算法转换繁琐、不支持浮点运算等关键问题,经过验证能达到较高的性能与精度,保证了回波模拟的实时性,具有较高的应用价值。 展开更多
关键词 高层次综合(hls) 回波模拟 硬件加速 可编程逻辑门阵列(FPGA)
下载PDF
使用HLS开发FPGA异构加速系统:问题、优化方法和机遇 被引量:1
6
作者 徐诚 郭进阳 +3 位作者 李超 王靖 汪陶磊 赵杰茹 《计算机科学与探索》 CSCD 北大核心 2023年第8期1729-1748,共20页
目前,现场可编程门阵列(field programmable gate array,FPGA)由于可编程性与出色的能效比受到了学术界与工业界的青睐,但是传统的基于硬件描述语言的FPGA开发方式面临编程挑战。硬件描述语言区别于通常使用的高级语言,阻碍了软件开发者... 目前,现场可编程门阵列(field programmable gate array,FPGA)由于可编程性与出色的能效比受到了学术界与工业界的青睐,但是传统的基于硬件描述语言的FPGA开发方式面临编程挑战。硬件描述语言区别于通常使用的高级语言,阻碍了软件开发者对FPGA的利用。高层次综合(high-level synthesis,HLS)使得开发者可以从高级语言如C/C++层面直接进行FPGA硬件层面的开发,是解决这一问题的首选,受到了广泛的关注。近年来,学术界有许多关于HLS的工作,致力于解决HLS应用过程中的各类问题,并提升通过HLS开发的系统的性能。围绕使用HLS开发FPGA异构系统这一问题,以一种异构系统开发者的视角,列举了可行的优化方向。在编译优化层面,HLS工具可以通过插入编译指导与设计高效的空间探索算法,自动生成性能较高的RTL设计;在访存优化层面,HLS工具可以设立缓冲区,拆分并复制数据,以提升系统整体带宽;在并行优化层面,HLS工具可以实现语句级、任务级以及板卡级的并行。一些如DSL的技术虽然不能直接提升异构加速系统的性能,但是可以进一步提升HLS工具的可用性。最后,总结了当前HLS面临的一些挑战,并对HLS的未来研究方向进行了展望。 展开更多
关键词 现场可编程门阵列(FPGA) 高层次综合 异构系统 高级语言 编译优化
下载PDF
基于Vivado HLS的Down Scaler视频系统设计 被引量:2
7
作者 安航 《单片机与嵌入式系统应用》 2016年第11期21-23,共3页
介绍一种基于FPGA的Down Scaler视频系统设计。系统的核心部件采用Xilinx Kintex-7的板载XC7K325T芯片,系统设计使用Vivado工具,包括使用Vivado HLS进行Down Scaler模块设计。首先按照Vivado HLS的代码规范进行Down Scaler模块的C/C++... 介绍一种基于FPGA的Down Scaler视频系统设计。系统的核心部件采用Xilinx Kintex-7的板载XC7K325T芯片,系统设计使用Vivado工具,包括使用Vivado HLS进行Down Scaler模块设计。首先按照Vivado HLS的代码规范进行Down Scaler模块的C/C++代码编写,然后利用编译工具生成RTL级代码和综合结果 Down Scaler IP核,最后将Down Scaler IP核与TPG、VDMA等Xilinx视频IP核互连,构建实时视频系统。在满足实时性要求和FPGA资源消耗要求的条件下,该设计实现了对Down Scaler视频算法从PC端软件处理方式向FPGA平台硬件处理方式的移植。 展开更多
关键词 VIVADO hls FPGA DOWN SCALER 高层次综合
下载PDF
基于粒子群的HLS的自动化架构实现
8
作者 吴家飞 黄晞 施文灶 《计算机应用与软件》 北大核心 2018年第9期22-26,37,共6页
随着数据挖掘、深度学习等领域的火热的发展,在嵌入式设备实现深度学习等计算量较大的算法已经成为一种趋势。由于传统CPU和GPU平台已经难以保证算法实时性的情况下,利用FPGA高性能低功耗的特点对复杂算法实现硬件加速,有着较好的优势... 随着数据挖掘、深度学习等领域的火热的发展,在嵌入式设备实现深度学习等计算量较大的算法已经成为一种趋势。由于传统CPU和GPU平台已经难以保证算法实时性的情况下,利用FPGA高性能低功耗的特点对复杂算法实现硬件加速,有着较好的优势。利用Xilinx公司的HLS工具,基于粒子群算法设计一套硬件加速方法。该方法可实现算法优化方案的自动化寻找,极大地提升了设计效率。实验结果表明,该优化方法在寻找一般算法的较优方案上具有一定程度上的通用性。 展开更多
关键词 FPGA 模糊离散粒子群算法 高层次综合(hls)
下载PDF
基于Vivado HLS的硬件设计效能评估 被引量:1
9
作者 戴源 白雨鑫 +1 位作者 张伟 陈鑫 《电脑知识与技术》 2021年第19期1-4,共4页
本文为了研究面向FPGA芯片的高层次综合工具Vivado HLS在硬件设计中的性能,分别利用C++语言与Verilog语言设计移位寄存器,通过比较两种设计方法在不同输出位宽下,其时序、功耗、PDP以及资源使用量上的差别来评估HLS工具在硬件电路设计... 本文为了研究面向FPGA芯片的高层次综合工具Vivado HLS在硬件设计中的性能,分别利用C++语言与Verilog语言设计移位寄存器,通过比较两种设计方法在不同输出位宽下,其时序、功耗、PDP以及资源使用量上的差别来评估HLS工具在硬件电路设计上的效率与功能性。实验结果表明,虽然HLS工具综合得到的Verilog代码表现不如手工直接编写的Verilog代码,但其以高级语言作为输入的特性还是能满足让设计师在不需要掌握硬件描述语言的情况下利用FPGA实现算法加速的目的。 展开更多
关键词 FPGA 高层次综合 高级语言 Vivado hls VERILOG PDP
下载PDF
基于HLS的红外遥感图像连通域快速提取方法 被引量:3
10
作者 成昊天 丁荣莉 +3 位作者 胡博文 李杰 李焱 欧阳尚荣 《上海航天(中英文)》 CSCD 2021年第4期144-151,共8页
连通域提取是红外遥感图像目标检测算法中的重要组成部分,包含在粗检算法中,能够筛去多数虚警,提升粗检效果,减少检测算法的运算量,降低系统功耗。现有的一些连通域提取算法基于CPU处理方式设计,不适合部署在现场可编程逻辑门阵列(FPGA... 连通域提取是红外遥感图像目标检测算法中的重要组成部分,包含在粗检算法中,能够筛去多数虚警,提升粗检效果,减少检测算法的运算量,降低系统功耗。现有的一些连通域提取算法基于CPU处理方式设计,不适合部署在现场可编程逻辑门阵列(FPGA)硬件端。本文采用高层次综合(HLS)的开发模式,设计了适合FPGA加速的连通域提取方法,相比传统的硬件描述语言开发方法具有更高的灵活性和效率。通过只扫描一次二值图像,将面积、范围和连通信息均记录在远小于图像的等价表中,通过简化标记规则和等价表刷新的方法,既提高了运算速度又节省了大量缓存,最终在硬件平台实测256×256的8 bit图像达到了797帧/s的处理速度。 展开更多
关键词 红外图像 遥感图像 高层次综合(hls) 现场可编程逻辑门阵列(FPGA) 连通域
下载PDF
Stratus HLS工具在高性能双精度浮点乘法设计中的应用流程 被引量:1
11
作者 苑佳红 《电子技术应用》 2018年第8期20-23,30,共5页
双精度浮点乘法部件是高性能CPU的核心运算部件之一。描述了使用Cadence Stratus HLS工具设计和实现双精度浮点乘法部件,探索新设计方法学在关键路径延时调整、数据路径优化以及低功耗优化等问题的解决方法,并探讨如何将新的设计流程结... 双精度浮点乘法部件是高性能CPU的核心运算部件之一。描述了使用Cadence Stratus HLS工具设计和实现双精度浮点乘法部件,探索新设计方法学在关键路径延时调整、数据路径优化以及低功耗优化等问题的解决方法,并探讨如何将新的设计流程结合到原有项目开发中等问题。最终,高阶综合设计的RTL,在28 nm工艺下综合实现频率为2.5 GHz、面积为28 211μm^2,基本满足高性能微处理器的开发要求,增强了在项目中更加广泛地使用新设计方法学的信心。 展开更多
关键词 高阶综合 hls 双精度浮点乘法
下载PDF
Register Allocation Algorithm for High-Level Circuit Synthesis for Improved Testability 被引量:1
12
作者 成本茂 王红 +2 位作者 杨士元 牛道恒 靳洋 《Tsinghua Science and Technology》 SCIE EI CAS 2008年第6期836-842,共7页
Register allocation in high-level circuit synthesis is important not only for reducing area, delay, and power overheads, but also for improving the testability of the synthesized circuits. This paper presents an impro... Register allocation in high-level circuit synthesis is important not only for reducing area, delay, and power overheads, but also for improving the testability of the synthesized circuits. This paper presents an improved register allocation algorithm that improves the testability called weighted graph-based balanced register allocation for high-level circuit synthesis. The controllability and observability of the registers and the self-loop elimination are analyzed to form a weighted conflict graph, where the weight of the edge between two nodes denotes the tendency of the two variables to share the same register. Then the modified desaturation algorithm is used to dynamically modify the weights to obtain a final balanced register allocation which improves the testability of the synthesized circuits a higher fault coverage than other algorithms with Tests on some benchmarks show that the algorithm gives less area overhead and even less time delay. 展开更多
关键词 high-level synthesis (hls register allocation TESTABILITY weighted graph
原文传递
A Novel Testability-Oriented Data Path Scheduling Scheme in High-Level Synthesis
13
作者 成本茂 王红 +2 位作者 杨士元 牛道恒 靳洋 《Tsinghua Science and Technology》 SCIE EI CAS 2007年第S1期134-138,共5页
Scheduling is an important step in high-level synthesis and can greatly influence the testability of the synthesized circuits. This paper presents an efficient testability-improved data path scheduling scheme based on... Scheduling is an important step in high-level synthesis and can greatly influence the testability of the synthesized circuits. This paper presents an efficient testability-improved data path scheduling scheme based on mobility scheduling, in which the scheduling begins from the operation with least mobility. In our data path scheduling scheme, the lifetimes of the I/O variables are made as short as possible to enlarge the possibility of the intermediate variables being allocated to the I/O registers. In this way, the controllability/observability of the intermediate variables can be improved. Combined with a weighted graph-based register allocation method, this scheme can obtain better testability. Experimental results on some benchmarks and example circuits show that the proposed scheme can get higher fault coverage compared with other scheduling schemes at little area overhead and even less time delay. 展开更多
关键词 high-level synthesis(hls) SCHEDULING TESTABILITY MOBILITY
原文传递
路径规划算法的高层综合设计研究
14
作者 赖李洋 郑锫骏 +1 位作者 梁海成 李华伟 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第11期4132-4140,共9页
随着机器人自动导航技术的快速发展,基于软件实现的路径规划算法在实时性上已无法满足许多应用场景的需求,这就要求对算法进行快速高效的硬件定制,从而获得低延时的性能加速。该文以机器人路径规划中的经典A*算法为对象,通过构建面向硬... 随着机器人自动导航技术的快速发展,基于软件实现的路径规划算法在实时性上已无法满足许多应用场景的需求,这就要求对算法进行快速高效的硬件定制,从而获得低延时的性能加速。该文以机器人路径规划中的经典A*算法为对象,通过构建面向硬件设计的C/C++数据结构和函数流程优化,采用高层综合(HLS)实现快速的硬件架构探索和选取较优的设计方案,并完成硬件FPGA综合。实验数据表明,相较于传统寄存器传输级(RTL)开发模式,基于HLS开发模式的路径规划算法在FPGA实现上在开发效率、硬件性能和资源占用率上都有显著提升,验证了高层综合在硬件定制中的可行性和成本优势。 展开更多
关键词 机器人自动导航 路径规划算法 高层综合 算法硬件加速
下载PDF
基于FPGA的永磁同步电机速度控制
15
作者 于长松 刘曰涛 +2 位作者 姜佩岑 邹大林 祝保财 《组合机床与自动化加工技术》 北大核心 2024年第4期131-134,140,共5页
针对永磁同步电机(PMSM)速度控制器中采用传统PI控制存在响应速度慢、超调量大以及容易出现积分饱和等问题,设计了采取Anti-Windup策略的速度控制器,并在现场可编辑逻辑门阵列(FPGA)中实现对PMSM的控制。首先采用高层次综合技术(HLS)对P... 针对永磁同步电机(PMSM)速度控制器中采用传统PI控制存在响应速度慢、超调量大以及容易出现积分饱和等问题,设计了采取Anti-Windup策略的速度控制器,并在现场可编辑逻辑门阵列(FPGA)中实现对PMSM的控制。首先采用高层次综合技术(HLS)对PMSM伺服控制关键模块完成建模,其次封装成IP核导入到工程中,最后下载到FPGA芯片上完成对PMSM的控制。经过与传统PI控制器实验比较,使用该速度控制方法超调量减小到4.3%,在负载处转速下降了14r/min,调节时间为0.01s,具有良好的动态性能和抗干扰性能,满足永磁同步电机伺服控制系统的应用需求。 展开更多
关键词 现场可编辑逻辑门阵列 高层次综合技术 永磁同步电机 Anti-Windup策略
下载PDF
面向高层次综合的自定义指令自动识别方法
16
作者 肖成龙 林军 +1 位作者 王珊珊 王宁 《计算机应用》 CSCD 北大核心 2018年第7期2024-2031,2036,共9页
针对在高层次综合(HLS)过程中性能提升、功耗降低困难等问题,提出了一种面向高层次综合的自定义指令自动识别方法。在高层次综合过程之前实现对自定义指令的枚举和选择,从而为高层次综合提供通用的自定义指令识别方法。首先,将高层次源... 针对在高层次综合(HLS)过程中性能提升、功耗降低困难等问题,提出了一种面向高层次综合的自定义指令自动识别方法。在高层次综合过程之前实现对自定义指令的枚举和选择,从而为高层次综合提供通用的自定义指令识别方法。首先,将高层次源代码转换为控制数据流图(CDFG),实现了对源代码的预处理;其次,基于控制数据流图内的数据流图(DFG),采用子图枚举算法以自底而上的方式枚举出所有连通凸子图,有效提高了用户可灵活修改约束条件的能力;然后,分别从面积、性能和代码量三个角度考虑,利用子图选择算法选择部分最佳子图作为最终的自定义指令;最后,用所选的自定义指令重新生成新代码作为高层次综合工具的输入。与传统高层次综合相比,采用基于出现频率的模式选择可平均减少19.1%的面积,采用基于关键路径的子图选择可平均减少22.3%的时延。此外,与TD算法相比,所提算法的枚举效率平均提升70.8%。实验结果表明,自定义指令自动识别方法使高层次综合在电路设计中能够显著地提升性能,减少面积和代码量。 展开更多
关键词 自定义指令 数据流图 子图枚举算法 子图选择算法 高层次综合
下载PDF
基于FPGA的高性能可编程数据平面研究综述 被引量:2
17
作者 赵鹏 程光 赵德宇 《软件学报》 EI CSCD 北大核心 2023年第11期5330-5354,共25页
可编程数据平面(PDP)一方面支持网络应用的卸载与加速,给网络应用带来了革命性的发展机遇;另一方面支持新协议、新服务的快速实现和部署,促进了网络创新和演进,是近年来网络领域的研究热点.FPGA因其通用的计算架构、丰富的片内资源和扩... 可编程数据平面(PDP)一方面支持网络应用的卸载与加速,给网络应用带来了革命性的发展机遇;另一方面支持新协议、新服务的快速实现和部署,促进了网络创新和演进,是近年来网络领域的研究热点.FPGA因其通用的计算架构、丰富的片内资源和扩展接口提供了多种可编程数据平面的具体实现,支持更广范围的应用场景.同时,FPGA还为探索更通用的可编程数据平面抽象提供了可能.因此,基于FPGA的可编程数据平面受到了学术界与产业界的广泛关注.首先分类别阐述基于FPGA的可编程数据平面(F-PDP)抽象.接着,介绍基于F-PDP快速构建网络应用的关键技术的研究进展.之后,介绍基于F-PDP的新型可编程网络设备.此外,从提升网络性能、构建网络测量框架以及部署网络安全应用这3个方面,详细梳理近年来基于F-PDP的应用研究成果.最后,探讨F-PDP未来可能的研究趋势. 展开更多
关键词 可编程数据平面 现场可编程门阵列(FPGA) 编程抽象 高层次综合(hls)
下载PDF
基于ZYNQ的通用型卷积神经网络设计与实现 被引量:2
18
作者 刘晛 吴瑞琦 +7 位作者 高尚尚 刘泽浩 刘海波 孔祥晔 王庆 郭乃宏 周锋 王如刚 《电子器件》 CAS 北大核心 2023年第1期121-125,共5页
针对基于FPGA平台的神经网络开发周期过长、调节网络模型麻烦等问题,设计了一种基于ZYNQ的通用型卷积神经网络模型。首先通过Tensorflow平台搭建神经网络并训练得到模型各层权重;其次利用高层次综合工具进行卷积层和池化层的IP核设计;... 针对基于FPGA平台的神经网络开发周期过长、调节网络模型麻烦等问题,设计了一种基于ZYNQ的通用型卷积神经网络模型。首先通过Tensorflow平台搭建神经网络并训练得到模型各层权重;其次利用高层次综合工具进行卷积层和池化层的IP核设计;然后在ZYNQ平台上部署模型;最后分别运行了Le Net-5和Alex Net-8神经网络进行验证。实验结果表明模型在只损失极少准确度的情况下,卷积与池化运算速度相比于ARM平台分别提高了3.65倍和2.31倍,并具备通用性。 展开更多
关键词 卷积神经网络 ZYNQ 高层次综合工具
下载PDF
基于ZYNQ的卷积神经网络加速器设计 被引量:4
19
作者 吴健 顾明剑 +2 位作者 曾长紊 邵春沅 范余茂 《计算机工程与设计》 北大核心 2022年第6期1572-1581,共10页
针对卷积神经网络在嵌入式系统需要耗费大量计算资源、计算复杂度高等问题,提出一种基于ZYNQ系列FPGA的加速方法。通过HLS工具对卷积神经网络加速器进行设计,提出相邻层位宽合并和权重参数重排序的策略实现数据传输的优化,利用卷积分解... 针对卷积神经网络在嵌入式系统需要耗费大量计算资源、计算复杂度高等问题,提出一种基于ZYNQ系列FPGA的加速方法。通过HLS工具对卷积神经网络加速器进行设计,提出相邻层位宽合并和权重参数重排序的策略实现数据传输的优化,利用卷积分解、并行展开充分发挥FPGA并行计算的优势。为验证卷积神经网络加速器的加速效果,将YOLO目标检测模型进行部署。实验结果表明,在PYNQ-Z2上达到了39.39 GOP/s的计算性能,是intel i5-2400 CPU的3.4倍,是ARM-Cortex A9 CPU的147.5倍。在相同FPGA平台上与之前的工作相较也有更高的性能。 展开更多
关键词 卷积神经网络(CNN) 现场可编程门阵列(FPGA) 高层次综合(hls) 硬件加速器 目标检测
下载PDF
硬件与软件对实现非递归滤波算法影响的研究 被引量:1
20
作者 叶海雄 陶宁蓉 +2 位作者 王世明 Laurent Cabaret Lionel Lacassagne 《电子设计工程》 2017年第16期1-5,共5页
以信号处理中非递归型Finite Impulse Response(FIR)滤波器作为研究对象,针对硬件电路设计中存在的面积、功耗和计算性能的问题,通过利用Catapult C高层次综合工具先优化单个FIR滤波,再级联滤波算法的方法以改善滤波的能耗。同时FIR滤... 以信号处理中非递归型Finite Impulse Response(FIR)滤波器作为研究对象,针对硬件电路设计中存在的面积、功耗和计算性能的问题,通过利用Catapult C高层次综合工具先优化单个FIR滤波,再级联滤波算法的方法以改善滤波的能耗。同时FIR滤波算法在STx P70专用微处理器中采用单指令多数据Single Instruction Multiple Data(SIMD)VECx技术以加速电路的计算性能,分析与评估硬件与软件对实现FIR滤波算法的影响。实验结果表明,采用硬件等效替代的方法能使单个FIR滤波能耗降低6倍,级联滤波能耗降低7倍,满足了绿色环保的电路设计理念。采用软件的SIMD技术可实现数据向量化加速计算,计算加速比提高4倍以上。 展开更多
关键词 信号处理 高层次综合工具 专用微处理器 SIMD
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部