期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
zk-SNARK中数论变换的硬件加速方法研究 被引量:2
1
作者 赵海旭 柴志雷 +2 位作者 花鹏程 王锋 丁冬 《计算机科学与探索》 CSCD 北大核心 2024年第2期538-552,共15页
简洁非交互式零知识证明能够生成长度固定的证明并快速进行验证,极大地推动了零知识证明在数字签名、区块链及分布式存储等领域的应用。但其证明的生成过程极其耗时且需要被频繁调用,其中数论变换是证明生成过程的主要运算之一。然而现... 简洁非交互式零知识证明能够生成长度固定的证明并快速进行验证,极大地推动了零知识证明在数字签名、区块链及分布式存储等领域的应用。但其证明的生成过程极其耗时且需要被频繁调用,其中数论变换是证明生成过程的主要运算之一。然而现有的通用数论变换硬件加速方法难以满足其在简洁非交互式零知识证明中大规模、高位宽的要求。针对该问题,提出一种数论变换多级流水硬件计算架构。针对高位宽计算需求对高位模运算进行优化,设计了低时延蒙哥马利模乘单元;为了加速大规模计算,通过二维子任务划分将大规模数论变换任务划分为小规模独立子任务,并通过消除数据依赖实现了子任务间计算流水;在子任务多轮蝶形运算之间采用数据重排机制,有效缓解了访存需求并实现了不同步长蝶形运算间的计算流水。所提出的数论变换计算架构可以根据现场可编程门阵列(FPGA)片上资源灵活扩展,方便部署在不同规模的FPGA上以获得最大加速效果。所提出的硬件架构使用高层次综合(HLS)开发并基于OpenCL框架在AMD Xilinx Alveo U50实现了整套异构加速系统。实验结果表明,相比于PipeZK中的数论变换加速模块,该方法获得了1.95倍的加速比;在运行当前主流的简洁非交互式零知识证明开源项目bellman时,相比于AMD Ryzen 95900X单核及12核分别获得了27.98倍和1.74倍的加速比,并分别获得了6.9倍、6倍的能效提升。 展开更多
关键词 现场可编程门阵列(FPGA) 简洁非交互式零知识证明(zk-SNARK) 模乘 数论变换 硬件加速
下载PDF
基于局部信息融合的点云3D目标检测算法
2
作者 张林杰 柴志雷 王宁 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2024年第11期2219-2229,共11页
针对当前基于点云的三维目标检测算法缺乏目标准确的空间位置信息,提出局部信息编码模块和后期交叉融合模块的三维目标检测算法.在特征提取阶段,模型通过三维稀疏卷积高效地编码全局特征.局部信息编码模块利用目标内部的原始点云信息,... 针对当前基于点云的三维目标检测算法缺乏目标准确的空间位置信息,提出局部信息编码模块和后期交叉融合模块的三维目标检测算法.在特征提取阶段,模型通过三维稀疏卷积高效地编码全局特征.局部信息编码模块利用目标内部的原始点云信息,构建目标的细粒度语义信息,通过自注意力机制对这些信息进行重新加权,增强局部特征的表达能力.提出交叉融合模块,用于局部特征与全局特征的信息交互,产生表达能力更强的目标检测特征.使用KITTI和Waymo公开数据集,验证所提出的方法.在KITTI数据集的简单、中等和困难任务上,本文方法的平均准确率AP0.7分别达到了91.60%、82.53%和77.83%,在Waymo数据集上的平均准确率AP0.7达到74.92%. 展开更多
关键词 点云 稀疏卷积 局部信息 注意力机制 交叉融合
下载PDF
基于GPU的zk-SNARK中多标量乘法的并行计算方法
3
作者 王锋 柴志雷 +2 位作者 花鹏程 丁冬 王宁 《计算机应用研究》 CSCD 北大核心 2024年第6期1735-1742,共8页
针对zk-SNARK(zero-knowledge succinct non-interactive argument of knowledge)中计算最为耗时的多标量乘法(multiscalar multiplication,MSM),提出了一种基于GPU的MSM并行计算方案。首先,对MSM进行细粒度任务分解,提升算法本身的计... 针对zk-SNARK(zero-knowledge succinct non-interactive argument of knowledge)中计算最为耗时的多标量乘法(multiscalar multiplication,MSM),提出了一种基于GPU的MSM并行计算方案。首先,对MSM进行细粒度任务分解,提升算法本身的计算并行性,以充分利用GPU的大规模并行计算能力。采用共享内存对同一窗口下的子MSM并行规约减少了数据传输开销。其次,提出了一种基于底层计算模块线程级任务负载搜索最佳标量窗口的窗口划分方法,以最小化MSM子任务的计算开销。最后,对标量形式转换所用数据存储结构进行优化,并通过数据重叠传输和通信时间隐藏,解决了大规模标量形式转换过程的时延问题。该MSM并行计算方法基于CUDA在NVIDIA GPU上进行了实现,并构建了完整的零知识证明异构计算系统。实验结果表明:所提出的方法相比目前业界最优的cuZK的MSM计算模块获得了1.38倍的加速比。基于所改进MSM的整体系统比业界流行的Bellman提升了186倍,同时比业界最优的异构版本Bellperson提升了1.96倍,验证了方法的有效性。 展开更多
关键词 简洁非交互式零知识证明 多标量乘法 CUDA 异构计算系统 并行计算
下载PDF
基于QEMU的SIMD指令替换浮点指令框架
4
作者 刘登峰 李东亚 +2 位作者 柴志雷 周浩杰 丁海峰 《湖南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第8期70-77,共8页
现在,几乎每个处理器架构都已经加入了对SIMD(single instruction multiple data)指令的支持,SIMD指令能同时对一组数据执行相同的操作,通过数据并行来提高处理器的处理性能.但是大部分动态二进制翻译器忽略了本地SIMD指令的利用,而是... 现在,几乎每个处理器架构都已经加入了对SIMD(single instruction multiple data)指令的支持,SIMD指令能同时对一组数据执行相同的操作,通过数据并行来提高处理器的处理性能.但是大部分动态二进制翻译器忽略了本地SIMD指令的利用,而是以软件语言实现来模拟浮点计算.本文提出了一种基于QEMU翻译系统的FP-QEMU框架,FP-QEMU框架采用SIMD指令来优化替换浮点计算指令,并在X86和ARM平台上完成了完整的浮点实现.该框架可以识别动态二进制翻译系统中的浮点计算优化机会并利用SIMD指令来提升系统翻译的性能.采用SPEC 2006作为测试基准,实验表明相比QEMU,FP-QEMU跨平台的ARM应用在X86计算机上运行的最高加速比可达51.5%,平均加速比达到37.42%. 展开更多
关键词 SIMD QEMU 动态二进制翻译 浮点计算
下载PDF
Real-time instance segmentation based on contour learning
5
作者 GE Rui LIU Dengfeng +2 位作者 ZHOU Haojie chai zhilei WU Qin 《Journal of Measurement Science and Instrumentation》 CAS CSCD 2024年第3期328-337,共10页
Instance segmentation plays an important role in image processing.The Deep Snake algorithm based on contour iteration deforms an initial bounding box to an instance contour end-to-end,which can improve the performance... Instance segmentation plays an important role in image processing.The Deep Snake algorithm based on contour iteration deforms an initial bounding box to an instance contour end-to-end,which can improve the performance of instance segmentation,but has defects such as slow segmentation speed and sub-optimal initial contour.To solve these problems,a real-time instance segmentation algorithm based on contour learning was proposed.Firstly,ShuffleNet V2 was used as backbone network,and the receptive field of the model was expanded by using a 5×5 convolution kernel.Secondly,a lightweight up-sampling module,multi-stage aggregation(MSA),performs residual fusion of multi-layer features,which not only improves segmentation speed,but also extracts effective features more comprehensively.Thirdly,a contour initialization method for network learning was designed,and a global contour feature aggregation mechanism was used to return a coarse contour,which solves the problem of excessive error between manually initialized contour and real contour.Finally,the Snake deformation module was used to iteratively optimize the coarse contour to obtain the final instance contour.The experimental results showed that the proposed method improved the instance segmentation accuracy on semantic boundaries dataset(SBD),Cityscapes and Kins datasets,and the average precision reached 55.8 on the SBD;Compared with Deep Snake,the model parameters were reduced by 87.2%,calculation amount was reduced by 78.3%,and segmentation speed reached 39.8 frame·s−1 when instance segmentation was performed on an image with a size of 512×512 pixels on a 2080Ti GPU.The proposed method can reduce resource consumption,realize instance segmentation tasks quickly and accurately,and therefore is more suitable for embedded platforms with limited resources. 展开更多
关键词 instance segmentation ShuffleNet V2 lightweight network contour initialization
下载PDF
基于Zynq7000 FPGA异构平台的YOLOv2加速器设计与实现 被引量:20
6
作者 陈辰 柴志雷 夏珺 《计算机科学与探索》 CSCD 北大核心 2019年第10期1677-1693,共17页
当前,卷积神经网络已在图像分类、目标检测等计算机视觉领域被广泛应用。然而,在前向推断阶段,许多实际应用往往具有低延时和严格的功耗限制。针对该问题,采用参数重排序、多通道数据传输等优化策略,设计并实现了一种基于FPGA的SIMD卷... 当前,卷积神经网络已在图像分类、目标检测等计算机视觉领域被广泛应用。然而,在前向推断阶段,许多实际应用往往具有低延时和严格的功耗限制。针对该问题,采用参数重排序、多通道数据传输等优化策略,设计并实现了一种基于FPGA的SIMD卷积神经网络加速器架构。以YOLOv2目标检测算法为例,介绍了将卷积神经网络模型映射到FPGA上的完整流程;对加速器的性能和资源耗费进行深入分析和建模,将实际传输延时考虑在内,缩小了加速器理论时延与实际时延的误差;改进了加速器架构中的输入和输出模块,有效提高了总线带宽的实际利用率。实验结果表明,在Zedboard上获得了30.15 GOP/s的性能,与Xeon E5-2620 v4 CPU相比,能效是其120.4倍,性能是其7.3倍;与双核ARM-A9 CPU相比,能效是其86倍,性能是其112.9倍。 展开更多
关键词 硬件加速器 现场可编程门阵列(FPGA) 卷积神经网络(CNN) 高层次综合
下载PDF
SWAM:SNN工作负载自动映射器 被引量:4
7
作者 郁龚健 张鲁飞 +4 位作者 李佩琦 华夏 刘家航 柴志雷 陈闻杰 《计算机科学与探索》 CSCD 北大核心 2021年第9期1641-1657,共17页
为了满足大规模脉冲神经网络(SNN)的计算需求,类脑计算系统通常需要采用大规模并行计算平台。因此,如何快速为SNN工作负载确定合理的计算节点数(即如何把工作负载合理映射到计算平台上)以获得最佳的性能、功耗等指标就成为类脑计算系统... 为了满足大规模脉冲神经网络(SNN)的计算需求,类脑计算系统通常需要采用大规模并行计算平台。因此,如何快速为SNN工作负载确定合理的计算节点数(即如何把工作负载合理映射到计算平台上)以获得最佳的性能、功耗等指标就成为类脑计算系统需解决的关键问题之一。首先分析了SNN工作负载特性并为其建立起计算模型;然后针对NEST类脑仿真器,进一步实例化了SNN的内存、计算和通信负载模型;最终设计并实现了一种基于NEST的SNN工作负载自动映射器(SWAM)。SWAM可以自动计算出映射结果并完成映射,避免了极其耗时的工作负载映射手动试探过程。在ARM+FPGA、纯ARM、PC集群三种不同的计算平台上运行SNN典型应用,并比较SWAM、LM算法拟合和实测的映射结果。实验结果表明:SWAM的平均映射准确率达到98.833%,与LM方法与实测映射相比,SWAM具有绝对的时间代价优势。 展开更多
关键词 脉冲神经网络(SNN) 工作负载映射 PYNQ集群 现场可编程逻辑门阵列(FPGA)加速 NEST仿真器
下载PDF
基于SNN神经元重分布的NEST仿真器性能优化 被引量:2
8
作者 刘家航 郁龚健 +3 位作者 李佩琦 华夏 柴志雷 陈闻杰 《计算机工程》 CAS CSCD 北大核心 2022年第3期189-196,共8页
为满足大规模脉冲神经网络(SNN)的计算需求,类脑计算系统通常需要采用大规模并行计算平台。然而随着节点数量的增多,通信在仿真中所占比例大幅增加,导致计算效率下降。类脑模拟器开源软件NEST采用缓冲区大小相等的策略,有效缩短了通信时... 为满足大规模脉冲神经网络(SNN)的计算需求,类脑计算系统通常需要采用大规模并行计算平台。然而随着节点数量的增多,通信在仿真中所占比例大幅增加,导致计算效率下降。类脑模拟器开源软件NEST采用缓冲区大小相等的策略,有效缩短了通信时间,但是由于缓冲区互相无交流,使得通信数据量持续增加,因此其在能耗方面表现较差。分析NEST集群的负载特性,针对其中的通信问题进行稀疏性优化,提出基于SNN子图跨节点优化的神经元重分布算法ReLOC。通过优化SNN子图的跨节点分布减少每一轮神经元到进程的数量,从而减少跨节点脉冲,使进程间通信更加稀疏,达到缩减每一轮通信进程的目的。在此基础上,以稀疏交换的思想对NEST本身的通信机制进行改进,使有脉冲交换的进程进行数据交换,从而在连接稀疏的情况下提升通信效率。以包含28个Xilinx PYNQ节点的计算集群作为实验平台,运行皮质微电路SNN模型和平衡随机网络模型,验证ReLOC算法的有效性。实验结果表明,相比循环分布算法,重分布算法能够使通信的平均稀疏性提高20%,同时配合稀疏交换最多可使通信能耗减少98.63%。 展开更多
关键词 脉冲神经网络 神经元重分布 PYNQ集群 NEST仿真器 稀疏交换
下载PDF
基于FPGA的油棕检测和硬件加速设计及实现 被引量:2
9
作者 袁鸣 柴志雷 甘霖 《计算机科学与探索》 CSCD 北大核心 2021年第2期315-326,共12页
针对深度学习在高分辨率遥感图像下棕榈树检测方面所面临的准确率不高和检测效率低下的问题,从算法优化和异构硬件平台加速两方面提出一种有效可靠的解决办法。以YOLOv3目标检测算法为例,采用扩大特征选择、加大多尺度特征融合的优化策... 针对深度学习在高分辨率遥感图像下棕榈树检测方面所面临的准确率不高和检测效率低下的问题,从算法优化和异构硬件平台加速两方面提出一种有效可靠的解决办法。以YOLOv3目标检测算法为例,采用扩大特征选择、加大多尺度特征融合的优化策略,提高了算法对高分辨率的棕榈树的检测准确度。在前向推理过程中,许多应用场景在要求模型高性能的同时往往会有严格的功耗限制。针对这个问题,采用权重整形8位量化和计算核心复用的优化策略,设计了一个基于SIMD的高效卷积计算引擎。此外,对输入模块进行了加速改进,通过对输入图片进行维度变化、向量化处理后,以写队列的方式传送给输入模块,提高了总线带宽的利用率。实验结果表明,经过算法优化后的模型准确率达到了97.84%,在基于Intel Arria10的异构硬件平台上可以获得1.4 TOPS性能,与i9-9980XE CPU相比,性能是它的7.51倍,能效是其33.02倍,与Nvidia推理端专用加速器P40比,能效是其1.2倍。 展开更多
关键词 现场可编程逻辑门阵列(FPGA) 改进YOLOv3 棕榈树 硬件加速器
下载PDF
低延迟低抖动的FAST解码器设计与实现
10
作者 张曦煌 丁楠 +2 位作者 柴志雷 冯一飞 叶钧超 《应用科学学报》 CAS CSCD 北大核心 2023年第4期705-717,共13页
为了解决金融FAST(financial information exchange adapted for streaming)协议面临的纯软件解码延迟高,FPGA(field programmable gate array)硬件解码开发周期长、更新困难的问题,提出了基于OpenCL和HLS的硬件解码模式。通过对FAST数... 为了解决金融FAST(financial information exchange adapted for streaming)协议面临的纯软件解码延迟高,FPGA(field programmable gate array)硬件解码开发周期长、更新困难的问题,提出了基于OpenCL和HLS的硬件解码模式。通过对FAST数据解码的标记、切分、合并、解码模块进行流水优化,对切分和字段解码进行并行操作,将数据的输入输出改为流式接口减少I/O口的延时以及对切分数组进行分割映射等优化方式实现了解码过程低延迟、低抖动。实验结果表明,相比纯软件解码,本文提出的解码器处理速度提升了11倍,解码延迟缩短至1/6,抖动幅度控制在10 ns之内。相比传统HDL方式的FPGA定制硬件开发,开发效率可提升3~4倍,从而更好地满足产品更新换代的需求。 展开更多
关键词 OPENCL 低延迟低抖动 FAST协议解码 高层次综合 现场可编程门阵列
下载PDF
基于精准通信建模的脉冲神经网络工作负载自动映射器
11
作者 华夏 朱铮皓 +3 位作者 徐聪 张曦煌 柴志雷 陈闻杰 《计算机应用》 CSCD 北大核心 2023年第3期827-834,共8页
在分布式计算平台上运行大规模的脉冲神经网络(SNN)是提升类脑计算智能水平的基本手段之一,它的难点在于如何将SNN部署到对应数量的计算节点上,使整体系统的运行能效最佳。针对以上问题,在基于NEST的SNN工作负载自动映射器(SWAM)的基础... 在分布式计算平台上运行大规模的脉冲神经网络(SNN)是提升类脑计算智能水平的基本手段之一,它的难点在于如何将SNN部署到对应数量的计算节点上,使整体系统的运行能效最佳。针对以上问题,在基于NEST的SNN工作负载自动映射器(SWAM)的基础上,提出一种基于精准通信建模的SNN工作负载自动映射器(SWAM2)。在SWAM2中,基于NEST仿真器对SNN工作负载的通信部分进行精准建模,并改进工作负载模型中参数的量化方法,设计了最大网络规模预测方法。在SNN典型案例上的实验结果表明,在工作负载通信以及计算时间的预测中,SWAM2的平均预测误差比SWAM分别降低12.62和5.15个百分点;在对工作负载最佳映射的预测中,SWAM2的平均准确率为97.55%,比SWAM高13.13个百分点。SWAM2通过自动预测SNN工作负载在计算平台上的最佳部署/映射,避免了手动反复实验的过程。 展开更多
关键词 脉冲神经网络 工作负载映射 分布式计算平台 NEST仿真器 计算能效
下载PDF
基于异构计算平台的NEST类脑仿真器设计与实现
12
作者 朱铮皓 柴志雷 +1 位作者 华夏 徐聪 《微电子学与计算机》 2022年第7期54-62,共9页
类脑计算领域目前的研究主要聚焦于如何进行高性能且低功耗的大规模类脑仿真.NEST类脑仿真器应用生态完整,可支持大规模仿真并且具有良好的可扩展性,是目前类脑计算领域中应用最为广泛的仿真器.针对NEST仿真器进行大规模仿真时运行速度... 类脑计算领域目前的研究主要聚焦于如何进行高性能且低功耗的大规模类脑仿真.NEST类脑仿真器应用生态完整,可支持大规模仿真并且具有良好的可扩展性,是目前类脑计算领域中应用最为广泛的仿真器.针对NEST仿真器进行大规模仿真时运行速度慢、运行功耗高的问题,设计并实现了基于异构计算平台的NEST类脑仿真器.本设计采用硬件加速神经元更新、数据重排序设计、多线程设计、软硬件协同设计等方法优化了系统整体性能,在保证NEST仿真器良好应用生态的同时获得更高的计算能效.通过在Xilinx ZCU102异构计算平台上实现该仿真器,实验结果表明:在对经典的类脑应用皮质层视觉模型进行仿真时,神经元更新部分性能是AMD3600X的11.9倍,PYNQ集群的1.2倍,能效是AMD3600X的57.9倍、PYNQ集群的3.1倍;NEST仿真器整体性能是AMD3600X的2.0倍,PYNQ集群的2.1倍,能效是AMD3600X的10.1倍、PYNQ集群的5.8倍,为基于NEST进行大规模类脑仿真提供了一种更高能效的方式. 展开更多
关键词 NEST仿真器 异构计算平台 可编程逻辑门阵列 类脑计算 软硬件协同优化
下载PDF
FPGA的分子动力学短程非键成力加速器设计与实现
13
作者 吴子刚 柴志雷 袁鸣 《单片机与嵌入式系统应用》 2021年第9期37-41,共5页
FPGA传统RTL级别开发有着较高的编程难度和较长的设计时间,这限制了FPGA在分子动力学模拟中的应用。本文使用FPGA新一代编程方案HLS,基于Alevo U50板卡设计并实现了基于可重构计算平台硬件的分子动力学短程非键成力加速器,分别从粒子配... FPGA传统RTL级别开发有着较高的编程难度和较长的设计时间,这限制了FPGA在分子动力学模拟中的应用。本文使用FPGA新一代编程方案HLS,基于Alevo U50板卡设计并实现了基于可重构计算平台硬件的分子动力学短程非键成力加速器,分别从粒子配对器设计优化、计算流水线设计等方面出发,设计具有高效率、低能耗的可重构计算方法。同时针对非键成力计算中存在的动态数据流,提出了HLS+HDL的设计方法,进而在极大缩减设计时间的同时保证加速器的性能。 展开更多
关键词 分子动力学模拟 FPGA 加速器 HLS U50
下载PDF
基于PYNQ集群的内存负载分析系统设计
14
作者 华夏 柴志雷 张曦煌 《现代信息科技》 2022年第8期1-5,共5页
在分布式计算平台上研究脉冲神经网络(SNN)的工作负载特性时,快速确定SNN模型构建所需的内存消耗以及平台的网络承载能力,是提高工作负载研究效率的重要手段。针对该问题,文章搭建了PYNQ集群分布式计算平台,设计了集群内存负载分析系统... 在分布式计算平台上研究脉冲神经网络(SNN)的工作负载特性时,快速确定SNN模型构建所需的内存消耗以及平台的网络承载能力,是提高工作负载研究效率的重要手段。针对该问题,文章搭建了PYNQ集群分布式计算平台,设计了集群内存负载分析系统。实验表明:内存负载分析系统在内存消耗的预测方面取得了97.98%的平均准确率,在预测集群网络承载能力方面取得了97.19%的准确率,通过分析集群承载SNN模型时的内存负载,有效提升了集群上的SNN工作负载研究效率。 展开更多
关键词 脉冲神经网络(SNN) 分布式计算平台 计算能效 NEST仿真器
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部