期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
面向飞腾处理器平台的快速卷积算法优化
1
作者 赵亚飞 杨耀功 +1 位作者 王永刚 魏继增 《上海理工大学学报》 CAS CSCD 北大核心 2024年第6期610-619,共10页
为解决卷积神经网络难以在计算资源受限设备上部署的问题,面向国产FT-2000/4多核处理器提出一种高性能的快速卷积算法FastInfer。采用分块策略优化通用矩阵乘法,将处理器访问频率高的数据存入更靠近处理器的缓存中,从而提高计算过程中... 为解决卷积神经网络难以在计算资源受限设备上部署的问题,面向国产FT-2000/4多核处理器提出一种高性能的快速卷积算法FastInfer。采用分块策略优化通用矩阵乘法,将处理器访问频率高的数据存入更靠近处理器的缓存中,从而提高计算过程中的访存效率。配合分块方案设计实现高性能的矩阵乘法微内核,使用向量外积运算更新数据,提高计算访存比,实现最大程度掩盖访存指令的延迟。最终实验结果表明,FastInfer在FT-2000/4处理器上的峰值计算性能达到99.56 GFLOPS。在不同输入规模的通用矩阵乘法测试中,FastInfer性能是OpenBLAS算法的1.07倍和1.52倍。在卷积测试中,FastInfer性能是ARM Compute Library算法的1.32倍,实现了在FT-2000/4多核处理器上的高性能卷积计算。 展开更多
关键词 深度学习 快速卷积算法 并行计算 通用矩阵乘法
下载PDF
基于张量虚拟机的快速卷积自动性能优化 被引量:1
2
作者 陈疆 朱泓霖 +1 位作者 孟金涛 魏彦杰 《集成技术》 2024年第5期3-18,共16页
卷积神经网络作为深度学习的典型代表,是计算机视觉等任务中最常用的神经网络,然而,卷积运算通常占整个卷积神经网络运行时的90%以上,成为卷积神经网络的性能瓶颈。此外,由于当下硬件的复杂性及工作负载的多样性,之前工作中的一些特定... 卷积神经网络作为深度学习的典型代表,是计算机视觉等任务中最常用的神经网络,然而,卷积运算通常占整个卷积神经网络运行时的90%以上,成为卷积神经网络的性能瓶颈。此外,由于当下硬件的复杂性及工作负载的多样性,之前工作中的一些特定优化往往缺乏性能可移植性。对此,作者提出BlazerML,一个基于张量虚拟机(TVM)模板代码自动生成的开源卷积计算库,可为任何输入形状自动生成高性能的卷积实现。BlazerML是基于Winograd算法实现的,因为该算法是快速卷积算法中性能最高的算法。实验结果表明:BlazerML显著优于当下最先进的开源库。在x86 CPU上运行常见的深度学习网络前向推理分别比OnnxRuntime、MNN和TVM社区版本快1.18~2.47倍、1.18~2.27倍和1.01~1.66倍。在ARMCPU上运行常见深度学习网络的单层推理分别比ACL和FastConv快1.26~6.11倍、1.04~4.28倍。 展开更多
关键词 深度学习 卷积神经网络 快速卷积算法 Winograd算法 TVM 自动性能优化
下载PDF
极坐标系快速反卷积高分辨声图测量方法
3
作者 孙大军 黄天凤 +1 位作者 梅继丹 崔文婷 《声学学报》 EI CAS CSCD 北大核心 2024年第5期967-978,共12页
二维反卷积声图测量中点扩散函数(PSF)的二维移变性导致算法计算量较大,为此提出了一种极坐标系下方位、距离分离降维处理的快速反卷积声图测量方法。该方法将二维移变反卷积运算转换为两次一维反卷积运算,同时利用方位维反卷积具有近... 二维反卷积声图测量中点扩散函数(PSF)的二维移变性导致算法计算量较大,为此提出了一种极坐标系下方位、距离分离降维处理的快速反卷积声图测量方法。该方法将二维移变反卷积运算转换为两次一维反卷积运算,同时利用方位维反卷积具有近似一维空域移不变特点,采用移不变模型进行计算,仅对距离维进行一维移变反卷积运算,从而减少算法的PSF存储空间和计算量。仿真和实验数据处理结果表明,所提方法显著降低了计算量,且与原二维移变模型反卷积声图测量方法的性能相近。 展开更多
关键词 声图测量 无源定位 聚焦波束形成 卷积快速算法
下载PDF
快速迭代反卷积算法的超分辨性能优化复原图象
4
作者 江廷宇 《数字技术与应用》 2017年第5期150-150,153,共2页
本文给出了一种利用快速迭代反卷积算法优化用于图象复原的约束最小二乘的空域迭代算法的有效方法。该方法在基于约束最小二乘的空域迭代方法的基础上,运用快速迭代反卷积算法所有的线性迭代算法的超分辨效果,使图象复原问题的近似解误... 本文给出了一种利用快速迭代反卷积算法优化用于图象复原的约束最小二乘的空域迭代算法的有效方法。该方法在基于约束最小二乘的空域迭代方法的基础上,运用快速迭代反卷积算法所有的线性迭代算法的超分辨效果,使图象复原问题的近似解误差更小。实验结果表明运用快速迭代反卷积算法后,运用快速迭代反卷积算法后,图象复原的效果更佳,并避免了大量的复杂计算。 展开更多
关键词 图象复原 快速迭代反卷积算法 约束最小二乘空域迭代算法 超分辨
下载PDF
Winograd快速卷积相关研究综述 被引量:3
5
作者 童敢 黄立波 《计算机科学与探索》 CSCD 北大核心 2022年第5期959-971,共13页
卷积神经网络(CNN)已经被广泛应用到各个领域并发挥了重要作用。卷积算子是卷积神经网络的基础组件,同时也是最耗时的部分。近年来,研究者提出了包括基于FFT和Winograd的若干种快速卷积算法。其中Winograd卷积因大幅减少了卷积中乘法操... 卷积神经网络(CNN)已经被广泛应用到各个领域并发挥了重要作用。卷积算子是卷积神经网络的基础组件,同时也是最耗时的部分。近年来,研究者提出了包括基于FFT和Winograd的若干种快速卷积算法。其中Winograd卷积因大幅减少了卷积中乘法操作且占用内存更小而迅速成为小卷积核的卷积算子上快速卷积实现的首选。但目前相关工作聚焦于算法的一般化、拓展和各类体系结构上的实现,还没有研究者对Winograd卷积算法作系统性的总结。为了给后续研究者提供详细的参考依据,对Winograd卷积引入以来的相关工作进行了总结。首先阐述了Winograd最小滤波算法及Winograd卷积的引入,介绍了Winograd卷积的一般化与拓展,并对比了现有实现之间的差异;从稀疏剪枝、低精度与量化、数值稳定性这三方面介绍了Winograd卷积的优化工作,并详细介绍了相关具体方法的优缺点;对各类体系结构上的实现和优化进行了分类总结,比较了各平台上实现可用的通用优化方法,并介绍了Winograd卷积的实际应用;最后对内容进行了简要总结,分析了现有研究的局限性,并对未来可能的方向进行了初步展望。 展开更多
关键词 Winograd卷积 快速卷积算法 卷积神经网络(CNN) 卷积优化
下载PDF
基于Faster R-CNN的吸烟快速检测算法 被引量:15
6
作者 韩贵金 李倩 《西安邮电大学学报》 2020年第2期85-91,共7页
针对经典卷积神经网络吸烟检测算法存在速度慢、误检率和硬件占有率高等问题,提出一种基于更快速区域卷积网络(faster region with convolution neural networks,Faster R-CNN)的吸烟快速检测算法。检测人脸并将检测到的人脸图像作为烟... 针对经典卷积神经网络吸烟检测算法存在速度慢、误检率和硬件占有率高等问题,提出一种基于更快速区域卷积网络(faster region with convolution neural networks,Faster R-CNN)的吸烟快速检测算法。检测人脸并将检测到的人脸图像作为烟支检测区域,以缩小目标检测区域,并过滤掉与烟支相似的目标。使用图像分割方法对人脸区域进行烟支初检,初步判断有无烟支存在。利用Faster R-CNN算法对初步判断可能存在烟支的图像进行烟支目标检测并判断是否存在吸烟行为。实验结果表明,与经典的Faster R-CNN吸烟检测算法相比,提出算法的误检率、检测时间和CPU占用率有了明显降低。 展开更多
关键词 目标检测 快速区域卷积算法 人脸检测 图像分割
下载PDF
调强放疗计划中两种不同剂量算法的比较 被引量:3
7
作者 王磊 王晓梅 +4 位作者 陈维平 姚玉娟 吴建军 江大华 崔晓俊 《中国医学物理学杂志》 CSCD 2015年第3期401-403,共3页
目的:通过比较Xio治疗计划系统中两种不同剂量算法的结果,以指导临床应用。方法:随机选择7例鼻咽癌患者的调强放疗计划,这些计划的剂量算法都是快速迭代。在射野方向、权重等设置条件都不变的前提下,改用快速傅里叶变换卷积算法重新优... 目的:通过比较Xio治疗计划系统中两种不同剂量算法的结果,以指导临床应用。方法:随机选择7例鼻咽癌患者的调强放疗计划,这些计划的剂量算法都是快速迭代。在射野方向、权重等设置条件都不变的前提下,改用快速傅里叶变换卷积算法重新优化治疗计划。比较两种剂量算法得到的剂量直方图参数、计划时间、治疗时间和机器跳数,并行配对t检验。结果:与快速傅里叶变换卷积算法相比,快速迭代算法PTVnx的95%覆盖率降低(t=-4.178,P=0.006),均匀指数降低(t=-1.374,P=0.219),适形指数增加(t=0.942,P=0.382);PTV1的95%覆盖率降低(t=-4.530,P=0.004),均匀指数不变(t=-0.079,P=0.940),适形指数变差(t=-1.679,P=0.144);PTV2的95%覆盖率降低(t=-4.130,P=0.006),均匀指数增加(t=2.264,P=0.064),适形指数降低(t=-2.819,P=0.030);右腮腺D30降低(t=-0.539,P=0.609);左腮腺D30降低(t=-1.236,P=0.263);脊髓D1cm3降低(t=0.622,P=0.557);脑干Dmax降低(t=-1.306,P=0.239);机器总跳数减少(t=-4.790,P=0.000);Gamma通过率提高(t=-0.601,P=0.560)。结论:与快速傅里叶变换卷积算法相比,快速迭代算法可显著降低危及器官受照剂量、缩短治疗时间。 展开更多
关键词 调强放疗计划 快速迭代算法 快速傅里叶变换卷积算法
下载PDF
“数字信号处理”课程中的卷积运算教学研究 被引量:5
8
作者 陈雪勤 俞一彪 《实验室科学》 2012年第4期66-68,共3页
卷积的定义及其计算是数字信号处理课程中的重点也是难点,从三个方面阐述了卷积的相关知识。首先介绍了数字信号处理课程中三种卷积的定义及其相互间的联系和区别;然后分析可卷积的图解法基本步骤,并进一步引入了卷积的快速算法——竖... 卷积的定义及其计算是数字信号处理课程中的重点也是难点,从三个方面阐述了卷积的相关知识。首先介绍了数字信号处理课程中三种卷积的定义及其相互间的联系和区别;然后分析可卷积的图解法基本步骤,并进一步引入了卷积的快速算法——竖式乘法及起点判断方法;最后总结了两信号在时域的3种卷积与三种变换域的乘积对应关系。卷积相关知识的归纳,尤其是卷积的快速算法对于学生的卷积计算有很好的帮助作用。 展开更多
关键词 卷积运算 卷积快速算法 数字信号处理
下载PDF
卷积型小波变换实现及机械早期故障诊断应用 被引量:6
9
作者 罗荣 田福庆 +1 位作者 李克玉 丁庆喜 《振动与冲击》 EI CSCD 北大核心 2013年第7期64-69,共6页
为消除Mallat算法存在的频率折叠等固有缺陷对机械故障诊断的不利影响,提出采用卷积型小波变换进行机械故障诊断。推导卷积型小波变换快速分解算法,给出基于滤波器组的递归分解实现方法;针对滚动轴承早期故障诊断与定量识别难题及共振... 为消除Mallat算法存在的频率折叠等固有缺陷对机械故障诊断的不利影响,提出采用卷积型小波变换进行机械故障诊断。推导卷积型小波变换快速分解算法,给出基于滤波器组的递归分解实现方法;针对滚动轴承早期故障诊断与定量识别难题及共振解调法与冲击脉冲法的不足,提出将卷积型小波变换与共振解调法、冲击脉冲法相结合的新方法对滚动轴承早期故障进行诊断与定量识别,给出具体实现过程。仿真实验与实例分析表明:卷积型小波变换能消除Mallat算法固有缺陷对机械故障诊断的不利影响,较内积型小波变换更适合机械故障诊断。该方法可有效对滚动轴承早期故障诊断与定量识别,具有一定应用价值。 展开更多
关键词 MALLAT算法 卷积型小波变换及快速算法 共振解调法 冲击脉冲法
下载PDF
XIO调强放疗计划中两种不同剂量算法的比较
10
作者 吴煜良 张纯 +2 位作者 黄军荣 吴伟艺 洪柱坚 《深圳中西医结合杂志》 2021年第8期16-18,共3页
目的:比较XIO调强放疗计划中两种不同剂量算法的效果。方法:选择2020年1月10日至2020年6月30日来东莞市人民医院接受手术治疗的10例宫颈癌患者作为研究对象,所有患者均接受调强放疗。放疗计划设计过程中,首先采用快速迭代算法进行剂量计... 目的:比较XIO调强放疗计划中两种不同剂量算法的效果。方法:选择2020年1月10日至2020年6月30日来东莞市人民医院接受手术治疗的10例宫颈癌患者作为研究对象,所有患者均接受调强放疗。放疗计划设计过程中,首先采用快速迭代算法进行剂量计算,于权重、射野方向等设置条件不改变的基础上变为应用快速傅里叶变换(FFT)卷积算法全面优化治疗计划。比较两种不同剂量算法取得的剂量体积直方图(DVH)参数、计划时间、计划跳数以及剂量验证通过率等结果。结果:相较于FFT卷积算法,快速迭代算法中的调强放疗计划跳数更少,Gamma通过率更高,差异具有统计学意义(P<0.05)。和快速迭代算法相比,FFT卷积算法的计划靶体积1(PTV1)、PTV2、PTV3更高,差异均具有统计学意义(P<0.05)。结论:相较于FFT卷积算法相较而言,实施快速迭代算法能减少危及器官照射剂量,减少治疗时间。 展开更多
关键词 宫颈癌 调强放疗 快速迭代算法 快速傅里叶变换卷积算法
下载PDF
基于深度卷积神经网络的糖尿病视网膜病变分期及病灶检测 被引量:12
11
作者 谢云霞 黄海于 胡建斌 《计算机应用》 CSCD 北大核心 2020年第8期2460-2464,共5页
针对糖尿病视网膜病变(DR)图像分辨率过大、病灶特征过于分散难以获取以及正负难易样本不平衡而导致DR分期精确率一直无法得到有效提高的问题,提出了改进的基于快速区域的卷积神经网络(Faster R-CNN)和子图分割相结合的DR分期方法。首先... 针对糖尿病视网膜病变(DR)图像分辨率过大、病灶特征过于分散难以获取以及正负难易样本不平衡而导致DR分期精确率一直无法得到有效提高的问题,提出了改进的基于快速区域的卷积神经网络(Faster R-CNN)和子图分割相结合的DR分期方法。首先,使用子图分割解决视盘区域对于病灶识别的干扰问题;其次,在特征提取阶段使用深度残差网络以解决病灶在高分辨率眼底图像中占比小而导致的特征难以获取的问题;最后,在感兴趣区域(ROI)生成时采用在线困难样本挖掘(OHEM)方法解决正负难易样本不平衡的问题。在国际公开数据集EyePACS进行DR分期实验,所提方法在DR病分期中精确率0期达到94.83%,1期达到86.84%,2期达到94.00%,3期达到87.21%,4期达到82.96%。实验结果表明,改进后的Faster R-CNN能对DR图像高效分期并自动标注出病灶。 展开更多
关键词 糖尿病视网膜病变 目标检测 基于快速区域的卷积神经网络算法 子图分割 在线困难样本挖掘
下载PDF
YOLO检测网络的FPGA加速计算模型的研究 被引量:4
12
作者 裴颂文 汪显荣 《小型微型计算机系统》 CSCD 北大核心 2022年第8期1681-1686,共6页
FPGA(Field Programmable Gate Array)凭借其高并行和可定制化的特点,可以解决目标检测网络结构复杂、计算量大和存储开销高等问题.本文基于FPGA验证平台研究并实现了YOLO(You Only Look Once)系列神经网络的加速计算模型.首先采用动态... FPGA(Field Programmable Gate Array)凭借其高并行和可定制化的特点,可以解决目标检测网络结构复杂、计算量大和存储开销高等问题.本文基于FPGA验证平台研究并实现了YOLO(You Only Look Once)系列神经网络的加速计算模型.首先采用动态定点量化方法降低了数据存储和传输量.然后针对YOLO模型中两类计算开销大的典型卷积层,采用了流水线,循环展开,模块融合等策略分别实现了基于Winograd和GEMM的快速卷积计算引擎,提高加速计算效率.实验结果表明,本文在PYNQ-Z1验证平台上获得的计算性能达到64.9 GOP/s,比基于典型滑动窗口卷积计算方法的性能提高了2.15倍. 展开更多
关键词 FPGA YOLO 快速卷积算法 并行计算 流水线
下载PDF
数字微分器的Matlab实现 被引量:3
13
作者 陈静 《株洲师范高等专科学校学报》 2005年第2期46-48,共3页
用Matlab语言设计了数字微分器,为改善微分特性和减少计算工作量,采用了快速卷积算法,对实测的速度信号进行了微分处理,获得了其加速度信号。
关键词 数字微分器 快速卷积算法 MATLAB语言
下载PDF
基于FPGA与退化YOLO的手机镜片缺陷检测系统 被引量:2
14
作者 王习东 王国鹏 +3 位作者 王保昌 张浩 冯文杰 杨业泉 《电子测量技术》 北大核心 2022年第18期10-17,共8页
针对镜片缺陷检测采用图像处理法和神经网络法存在时延高、功耗高和检测缺陷类别较少等问题,设计了一种基于FPGA与退化YOLO的软硬协同检测系统。系统中使用卷积层代替YOLO网络的重排序层进行网络退化,并映射到FPGA上;采用动态量化、模... 针对镜片缺陷检测采用图像处理法和神经网络法存在时延高、功耗高和检测缺陷类别较少等问题,设计了一种基于FPGA与退化YOLO的软硬协同检测系统。系统中使用卷积层代替YOLO网络的重排序层进行网络退化,并映射到FPGA上;采用动态量化、模块融合、双缓冲流水线、循环展开和分块等优化策略,设计可动态配置的加速IP,其中的卷积计算模块分别实现了基于Winograd和GEMM的快速卷积算法。实验结果表明,本系统的加速IP在PYNQ-Z2上获得了51.89 GOP/s的计算性能,比基于典型滑动窗口卷积计算方法的性能提高了0.76倍,加速单张图像的时延为433 ms,功耗为1.07 W,与Core i5-10500 CPU相比,能效是其365.27倍,实现了小型设备对手机镜片低时延、低功耗的多缺陷检测。 展开更多
关键词 FPGA YOLOv2 手机镜片检测 软硬协同检测 快速卷积算法
下载PDF
基于帧间相似性的目标检测FPGA加速器设计
15
作者 李晟召 王琴 《计算机工程与设计》 北大核心 2023年第6期1885-1892,共8页
为解决视频目标检测应用上的神经网络硬件加速问题,提出一种基于视频应用中连续输入之间高度相似性的YOLO卷积网络FPGA加速器。提出增量计算与快速卷积算法结合的优化方法,使用增量计算以跳过连续输入间相似部分的卷积运算;使用快速卷... 为解决视频目标检测应用上的神经网络硬件加速问题,提出一种基于视频应用中连续输入之间高度相似性的YOLO卷积网络FPGA加速器。提出增量计算与快速卷积算法结合的优化方法,使用增量计算以跳过连续输入间相似部分的卷积运算;使用快速卷积算法增加并行计算资源的利用效率。实验结果表明,加速器算力约为238 GOP/s,增量计算以及快速卷积算法为加速器分别提供1.31倍与2.11倍的加速比,相较于同类网络加速器,DSP效率上有1.90倍到5.43倍的提升。 展开更多
关键词 卷积网络加速器 视频目标检测 连续输入相似性 并行计算 增量计算 快速卷积算法 高计算资源效率
下载PDF
AN IMPROVED FAST BLIND DECONVOLUTION ALGORITHM BASED ON DECORRELATION AND BLOCK MATRIX
16
作者 Yang Jun'an He Xuefan 《Journal of Electronics(China)》 2008年第5期577-582,共6页
In order to alleviate the shortcomings of most blind deconvolution algorithms,this paper proposes an improved fast algorithm for blind deconvolution based on decorrelation technique and broadband block matrix.Althougt... In order to alleviate the shortcomings of most blind deconvolution algorithms,this paper proposes an improved fast algorithm for blind deconvolution based on decorrelation technique and broadband block matrix.Althougth the original algorithm can overcome the shortcomings of current blind deconvolution algorithms,it has a constraint that the number of the source signals must be less than that of the channels.The improved algorithm deletes this constraint by using decorrelation technique.Besides,the improved algorithm raises the separation speed in terms of improving the computing methods of the output signal matrix.Simulation results demonstrate the validation and fast separation of the improved algorithm. 展开更多
关键词 Blind deconvolution Fast algorithm DECORRELATION Block matrix
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部