期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
基于边缘智能设备的滚装电梯载客异常检测方法及实验系统
1
作者 汪猛 董利达 +1 位作者 董文 张慧熙 《杭州师范大学学报(自然科学版)》 CAS 2024年第4期439-445,共7页
目前常见的基于服务器架构的滚装电梯载客异常检测系统存在通信时延且成本较高问题,本文提出了一种基于边缘智能的滚装电梯载客异常检测方法.该方法采用YOLO v3推理速度优化后的网络YOLO v3-R作为目标检测算法,具体工作内容分为离线与在... 目前常见的基于服务器架构的滚装电梯载客异常检测系统存在通信时延且成本较高问题,本文提出了一种基于边缘智能的滚装电梯载客异常检测方法.该方法采用YOLO v3推理速度优化后的网络YOLO v3-R作为目标检测算法,具体工作内容分为离线与在线2部分:离线部分包括硬件选型、YOLO v3-R网络训练与部署等;在线部分包括视频采集、载客异常目标检测与判决.在此基础上,制作了基于Jetson Nano硬件平台的滚装电梯载客异常检测实验系统,该系统无需网络通信、可靠性高、成本低,实时推理速度可达到1.96帧/s. 展开更多
关键词 边缘智能 roofline模型 YOLO 电梯安全 异常检测
下载PDF
Roofline Model-Guided Compilation Optimization Parameter Selection Method
2
作者 Qi Du Hui Huang Chun Huang 《国际计算机前沿大会会议论文集》 2020年第1期268-282,共15页
In this paper,the method of roofline model-guided compilation optimization parameter selection(RMOPS)is proposed based on Roofline model to maximize the performance of targets.Through the orthogonal test design compil... In this paper,the method of roofline model-guided compilation optimization parameter selection(RMOPS)is proposed based on Roofline model to maximize the performance of targets.Through the orthogonal test design compiler,the problem of optimization parameter selection in complex dependencies was solved.The performance data generated by empirical roofline tool(ERT)were used to implement the optimization parameter selection decision.RMOPS method was evaluated on ARMv8 platform,and the feasibility of RMOPS method was verified by using SPEC CPU2017 and NPB.Experimental results show that the program performance obtained by using the optimal optimization parameters of RMOPS search is generally improved by 5%–33%compared with that achieved by-O3 optimization parameter setting. 展开更多
关键词 roofline RMOPS ERT NPB SPEC CPU2017
原文传递
批量厄米矩阵特征值分解的GPU算法
3
作者 黄荣锋 刘世芳 赵永华 《计算机科学》 CSCD 北大核心 2023年第4期397-403,共7页
批量矩阵计算问题广泛存在于科学计算与工程应用领域。随着性能的快速提升,GPU已成为解决这类问题的重要工具之一。矩阵特征值分解属于双边分解,需要使用迭代算法进行求解,不同矩阵的迭代次数可能不同,因此,在GPU上设计批量矩阵的特征... 批量矩阵计算问题广泛存在于科学计算与工程应用领域。随着性能的快速提升,GPU已成为解决这类问题的重要工具之一。矩阵特征值分解属于双边分解,需要使用迭代算法进行求解,不同矩阵的迭代次数可能不同,因此,在GPU上设计批量矩阵的特征值分解算法比设计LU分解等单边分解算法更具挑战性。文中针对不同规模的矩阵,基于Jacobi算法设计了相应的批量厄米矩阵特征值分解GPU算法。对于共享内存无法存储的矩阵,采用矩阵“块”操作技术提升计算强度,从而提高GPU的资源利用率。所提算法完全在GPU上运行,避免了CPU与GPU之间的通信。在算法实现上,通过kernel融合减少了kernel启动负载和全局内存访问。在V100 GPU上的实验结果表明,所提算法优于已有工作。Roofline性能分析模型表明,文中给出的实现已接近理论上限,达到了4.11TFLOPS。 展开更多
关键词 厄米矩阵 特征值分解 批量计算 roofline模型 性能分析
下载PDF
卷积神经网络硬件加速的通用性设计
4
作者 王玉雷 谢凯亮 +2 位作者 陈思贇 胡杰 常胜 《计算机工程与科学》 CSCD 北大核心 2023年第4期577-581,共5页
随着人工智能的兴起,应用于各种场景的神经网络算法蓬勃发展。这使得以卷积神经网络为代表的各类算法的通用边缘部署加速设计成为了一大难题。对此,提出了基于数据相关性原理和Roofline模型的一般性和通用性设计准则,并据此对神经网络... 随着人工智能的兴起,应用于各种场景的神经网络算法蓬勃发展。这使得以卷积神经网络为代表的各类算法的通用边缘部署加速设计成为了一大难题。对此,提出了基于数据相关性原理和Roofline模型的一般性和通用性设计准则,并据此对神经网络进行面向硬件加速的并行化设计。对卷积层、池化层和全连接层这3个最重要的部分进行了优化,基于优化后的模块可根据应用场景需求搭建各种卷积神经网络,从而实现通用性设计。以LeNet-5网络为对象,在XILINX ZC702和XILINX ZC706 FPGA平台上分别以MNIST测试集为基准验证,对各层优化后基于高层次综合构建的交互式识别系统,在XILINX ZC702平台上达到了95.09%的准确率和每幅图像4.1 ms的推理速度,在XILINX ZC706平台上达到了相同的准确率和每幅图像0.997 ms的推理速度,二者都具备了很高的处理速度。 展开更多
关键词 神经网络 硬件加速 通用性设计 FPGA 高层次综合 roofline 数据相关性
下载PDF
基于ZYNQ的可重构卷积神经网络加速器 被引量:10
5
作者 刘杰 葛一凡 +1 位作者 田明 马力强 《电子学报》 EI CAS CSCD 北大核心 2021年第4期729-735,共7页
针对卷积神经网络中卷积运算复杂度高、计算量大及算法在CPU和GPU上计算时存在延时及功耗限制问题,从提高现有硬件平台计算速率、降低功耗角度出发,设计了一种基于ZYNQ的具有高吞吐率和低功耗的可重构神经网络加速系统.为充分利用运算资... 针对卷积神经网络中卷积运算复杂度高、计算量大及算法在CPU和GPU上计算时存在延时及功耗限制问题,从提高现有硬件平台计算速率、降低功耗角度出发,设计了一种基于ZYNQ的具有高吞吐率和低功耗的可重构神经网络加速系统.为充分利用运算资源,探索了一种卷积运算循环优化电路;为降低带宽访问量,设计了一种数据在内存中的特殊排列方式.以VGG16网络为例,利用ZYNQ对系统进行加速,在计算性能上达到62.00GPOS的有效算力,分别是GPU和CPU的2.58倍和6.88倍,其MAC利用率高达98.20%,逼近Roofline模型理论值.加速器的计算功耗为2.0W,能效比为31.00GOPS/W,是GPU的112.77倍和CPU的334.41倍. 展开更多
关键词 FPGA 卷积神经网络 roofline模型 硬件加速
下载PDF
3D FDTD算法的GPU实现及优化技术研究 被引量:1
6
作者 宋庆增 张二路 +2 位作者 韩冬 吕华阳 武继刚 《计算机与数字工程》 2015年第10期1775-1779,1823,共6页
FDTD算法是电磁场领域使用非常广泛的数值计算方法,该方法具有很好的精度与灵活性,已成为求解各种电磁场问题的有力工具。半导体技术的快速发展使得CPU的计算性能有了飞跃性的进步,但是直到现在FDTD法的在CPU上的计算时间依旧非常耗时,... FDTD算法是电磁场领域使用非常广泛的数值计算方法,该方法具有很好的精度与灵活性,已成为求解各种电磁场问题的有力工具。半导体技术的快速发展使得CPU的计算性能有了飞跃性的进步,但是直到现在FDTD法的在CPU上的计算时间依旧非常耗时,这极大地限制了FDTD法在各种工程领域里的应用。论文主要在GPU上实现和优化FDTD算法,从而提高FDTD方法的计算效率,节省仿真时间。实验结果表明相对Intel Xeon处理器上执行的串行程序,GPU最高可获得166倍的加速。同时根据Roofline模型,GPU性能达到理论值的89%。 展开更多
关键词 FDTD算法 CUDA roofline模型 GPU
下载PDF
嵌入式系统节能能力度量模型研究 被引量:4
7
作者 罗殊彦 朱怡安 王伟超 《西北工业大学学报》 EI CAS CSCD 北大核心 2016年第3期536-543,共8页
针对系统节能能力度量对象单一,且很多指标无法量化的问题,从操作系统层和硬件层两方面综合考虑,构建出了嵌入式系统节能能力度量模型(ESCMM)。该模型从完整的嵌入式系统角度,给出了节能能力度量的统一标准。此外,还针对节能综合评价结... 针对系统节能能力度量对象单一,且很多指标无法量化的问题,从操作系统层和硬件层两方面综合考虑,构建出了嵌入式系统节能能力度量模型(ESCMM)。该模型从完整的嵌入式系统角度,给出了节能能力度量的统一标准。此外,还针对节能综合评价结果不能直接刻画出节能水平的问题,在Roofline模型的基础上进行了改进,提出了基于Roofline模型的节能能力分析方法,并通过实例进行了验证,有效地找出了系统能耗的瓶颈。 展开更多
关键词 嵌入式系统 节能能力 度量模型 ESCMM roofline模型
下载PDF
边缘计算设备的性能功耗测量与分析 被引量:4
8
作者 袁佳伟 宋庆增 +2 位作者 王雪纯 姜文超 金光浩 《计算机工程》 CAS CSCD 北大核心 2021年第2期233-238,245,共7页
为解决将数据传回服务器端计算时带来的延迟问题,需将神经网络结构进行调整后部署在边缘计算设备上,但当前对边缘设备性能功耗的测量不够全面。为分析和评测边缘计算设备EDGE TPU计算板的性能与功耗,采用神经网络模型和Roofline模型测... 为解决将数据传回服务器端计算时带来的延迟问题,需将神经网络结构进行调整后部署在边缘计算设备上,但当前对边缘设备性能功耗的测量不够全面。为分析和评测边缘计算设备EDGE TPU计算板的性能与功耗,采用神经网络模型和Roofline模型测量其性能,利用外置功耗测量设备测量其功耗计算性能功耗比。实验结果表明,EDGE TPU计算板能以较快的速度量化神经网络模型,执行速度与能耗节省均优于TX2和NANO,根据TX2的Roofline模型对VGG16网络进行优化后,其在TX2上的运行速度达到原来的8倍左右。 展开更多
关键词 边缘计算 EDGE TPU计算板 图形处理单元 roofline模型 现场可编程逻辑门阵列
下载PDF
基于CPU-GPU异构环境的运算代价评估模型 被引量:1
9
作者 江慧芳 蔡达 王晓蕊 《计算机工程》 CAS CSCD 北大核心 2017年第9期12-16,共5页
传统性能分析模型仅针对单个处理器,未考虑异构系统中处理器之间数据的传输开销,不能有效地评估异构系统的性能。为此,提出一种运算代价评估模型。通过对计算平台硬件参数和工作负载特征属性的分层建模,结合LogGP模型和Roofline模型,估... 传统性能分析模型仅针对单个处理器,未考虑异构系统中处理器之间数据的传输开销,不能有效地评估异构系统的性能。为此,提出一种运算代价评估模型。通过对计算平台硬件参数和工作负载特征属性的分层建模,结合LogGP模型和Roofline模型,估算不同执行方式的运算时间成本。依照建模的粒度粗细,通过多层建模计算消耗的能量,采用LogGP模型实现CPU与GPU之间的数据传输,并运用EPCC测试集对运算代价模型进行验证。实验结果表明,该模型对处理不同大小数据集时的性能评估具有较高的准确性。 展开更多
关键词 运算代价模型 性能分析 异构系统 功耗 LogGP模型 roofline模型 EPCC测试集
下载PDF
边缘计算设备的性能功耗测量
10
作者 朱明 《电子技术与软件工程》 2020年第8期11-12,共2页
本文阐述了边缘计算设备性能功耗测量的试验方法,基于Roofline性能分析模型及设备的功耗开展测量与分析。
关键词 边缘计算设备 性能功耗测量 roofline性能分析模型 神经网络
下载PDF
Heterogeneous LBM Simulation Code with LRnLA Algorithms
11
作者 Vadim Levchenko Anastasia Perepelkina 《Communications in Computational Physics》 SCIE 2023年第1期214-244,共31页
A design of a new heterogeneous code for LBM simulations is proposed.By heterogeneous computing wemean a collaborative computation on CPU and GPU,which is characterized by the following features:the data is distribute... A design of a new heterogeneous code for LBM simulations is proposed.By heterogeneous computing wemean a collaborative computation on CPU and GPU,which is characterized by the following features:the data is distributed between CPU and GPU memory spaces taking advantage of both parallel hierarchies;the capabilities of both SIMT GPU and SIMD GPU parallelization are used for calculations;the algorithms in use efficiently conceal the CPU-GPU data exchange;the subdivision of the computing task is performed with an account for the strong points of both processing units:high performance of GPU,low latency,and advanced memory hierarchy of CPU.This code is a continuation of our work in the development of LRnLA codes for LBM.Previous LRnLA codes had good efficiency both for CPU and GPU computing,and allowed GPU simulation performed on data stored in CPU RAM without performance loss on CPU-GPU data transfer.In the new code,we use methods and instruments that can be flexibly adapted to GPU and CPU instruction sets.We present the theoretical study of the performance of the proposed code and suggest implementation techniques.The bottlenecks are identified.As a result,we conclude that larger problems can be simulated with higher efficiency in the heterogeneous system. 展开更多
关键词 LBM roofline memory-bound GPU LRnLA
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部