期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
CPU-GPU异构计算环境下的并行T近邻谱聚类算法 被引量:3
1
作者 张帅 李涛 +2 位作者 焦晓帆 王艺峰 杨愚鲁 《计算机研究与发展》 EI CSCD 北大核心 2015年第11期2555-2567,共13页
谱聚类是数据挖掘领域最常用的聚类算法之一,但对于如何利用多核CPU与资源有限的众核加速器设计并实现一个在异构单节点上能够处理大规模数据集的高效谱聚类算法,目前尚无理想的解决方案.PSCH(parallel spectral clustering for hybrid... 谱聚类是数据挖掘领域最常用的聚类算法之一,但对于如何利用多核CPU与资源有限的众核加速器设计并实现一个在异构单节点上能够处理大规模数据集的高效谱聚类算法,目前尚无理想的解决方案.PSCH(parallel spectral clustering for hybrids)算法是专为CPU-GPU异构计算环境设计的并行T近邻(T-nearest-neighbors,TNN)谱聚类算法,通过分块计算相似性矩阵打破了GPU设备内存的限制,所能处理的数据集规模仅受限于CPU主存的容量.PSCH算法中使用CUDA设计实现双缓冲轮转4段流水机制,通过重叠计算与传输在打破存储瓶颈的同时保证了高计算性能.PSCH算法采用隐式重启动Lanczos方法(implicitly restarted Lanczos method,IRIM)在异构硬件上计算稀疏特征矩阵的特征分解,减轻了特征分解步骤的计算瓶颈.PSCH算法在配有一块GTX 480GPU的单节点上能够对百万以上规模的数据集进行聚类,并对实验中的4个数据集取得了相对于使用16进程的MPI并行谱聚类PSC算法2.0~4.5倍的性能. 展开更多
关键词 谱聚类 T近邻 cpu-gpu异构计算 计算统一设备架构 OpenMP
下载PDF
一种面向异构计算的结构化并行编程框架 被引量:5
2
作者 李安民 计卫星 +4 位作者 廖心怡 高建花 谈兆年 王一拙 石峰 《计算机工程与科学》 CSCD 北大核心 2019年第3期424-432,共9页
随着人工智能时代的到来,异构计算在深度学习、科学计算等领域发挥着越来越重要的作用。目前异构计算系统在应用上的瓶颈之一在于缺少高效的软件开发框架,已有的OpenCL、CUDA等支持GPU、DSP及FPGA的编程框架基于C/C++语言和传统的并行... 随着人工智能时代的到来,异构计算在深度学习、科学计算等领域发挥着越来越重要的作用。目前异构计算系统在应用上的瓶颈之一在于缺少高效的软件开发框架,已有的OpenCL、CUDA等支持GPU、DSP及FPGA的编程框架基于C/C++语言和传统的并行编程方法,导致软件开发效率较低,软件推理和调试困难,难以灵活处理计算设备之间的协作和调度。提出一种面向异构计算平台的基于脚本语言的结构化并行编程框架,提供结构化的并行编程接口,支持计算任务到异构计算设备的映射,便于并行程序的推理和验证。设计并实现了基于遗传算法的结构化调度算法,充分利用异构计算系统的计算能力,提高了异构计算系统的软件开发效率。实验结果表明,提出的编程框架在CPU+GPU平台上实现了相对于单处理器1.5到2.5倍的加速比。 展开更多
关键词 异构计算 并行计算 编程框架 结构化编程
下载PDF
面向深度学习应用的组件式开发框架的设计实现
3
作者 刘祥 华蓓 +1 位作者 林飞 魏宏原 《计算机应用》 CSCD 北大核心 2024年第2期526-535,共10页
针对目前深度学习应用缺少有效的开发与部署工具的问题,提出一个面向深度学习应用的组件式开发框架。所提框架根据应用的资源消耗类型进行功能拆分,使用评测引导的资源分配方案进行瓶颈消除,使用分步装箱方案兼顾高CPU利用率和低显存开... 针对目前深度学习应用缺少有效的开发与部署工具的问题,提出一个面向深度学习应用的组件式开发框架。所提框架根据应用的资源消耗类型进行功能拆分,使用评测引导的资源分配方案进行瓶颈消除,使用分步装箱方案兼顾高CPU利用率和低显存开销的功能放置。基于此框架开发的实时车牌号检测应用,在吞吐优先模式下GPU利用率达到82%,在延迟优先模式下平均应用延迟达到0.73 s,在三种模式下(吞吐优先模式、延迟优先模式以及吞吐/延迟的均衡模式)下,CPU平均利用率达到68.8%。实验结果表明,基于此框架能够进行硬件吞吐与应用延迟的平衡型配置,在吞吐优先模式下高效利用平台的计算资源,在延迟优先模式下满足应用的低延迟需求。相较于MediaPipe,使用本框架能够进行超实时的多人姿态估计应用开发,应用的检测帧率最高提升了1077%。实验结果表明,所提框架能够作为CPU-GPU异构服务器上面向深度学习应用开发部署的有效解决方案。 展开更多
关键词 深度学习应用 开发框架 基于组件的开发 流水线部署 cpu-gpu异构
下载PDF
基于负载均衡的CPU-GPU异构计算平台任务调度策略 被引量:5
4
作者 方娟 章佳兴 《北京工业大学学报》 CAS CSCD 北大核心 2020年第7期782-787,共6页
针对中央处理单元-图形处理单元(central processing unit-graphics processing unit,CPU-GPU)异构计算系统中,CPU和GPU负载不均导致系统性能降低的问题,提出了一种基于队列的混合调度策略.该策略通过探测获得CPU和GPU处理指定任务的计... 针对中央处理单元-图形处理单元(central processing unit-graphics processing unit,CPU-GPU)异构计算系统中,CPU和GPU负载不均导致系统性能降低的问题,提出了一种基于队列的混合调度策略.该策略通过探测获得CPU和GPU处理指定任务的计算能力,将计算任务按照探测比例分配给CPU和GPU;将并行任务存入双向队列,以降低调度带来的额外开销.结果表明,使用该策略的基准测试程序系统性能平均提升了28.07%.总体而言,该调度策略能够缩短CPU与GPU完成各自计算任务后的等待时间,有效平衡系统CPU与GPU之间的负载,提升系统性能. 展开更多
关键词 中央处理单元-图形处理单元(central processing unit-graphics processing unit cpu-gpu) 异构计算 高性能计算 任务调度 负载均衡 负载感知
下载PDF
异构计算模型下基于聚类的车型识别
5
作者 房建宏 张亚力 焦晓帆 《青海交通科技》 2018年第1期16-25,共10页
根据线圈检测器采集到的信号变化的波形不同,可以利用k均值聚类以及Bayesian分类器进行车型识别。训练过程中,使用k均值聚类算法对不同波形的特征值归类,再采用Bayesian分类算法去获取分类器。当待处理的数据集较大时,受限于CPU的计算能... 根据线圈检测器采集到的信号变化的波形不同,可以利用k均值聚类以及Bayesian分类器进行车型识别。训练过程中,使用k均值聚类算法对不同波形的特征值归类,再采用Bayesian分类算法去获取分类器。当待处理的数据集较大时,受限于CPU的计算能力,k均值聚类在特征值归类时会表现出较大的延迟,对识别效率造成影响。本文专为CPU-GPU异构计算环境设计的k均值聚类算法及其实现,通过分块计算相似性矩阵,打破了GPU设备内存的限制,所能处理的数据集规模仅受限于CPU主存的容量。本文中使用CUDA设计实现双缓冲轮转四段流水机制,通过重叠计算与传输在打破存储瓶颈的同时保证了高计算性能。在配有一块GTX 480 GPU的单结点上能够对百万以上规模的数据集进行聚类,并对实验中的四个数据集取得了相对于使用16进程的MPI并行聚类实现2.0~4.5倍的性能。 展开更多
关键词 车型识别 K均值聚类 cpu-gpu异构计算 计算统一设备架构 CUDA
下载PDF
基于GPU加速的大电网N-1故障扫描批量计算方法 被引量:6
6
作者 张宸赓 许寅 +3 位作者 陈颖 苏大威 李一 刘思言 《电力自动化设备》 EI CSCD 北大核心 2020年第8期167-173,共7页
随着电网规模的不断扩大,从各种可能的设备开断情况中筛选出严重故障集成为N-1安全校验的重要耗时部分。为了加速大电网N-1安全校验的故障筛选,提出了一种基于中央处理器-图形处理器(CPU-GPU)异构计算框架的实时N-1故障扫描批量计算方... 随着电网规模的不断扩大,从各种可能的设备开断情况中筛选出严重故障集成为N-1安全校验的重要耗时部分。为了加速大电网N-1安全校验的故障筛选,提出了一种基于中央处理器-图形处理器(CPU-GPU)异构计算框架的实时N-1故障扫描批量计算方法。考虑到不同工况下的计算存在粗粒度并行性,进一步挖掘计算中的细粒度并行性是提高计算效率的有效途径。提出了同时考虑断线故障和发电机开断故障这2种预想事故下的细粒度并行计算方法,并设计了关键计算步骤的核函数。增加考虑了网络拓扑中的移相器,使得计算精度更高,通过与IEEE标准算例和欧洲真实电网算例对比,验证了各工况下批量计算方法的正确性,并取得了显著的加速效果。 展开更多
关键词 电力系统 静态安全分析 GPU N-1故障扫描 cpu-gpu异构计算框架
下载PDF
向量分组聚集计算技术研究
7
作者 张宇 张延松 《计算机工程与应用》 CSCD 北大核心 2021年第11期84-94,共11页
分组聚集计算是OLAP重要的操作符之一,分组聚集操作是一种数据密集型负载。在内存数据库和GPU数据库应用场景下不仅需要研究其性能优化技术,还需要研究如何优化分配分组聚集计算执行场地以最小化CPU与GPU之间的数据传输代价。针对异构... 分组聚集计算是OLAP重要的操作符之一,分组聚集操作是一种数据密集型负载。在内存数据库和GPU数据库应用场景下不仅需要研究其性能优化技术,还需要研究如何优化分配分组聚集计算执行场地以最小化CPU与GPU之间的数据传输代价。针对异构计算平台的硬件特征提出了向量聚集计算技术,将位于传统流水线末端的分组聚集计算按照"早分组,晚聚集"策略进行分解与下推,实现将数据密集型的分组聚集计算从流水线中分离,将操作与处理器计算特性优化匹配,实现异构计算平台上最优的负载分配。通过将传统基于哈希分组的聚集计算转换为向量分组聚集计算,显著提升了分组聚集计算性能。实验结果表明,向量分组聚集技术相对于具有代表性的高性能内存数据库Hyper、GPU数据库MapD最大达到5~8倍的性能提升。向量聚集计算不仅提高了OLAP聚集计算性能,而且实现了将数据密集型负载从查询计划中分离的目标,使异构计算平台能够根据处理器的硬件特性优化配置计算资源,提高异构计算平台OLAP的整体性能。 展开更多
关键词 cpu-gpu异构计算平台 向量分组聚集 分组向量索引 数据密集型负载
下载PDF
并行化退火粒子滤波
8
作者 卞亚涛 赵旭 +1 位作者 宋健 刘允才 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2013年第S1期239-243,共5页
本文提出一种基于异构计算的并行化退火粒子滤波方法(P-APF),使用OpenCL框架实现了实时无标记运动跟踪任务。退火粒子滤波过程被分解成若干具有相应粒度的子任务。根据相应的并行度,每个计算任务被分配到标准或附属处理器进行处理,以充... 本文提出一种基于异构计算的并行化退火粒子滤波方法(P-APF),使用OpenCL框架实现了实时无标记运动跟踪任务。退火粒子滤波过程被分解成若干具有相应粒度的子任务。根据相应的并行度,每个计算任务被分配到标准或附属处理器进行处理,以充分利用OpenCL框架的异构计算能力。提出一种任务时延隐藏策略进一步减少时间消耗。在不同人体运动数据库的实验中,P-APF能在不降低跟踪精度的前提下实现实时处理。时间消耗随着粒子数或视角数目的增加基本保持不变,平均加速比为106。 展开更多
关键词 并行化 退火粒子滤波 无标记运动跟踪 异构计算 OpenCL框架
下载PDF
基于APU的内存键值缓存系统 被引量:1
9
作者 胡嘉瑜 华蓓 《电子技术(上海)》 2016年第9期54-59,共6页
内存键值缓存系统广泛应用于当今的互联网服务系统中,通过保存最有可能被访问的键值对象来加速查询。目前的内存键值缓存系统均使用独立的GPU来提高系统性能,然而CPU和GPU之间的PCIe传输开销阻碍了CPU与GPU进行细粒度协作的可能,导致系... 内存键值缓存系统广泛应用于当今的互联网服务系统中,通过保存最有可能被访问的键值对象来加速查询。目前的内存键值缓存系统均使用独立的GPU来提高系统性能,然而CPU和GPU之间的PCIe传输开销阻碍了CPU与GPU进行细粒度协作的可能,导致系统计算资源得不到充分利用。本文利用耦合CPU-GPU架构的新型处理器APU中CPU和GPU共享系统内存的特性,提出在CPU和GPU之间进行细粒度的任务划分来充分发挥各自的计算优势,并首次在这种架构的处理器上实现了一个内存键值缓存系统。该系统针对内存键值缓存系统的任务特点对CPU和GPU的细粒度协作进行了探索,并解决了共享内存模型下CPU与GPU的数据访问冲突。实验表明,在以读请求为主的工作负载下该系统的性能均优于已有的内存键值系统。 展开更多
关键词 内存键值缓存系统 耦合cpu-gpu架构 异构计算
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部