期刊文献+
共找到606篇文章
< 1 2 31 >
每页显示 20 50 100
A Hybrid Parallel Strategy for Isogeometric Topology Optimization via CPU/GPU Heterogeneous Computing
1
作者 Zhaohui Xia Baichuan Gao +3 位作者 Chen Yu Haotian Han Haobo Zhang Shuting Wang 《Computer Modeling in Engineering & Sciences》 SCIE EI 2024年第2期1103-1137,共35页
This paper aims to solve large-scale and complex isogeometric topology optimization problems that consumesignificant computational resources. A novel isogeometric topology optimization method with a hybrid parallelstr... This paper aims to solve large-scale and complex isogeometric topology optimization problems that consumesignificant computational resources. A novel isogeometric topology optimization method with a hybrid parallelstrategy of CPU/GPU is proposed, while the hybrid parallel strategies for stiffness matrix assembly, equationsolving, sensitivity analysis, and design variable update are discussed in detail. To ensure the high efficiency ofCPU/GPU computing, a workload balancing strategy is presented for optimally distributing the workload betweenCPU and GPU. To illustrate the advantages of the proposedmethod, three benchmark examples are tested to verifythe hybrid parallel strategy in this paper. The results show that the efficiency of the hybrid method is faster thanserial CPU and parallel GPU, while the speedups can be up to two orders of magnitude. 展开更多
关键词 Topology optimization high-efficiency isogeometric analysis cpu/gpu parallel computing hybrid openMPCUDA
下载PDF
面向多核CPU与GPU平台的图处理系统关键技术综述
2
作者 张园 曹华伟 +5 位作者 张婕 申玥 孙一鸣 敦明 安学军 叶笑春 《计算机研究与发展》 EI CSCD 北大核心 2024年第6期1401-1428,共28页
图计算作为分析与挖掘关联关系的一种关键技术,已在智慧医疗、社交网络分析、金融反欺诈、地图道路规划、计算科学等领域广泛应用.当前,通用CPU与GPU架构的并行结构、访存结构、互连结构及同步机制的不断发展,使得多核CPU与GPU成为图处... 图计算作为分析与挖掘关联关系的一种关键技术,已在智慧医疗、社交网络分析、金融反欺诈、地图道路规划、计算科学等领域广泛应用.当前,通用CPU与GPU架构的并行结构、访存结构、互连结构及同步机制的不断发展,使得多核CPU与GPU成为图处理加速的常用平台.但由于图处理具有处理数据规模大、数据依赖复杂、访存计算比高等特性,加之现实应用场景下的图数据分布不规则且图中的顶点与边呈现动态变化,给图处理的性能提升和高可扩展性带来严峻挑战.为应对上述挑战,大量基于多核CPU与GPU平台的图处理系统被提出,并在该领域取得显著成果.为了让读者了解多核CPU与GPU平台上图处理优化相关技术的演化,首先剖析了图数据、图算法、图应用特性,并阐明图处理所面临的挑战.然后分类梳理了当前已有的基于多核CPU与GPU平台的图处理系统,并从加速图处理设计的角度,详细、系统地总结了关键优化技术,包括图数据预处理、访存优化、计算加速和数据通信优化等.最后对已有先进图处理系统的性能、可扩展性等进行分析,并从不同角度对图处理未来发展趋势进行展望,希望对从事图处理系统研究的学者有一定的启发. 展开更多
关键词 多核cpugpu平台 图处理系统 图数据表示 负载均衡 不规则访存 动态图处理
下载PDF
基于CPU+GPU混合架构的雷达信号处理方法
3
作者 常艳 何涛 朱占宇 《火力与指挥控制》 CSCD 北大核心 2024年第7期80-85,90,共7页
针对雷达系统复杂化趋势,提出了基于CPU+GPU混合架构的信号处理方法。依据运算复杂度进行任务的细粒度划分,将复杂处理任务解耦为逻辑处理和运算处理两部分,并映射到CPU+GPU核心进行处理。根据雷达信号处理的拆解包、脉冲压缩、相参积... 针对雷达系统复杂化趋势,提出了基于CPU+GPU混合架构的信号处理方法。依据运算复杂度进行任务的细粒度划分,将复杂处理任务解耦为逻辑处理和运算处理两部分,并映射到CPU+GPU核心进行处理。根据雷达信号处理的拆解包、脉冲压缩、相参积累、目标检测、目标检测后处理及解模糊过程,将对应处理映射到CPU+GPU核心以提高加速比。实验结果表明,相比多核DSP信号处理方法,该方法具有更好的性能。 展开更多
关键词 cpu+gpu 混合架构 信号处理 多核DSP
下载PDF
CPU-GPU MPSoC中使用寿命驱动的OpenCL应用调度方法
4
作者 曹坤 龙赛琴 李哲涛 《计算机研究与发展》 EI CSCD 北大核心 2023年第5期976-991,共16页
近年来,集成CPU和GPU的多处理器片上系统(multiprocessor system-on-chips,MPSoC),凭借兼顾GPU核心的并行计算能力和CPU核心的通用计算能力,已经广泛应用于工业控制、汽车电子、智慧医疗等领域.为了充分发挥CPU-GPU MPSoC的性能,开放计... 近年来,集成CPU和GPU的多处理器片上系统(multiprocessor system-on-chips,MPSoC),凭借兼顾GPU核心的并行计算能力和CPU核心的通用计算能力,已经广泛应用于工业控制、汽车电子、智慧医疗等领域.为了充分发挥CPU-GPU MPSoC的性能,开放计算语言(open computing language,OpenCL)逐渐成为一种主流的应用程序编写标准.然而,在将OpenCL应用部署到CPU-GPU MPSoC的过程中,现有研究工作大多忽略了对芯片温度和使用寿命的管理,导致处理器核心在执行应用时超过了峰值温度,甚至永久性故障的提前发生,无法保证OpenCL应用的长久稳定运行.为了弥补上述缺点,提出了一种包含静态和动态应用调度技术的方法.静态应用调度技术是基于改进交叉熵策略,将OpenCL应用的特性充分考虑在内,有效提高了OpenCL应用设计点的寻优效率.动态应用调度技术是基于反馈控制策略,克服了传统方案中无法有效应对系统运行时新到应用的缺陷,能够最小化新到应用的平均延迟.实验表明,所提方法可以将应用的平均延迟降低34.58%,同时满足温度、能耗、使用寿命的约束. 展开更多
关键词 cpu-gpu多处理器片上系统 延迟 寿命 openCL应用 调度 温度
下载PDF
GPU数据库OLAP优化技术研究
5
作者 张延松 刘专 +2 位作者 韩瑞琛 张宇 王珊 《软件学报》 EI CSCD 北大核心 2023年第11期5205-5229,共25页
GPU数据库近年来在学术界和工业界吸引了大量的关注.尽管一些原型系统和商业系统(包括开源系统)开发了作为下一代的数据库系统,但基于GPU的OLAP引擎性能是否真的超过CPU系统仍然存有疑问,如果能够超越,那什么样的负载/数据/查询处理模... GPU数据库近年来在学术界和工业界吸引了大量的关注.尽管一些原型系统和商业系统(包括开源系统)开发了作为下一代的数据库系统,但基于GPU的OLAP引擎性能是否真的超过CPU系统仍然存有疑问,如果能够超越,那什么样的负载/数据/查询处理模型更加适合,则需要更深入的研究.基于GPU的OLAP引擎有两个主要的技术路线:GPU内存处理模式和GPU加速模式.前者将所有的数据集存储在GPU显存来充分利用GPU的计算性能和高带宽内存性能,不足之处在于GPU容量有限的显存制约了数据集大小以及稀疏访问模式的数据存储降低GPU显存的存储效率.后者只在GPU显存中存储部分数据集并通过GPU加速计算密集型负载来支持大数据集,主要的挑战在于如何为GPU显存选择优化的数据分布和负载分布模型来最小化PCIe传输代价和最大化GPU计算效率.致力于将两种技术路线集成到OLAP加速引擎中,研究一个定制化的混合CPU-GPU平台上的OLAP框架OLAP Accelerator,设计CPU内存计算、GPU内存计算和GPU加速3种OLAP计算模型,实现GPU平台向量化查询处理技术,优化显存利用率和查询性能,探索GPU数据库的不同的技术路线和性能特征.实验结果显示GPU内存向量化查询处理模型在性能和内存利用率两方面获得最佳性能,与OmniSciDB和Hyper数据库相比性能达到3.1和4.2倍加速.基于分区的GPU加速模式仅加速了连接负载来平衡CPU和GPU端的负载,能够比GPU内存模式支持更大的数据集. 展开更多
关键词 混合cpu-gpu平台 gpu加速oLAP oLAP gpu内存 gpu量化处理模型
下载PDF
基于CPU-GPU混合编程的显微镜图像实时拼接
6
作者 吴为民 刘新 +2 位作者 李伙钦 江先伟 杨华 《重庆科技学院学报(自然科学版)》 CAS 2023年第3期67-74,共8页
随着电子显微镜图像的分辨率越来越高,图像拼接的计算量也越来越大,实时拼接的流畅效果对计算速度提出了很高的要求。利用NVIDIA的GPU并行编程框架CUDA,将拼接过程中耗时较长的图像特征点检测和图像拷贝部分迁移到GPU上进行并行计算,CP... 随着电子显微镜图像的分辨率越来越高,图像拼接的计算量也越来越大,实时拼接的流畅效果对计算速度提出了很高的要求。利用NVIDIA的GPU并行编程框架CUDA,将拼接过程中耗时较长的图像特征点检测和图像拷贝部分迁移到GPU上进行并行计算,CPU则负责逻辑控制部分的计算,提高了整体的运算效率。实验结果表明,CPU-GPU混合编程模式有效地缩短了显微镜图像拼接时间,提高了拼接的流畅度和实时性。 展开更多
关键词 电子显微镜 实时拼接 并行计算 cpu-gpu混合编程
下载PDF
基于CPU+GPU+I/O卡的非线性编辑系统 被引量:2
7
作者 孔燚 《中国有线电视》 2006年第23期2322-2324,共3页
随着科技的进步,目前CPU+GPU+I/O技术广泛应用于非线性编辑系统中,在分析传统有卡非线性编辑系统的基础上,介绍基于CPU+GPU+I/O卡的非线性编辑系统的原理、特点和优势,并介绍了基于CPU+GPU+I/O卡设备的应用。
关键词 非线性编辑 cpu+gpu+i/o 高清电视
下载PDF
浅谈CPU+GPU+I/O架构的非线性编辑系统
8
作者 孟华 方翔 《中国高新技术企业》 2008年第8期117-117,122,共2页
随着计算机硬件的快速发展,CPU+GPU+I/O技术广泛的应用于非线性编辑系统,并已逐渐占有市场的主流地位。本文介绍了基于CPU+GPU+I/O卡的非线性编辑系统的工作原理、特点及其优势,并对其未来发展提出展望。
关键词 非线性编辑系统 传统非线性编辑系统 cpu+gpu+i/o
下载PDF
板卡型非线性编辑系统与CPU+GPU+I/O非线性编辑系统之比较
9
作者 孟华 《科技信息》 2008年第15期60-60,共1页
本文通过介绍传统板卡型非线性编辑系统与CPU+GPU+I/O架构的非线性编辑系统的组成、工作原理、特点,将二者进行比较,从而对非编系统的未来发展提出展望。
关键词 非线性编辑系统 板卡 cpu+gpu+i/o
下载PDF
基于“CPU+GPU+I/O”技术的延时播出系统设计 被引量:1
10
作者 秦毓 许威 《电声技术》 2013年第5期71-73,共3页
从延时播出系统设计原则入手设计基于"CPU+GPU+I/O"技术的延时播出系统。对延时播出流程及三种延时播出系统架构进行了设计,并对其相应架构进行了阐述,然后在延时播出系统中引入"CPU+GPU+I/O"技术,设计了延时播出... 从延时播出系统设计原则入手设计基于"CPU+GPU+I/O"技术的延时播出系统。对延时播出流程及三种延时播出系统架构进行了设计,并对其相应架构进行了阐述,然后在延时播出系统中引入"CPU+GPU+I/O"技术,设计了延时播出系统软件功能窗口,最后总结归纳了延时播出系统的功能特点。 展开更多
关键词 延时播出 视频服务器 cpu+gpu+i/o
下载PDF
浅析CPU+GPU+IO架构的非线性编辑技术 被引量:3
11
作者 符元贵 《现代电视技术》 2007年第2期106-107,共2页
随着计算机硬件技术的迅猛发展,出现了基于CPU+GPU+IO架构的非线性编辑系统,本文阐述了CPU+GPU+IO架构的非编系统的原理、特点及应用。
关键词 cpu+gpu+Io非线性编辑 编辑板卡
下载PDF
Cache performance optimization of irregular sparse matrix multiplication on modern multi-core CPU and GPU
12
作者 刘力 LiuLi Yang Guang wen 《High Technology Letters》 EI CAS 2013年第4期339-345,共7页
This paper focuses on how to optimize the cache performance of sparse matrix-matrix multiplication(SpGEMM).It classifies the cache misses into two categories;one is caused by the irregular distribution pattern of the ... This paper focuses on how to optimize the cache performance of sparse matrix-matrix multiplication(SpGEMM).It classifies the cache misses into two categories;one is caused by the irregular distribution pattern of the multiplier-matrix,and the other is caused by the multiplicand.For each of them,the paper puts forward an optimization method respectively.The first hash based method removes cache misses of the 1 st category effectively,and improves the performance by a factor of 6 on an Intel 8-core CPU for the best cases.For cache misses of the 2nd category,it proposes a new cache replacement algorithm,which achieves a cache hit rate much higher than other historical knowledge based algorithms,and the algorithm is applicable on CELL and GPU.To further verify the effectiveness of our methods,we implement our algorithm on GPU,and the performance perfectly scales with the size of on-chip storage. 展开更多
关键词 高速缓存 性能优化 矩阵乘法 稀疏矩阵 gpu cpu 缓存替换算法 多核心
下载PDF
CPU-OpenMP和GPU-CUDA并行计算技术对矩阵乘法运算的加速效果分析 被引量:1
13
作者 张岩 《科技视界》 2017年第26期45-47,共3页
本文对比了CPU-OpenMP和GPU-CUDA并行计算技术对不同阶矩阵乘法运算相对于CPU单线程计算的加速效果。结果表明,CPU-OpenMP并行的计算加速比与矩阵阶数无关,且低于所采用的线程数目。GPU-CUDA并行的计算加速比随矩阵阶数的增加显著增加,... 本文对比了CPU-OpenMP和GPU-CUDA并行计算技术对不同阶矩阵乘法运算相对于CPU单线程计算的加速效果。结果表明,CPU-OpenMP并行的计算加速比与矩阵阶数无关,且低于所采用的线程数目。GPU-CUDA并行的计算加速比随矩阵阶数的增加显著增加,最大计算加速比可达570倍以上。相对于CPU单线程计算结果,CPU-OpenMP并行计算未产生误差,而GPU-CUDA并行计算会产生误差。结果表明,GPUCUDA并行适合高阶数矩阵乘法的加速计算,而CPU-OpenMP并行适合低阶数矩阵乘法的加速计算。 展开更多
关键词 矩阵乘法 并行计算 cpu-openMP gpu-CUDA
下载PDF
三星可穿戴芯片Exynos W920正式发布:采用5nm EUV工艺,CPU快20%,GPU快1000%
14
《世界电子元器件》 2021年第8期39-39,共1页
外媒SAMMOBILE报道,三星今天发布了全新的Exynos处理器--Exynos W920,是为可穿戴设备量身定做的。它是三年前与初代Galaxy Watch一起发布的Exynos 9110芯片的继任者。Exynos W920将于明天在Galaxy Watch 4和Galaxy Watch 4 Classic中首... 外媒SAMMOBILE报道,三星今天发布了全新的Exynos处理器--Exynos W920,是为可穿戴设备量身定做的。它是三年前与初代Galaxy Watch一起发布的Exynos 9110芯片的继任者。Exynos W920将于明天在Galaxy Watch 4和Galaxy Watch 4 Classic中首次亮相。在比上一代产品更省电的同时,新的Exynos W920芯片保证了更快的性能。 展开更多
关键词 可穿戴设备 gpu Galaxy 继任者 量身定做 Watch cpu
下载PDF
ARM发布Cortex A76 CPU和Mali-G76 GPU
15
《微型计算机》 2018年第18期61-61,共1页
6月1日,ARM发布新的高性能CPU和GPU设计,分别是CortexA76和Mali G76。官标的数据方面,基于台积电7nm工艺的3GHzA76核心比10nm2.8GHz的A75核心性能提升35%、省电40%、机器学习的负载能力提升4倍。
关键词 ARM cpu gpu 负载能力 机器学习 A75 台积电 性能
下载PDF
科技消费流行趋势Big in2008--Computer电脑 CPU内置GPU VISTA 多核心处理器 桌面计算
16
《数码》 2008年第1期60-63,共4页
CPU内置GPU(超级图形处理器),电子书阅读器。
关键词 多核心处理器 gpu cpu VISTA 流行趋势 内置 BIG 消费
下载PDF
针对OpenCL、C和C++的SDAccel开发环境实现类似CPU/GPU的开发体验
17
《今日电子》 2014年第12期61-61,共1页
赛灵思公司在2014国际超算大会(Super Computing 2014)上宣布推出针对Open CL、C和C++的SDAccel开发环境,将单位功耗性能提高达25倍,从而利用FPGA实现数据中心应用加速。SDAccel将支持Open CL、C和C++内核任意组合的架构优化编译器、库... 赛灵思公司在2014国际超算大会(Super Computing 2014)上宣布推出针对Open CL、C和C++的SDAccel开发环境,将单位功耗性能提高达25倍,从而利用FPGA实现数据中心应用加速。SDAccel将支持Open CL、C和C++内核任意组合的架构优化编译器、库、开发板完美结合在一起,在FPGA上首次实现了完全类似CPU/GPU的开发和运行时间体验。 展开更多
关键词 开发环境 cpu/gpu oPENCL SDAccel 时间体验 数据中心 赛灵思 集成设计 软件库
下载PDF
CPU or GPU?视频编码速度大比拼
18
《微型计算机》 2011年第6期76-82,共7页
今年1月.《微型计算机》评测室对两颗Sandy Bridget式版处理器Core i5 2600K和2500K进行了详细评测。Sandy Bridge处理器在架构更新后.性能得到了大幅度的提升.成为目前最值得选购的高性能处理器。而且,Sandy Bridge处理器的视频编... 今年1月.《微型计算机》评测室对两颗Sandy Bridget式版处理器Core i5 2600K和2500K进行了详细评测。Sandy Bridge处理器在架构更新后.性能得到了大幅度的提升.成为目前最值得选购的高性能处理器。而且,Sandy Bridge处理器的视频编码能力还得到了突飞猛进的进步。 展开更多
关键词 视频编码 编码速度 高性能处理器 cpu gpu BRIDGE 《微型计算机》 评测
下载PDF
ARM发布CORELINK 400系统IP释放高性能CPU和GPU系统潜力
19
《电子与电脑》 2010年第12期91-91,共1页
ARM公司日前在推出了CoreLink 400系列顺从ARMB 4协议的系统IP,使得系统设计者能够完全发挥最新的CPU和GPU技术的全部潜力。CoreLink 400系列能够对SoC计算系统的性能和效率最大化,这也是先进的移动、消费和企业应用的需求。CoreLink 40... ARM公司日前在推出了CoreLink 400系列顺从ARMB 4协议的系统IP,使得系统设计者能够完全发挥最新的CPU和GPU技术的全部潜力。CoreLink 400系列能够对SoC计算系统的性能和效率最大化,这也是先进的移动、消费和企业应用的需求。CoreLink 400系列完美地补充了最新的ARM Mali-T604和Cortex-A15高性能处理器, 展开更多
关键词 高性能处理器 ARM公司 U系统 cpu 系统设计者 计算系统 企业应用 gpu
下载PDF
全志科技选择ARM Cortex CPU和Mali GPU技术
20
《电子与电脑》 2011年第5期102-103,共2页
ARM公司宣布,领先的高清媒体半导体解决方案供应商全志科技(AllWinner Technology)授权获得了ARMCortex-A8处理器和Mali-400MP图形处理单元(GPU),致力以超低功耗将高性能处理器和超高清带入一系列广泛的基于Android操作系统的互... ARM公司宣布,领先的高清媒体半导体解决方案供应商全志科技(AllWinner Technology)授权获得了ARMCortex-A8处理器和Mali-400MP图形处理单元(GPU),致力以超低功耗将高性能处理器和超高清带入一系列广泛的基于Android操作系统的互联消费电子产品. 展开更多
关键词 ARM公司 科技 cpu gpu 高性能处理器 技术 图形处理单元 消费电子产品
下载PDF
上一页 1 2 31 下一页 到第
使用帮助 返回顶部