期刊文献+
共找到137篇文章
< 1 2 7 >
每页显示 20 50 100
面向多核CPU与GPU平台的图处理系统关键技术综述
1
作者 张园 曹华伟 +5 位作者 张婕 申玥 孙一鸣 敦明 安学军 叶笑春 《计算机研究与发展》 EI CSCD 北大核心 2024年第6期1401-1428,共28页
图计算作为分析与挖掘关联关系的一种关键技术,已在智慧医疗、社交网络分析、金融反欺诈、地图道路规划、计算科学等领域广泛应用.当前,通用CPU与GPU架构的并行结构、访存结构、互连结构及同步机制的不断发展,使得多核CPU与GPU成为图处... 图计算作为分析与挖掘关联关系的一种关键技术,已在智慧医疗、社交网络分析、金融反欺诈、地图道路规划、计算科学等领域广泛应用.当前,通用CPU与GPU架构的并行结构、访存结构、互连结构及同步机制的不断发展,使得多核CPU与GPU成为图处理加速的常用平台.但由于图处理具有处理数据规模大、数据依赖复杂、访存计算比高等特性,加之现实应用场景下的图数据分布不规则且图中的顶点与边呈现动态变化,给图处理的性能提升和高可扩展性带来严峻挑战.为应对上述挑战,大量基于多核CPU与GPU平台的图处理系统被提出,并在该领域取得显著成果.为了让读者了解多核CPU与GPU平台上图处理优化相关技术的演化,首先剖析了图数据、图算法、图应用特性,并阐明图处理所面临的挑战.然后分类梳理了当前已有的基于多核CPU与GPU平台的图处理系统,并从加速图处理设计的角度,详细、系统地总结了关键优化技术,包括图数据预处理、访存优化、计算加速和数据通信优化等.最后对已有先进图处理系统的性能、可扩展性等进行分析,并从不同角度对图处理未来发展趋势进行展望,希望对从事图处理系统研究的学者有一定的启发. 展开更多
关键词 多核cpu与GPU平台 图处理系统 图数据表示 负载均衡 不规则访存 动态图处理
下载PDF
面向众核CPU的稠密线性求解器性能评测与优化
2
作者 付晓 苏醒 +1 位作者 董德尊 钱程东 《计算机工程与科学》 CSCD 北大核心 2024年第6期984-992,共9页
稠密线性求解器在高性能计算和机器学习等领域扮演着重要的角色。其典型的并行算法实现通常构建在著名的fork-join或task-based编程模型之上。尽管采用fork-join模型的主流稠密线性代数库能将大部分的计算转移到高度优化、高性能的BLAS ... 稠密线性求解器在高性能计算和机器学习等领域扮演着重要的角色。其典型的并行算法实现通常构建在著名的fork-join或task-based编程模型之上。尽管采用fork-join模型的主流稠密线性代数库能将大部分的计算转移到高度优化、高性能的BLAS 3例程上,由于fork-join不灵活的执行流,它们仍然未能高效地利用众核CPU的计算资源。采用task-based编程模型的开源库能实现更加灵活、负载更均衡的算法,因此能获得明显的性能提升。然而,在众核CPU平台上,尤其是对于中等矩阵规模的问题而言,它们仍然有较大的优化空间。对稠密线性求解器的性能进行了全面的测评,以定位性能瓶颈,并提出了2种优化策略,以提高程序性能。具体地,通过重叠LU分解和下三角求解的计算过程,减少同步开销线程的空等,从而提高算法的并行性;进一步通过减少冗余的矩阵打包操作,降低算法的访存开销。分别在2个主流的众核CPU平台(Intel®Xeon Gold®6252N(48核)和HiSilicon Kunpeng 920(64核))上进行了性能评估。实验结果表明,该优化的稠密线性求解器在上述两个CPU平台上,相比最佳开源实现分别取得了10.05%(Xeon)和13.63%(Kunpeng 920)的性能提升。 展开更多
关键词 稠密线性求解器 LU分解 fork-join模型 task-based模型 众核cpu
下载PDF
基于CPU+GPU混合架构的雷达信号处理方法
3
作者 常艳 何涛 朱占宇 《火力与指挥控制》 CSCD 北大核心 2024年第7期80-85,90,共7页
针对雷达系统复杂化趋势,提出了基于CPU+GPU混合架构的信号处理方法。依据运算复杂度进行任务的细粒度划分,将复杂处理任务解耦为逻辑处理和运算处理两部分,并映射到CPU+GPU核心进行处理。根据雷达信号处理的拆解包、脉冲压缩、相参积... 针对雷达系统复杂化趋势,提出了基于CPU+GPU混合架构的信号处理方法。依据运算复杂度进行任务的细粒度划分,将复杂处理任务解耦为逻辑处理和运算处理两部分,并映射到CPU+GPU核心进行处理。根据雷达信号处理的拆解包、脉冲压缩、相参积累、目标检测、目标检测后处理及解模糊过程,将对应处理映射到CPU+GPU核心以提高加速比。实验结果表明,相比多核DSP信号处理方法,该方法具有更好的性能。 展开更多
关键词 cpu+GPU 混合架构 信号处理 多核DSP
下载PDF
基于多核CPU的DVB-RCS2并行Turbo译码方法 被引量:1
4
作者 翟绪论 张永光 +2 位作者 靳安钊 强薇 李梦冰 《计算机科学》 CSCD 北大核心 2023年第6期22-28,共7页
DVB-RCS2在卫星广播、海事卫星通信、军事卫星通信等领域有着广泛应用,而无论是通信还是军事侦察都需要大吞吐量高速译码。多核CPU算力不断提升以及软件无线电SDR平台的广泛应用,使得基于多核CPU的并行译码成为一种灵活高效的应用方式... DVB-RCS2在卫星广播、海事卫星通信、军事卫星通信等领域有着广泛应用,而无论是通信还是军事侦察都需要大吞吐量高速译码。多核CPU算力不断提升以及软件无线电SDR平台的广泛应用,使得基于多核CPU的并行译码成为一种灵活高效的应用方式。为了满足其中双二元Turbo码大吞吐量软件译码的需求,提出了一种基于多核CPU的高速并行软件译码方案。首先对比分析了双二元Turbo码与传统二进制Turbo码的计算复杂度;然后重点对并行计算过程中的内存占用和采用8比特位宽整型数据时的输入量化方法进行了分析和优化,设计了基于多核CPU并行译码的实现方案;最后在Intel 12核CPU上使用SSE并行指令集实现了大于169 Mbps的译码吞吐率,且纠错性能较浮点运算损失小于0.1 dB。通过与现有GPU译码方案对比,说明了所提方案在译码效率和能耗方面的优势,其在高速卫星接收机中具有极高的应用价值。 展开更多
关键词 DVB-RCS2 双二元Turbo码 多核cpu SIMD并行计算 高速译码
下载PDF
农田环境下无人机图像并行拼接识别算法
5
作者 许鑫 张力 +4 位作者 岳继博 钟鹤鸣 王颖 刘杰 乔红波 《农业工程学报》 EI CAS CSCD 北大核心 2024年第9期154-163,共10页
为改善在农田环境下无人机图像计算速度和效率,该研究提出了一种农田环境下无人机图像并行拼接识别算法。利用倒二叉树并行拼接识别算法,通过提取图像拼接中的变换矩阵,实现拼接识别同时进行。根据边缘设备的CPU核心数和图像数量自动将... 为改善在农田环境下无人机图像计算速度和效率,该研究提出了一种农田环境下无人机图像并行拼接识别算法。利用倒二叉树并行拼接识别算法,通过提取图像拼接中的变换矩阵,实现拼接识别同时进行。根据边缘设备的CPU核心数和图像数量自动将图像拼接识别任务划分为多个子进程,并分配到不同核心上执行,以提高在农田环境下的计算效率。试验结果表明:相同试验环境和数据集条件下,倒二叉树并行拼接算法的拼接耗时相较于其他算法平均减少了60%~90%左右;在农田环境下,倒二叉树并行拼接识别相较于串行拼接识别的耗时减少了70%,图像识别的平均像素交并比提升了10.17个百分点,说明在农田环境下采用多线程倒二叉树并行算法可以更好地利用农田环境下边缘设备的计算资源,大幅提升无人机图像的拼接和识别的速度,为无人机的快速实时监测提供技术支撑。 展开更多
关键词 无人机 遥感 图像处理 全景拼接 多核cpu 多进程
下载PDF
嵌入式CPU软核综述 被引量:16
6
作者 孙恺 王田苗 +1 位作者 魏洪兴 陈友东 《计算机工程》 CAS CSCD 北大核心 2006年第7期6-9,共4页
随着FPGA和SoPC(SystemonProgrammableChip)技术的迅速发展,基于FPGA的嵌入式系统得到了广泛的研究和应用。该文针对目前比较有影响和特点的4款嵌入式CPU软核Nios/Nios2、MicroBlaze、Leon2/Leon3和OpenRISC1200进行了性能分析和对比,... 随着FPGA和SoPC(SystemonProgrammableChip)技术的迅速发展,基于FPGA的嵌入式系统得到了广泛的研究和应用。该文针对目前比较有影响和特点的4款嵌入式CPU软核Nios/Nios2、MicroBlaze、Leon2/Leon3和OpenRISC1200进行了性能分析和对比,最后分析了各个CPU软核的特点。 展开更多
关键词 嵌入式系统 cpu 软核 FPGA
下载PDF
面向众核处理器的阴阳K-means算法优化
7
作者 周天阳 王庆林 +4 位作者 李荣春 梅松竹 尹尚飞 郝若晨 刘杰 《国防科技大学学报》 EI CAS CSCD 北大核心 2024年第1期93-102,共10页
传统阴阳K-means算法处理大规模聚类问题时计算开销十分昂贵。针对典型众核处理器的体系结构特征,提出了一种阴阳K-means算法高效并行加速实现。该实现基于一种新内存数据布局,采用众核处理器中的向量单元来加速阴阳K-means中的距离计算... 传统阴阳K-means算法处理大规模聚类问题时计算开销十分昂贵。针对典型众核处理器的体系结构特征,提出了一种阴阳K-means算法高效并行加速实现。该实现基于一种新内存数据布局,采用众核处理器中的向量单元来加速阴阳K-means中的距离计算,并面向非一致内存访问(non-unified memory access, NUMA)特性进行了针对性的访存优化。与阴阳K-means算法的开源多线程实现相比,该实现在ARMv8和x86众核平台上分别获得了最高约5.6与8.7的加速比。因此上述优化方法在众核处理器上成功实现了对阴阳K-means算法的加速。 展开更多
关键词 K-MEANS 非一致内存访问 向量化 众核处理器 性能优化
下载PDF
多核CPU环境下的并行遗传算法的研究 被引量:7
8
作者 唐天兵 谢祥宏 +2 位作者 申文杰 韦凌云 严毅 《广西大学学报(自然科学版)》 CAS CSCD 北大核心 2009年第4期546-550,共5页
多核CPU已经成为当前CPU市场上的主流产品,设计适应多核CPU环境的算法与软件势在必行。遗传算法是一种具有很强通用性的全局搜索方法,也是一种计算量大、极耗计算资源的算法,其传统的串行计算形式并不能充分利用多核的计算资源,将其设... 多核CPU已经成为当前CPU市场上的主流产品,设计适应多核CPU环境的算法与软件势在必行。遗传算法是一种具有很强通用性的全局搜索方法,也是一种计算量大、极耗计算资源的算法,其传统的串行计算形式并不能充分利用多核的计算资源,将其设计为适应多核CPU环境的并行计算形式,具有重要的现实意义。将遗传算法的基本操作设计成并行执行形式,并利用OpenMP将其线程化,从而对不同规模的TSP问题的求解结果来看,加速比与计算效率随着规模的增大而提高。 展开更多
关键词 多核cpu OPENMP 线程化 遗传算法
下载PDF
在集群多核CPU环境下的等高线并行提取方法 被引量:4
9
作者 王宗跃 马洪超 +2 位作者 徐宏根 邬建伟 彭检贵 《计算机工程与应用》 CSCD 北大核心 2010年第17期5-7,44,共4页
分析集群环境下分布式存储编程模型和多核CPU环境下共享存储编程模型各自的优缺点,采用结合集群和多核CPU的并行环境来取长补短;并研究其在等高线提取中的相关并行算法,其中以建立三角网和跟踪等高线作为共享存储并行的研究实例;最后通... 分析集群环境下分布式存储编程模型和多核CPU环境下共享存储编程模型各自的优缺点,采用结合集群和多核CPU的并行环境来取长补短;并研究其在等高线提取中的相关并行算法,其中以建立三角网和跟踪等高线作为共享存储并行的研究实例;最后通过实验验证了该并行方案的可行性。 展开更多
关键词 机载激光雷达 等高线 并行 多核cpu 集群
下载PDF
多核CPU环境下小生境混合遗传算法的研究 被引量:3
10
作者 唐天兵 谢祥宏 +1 位作者 韦凌云 申文杰 《计算机应用研究》 CSCD 北大核心 2009年第11期4073-4075,共3页
为克服遗传算法的缺点,利用小生境的启发作用,引入改进的模拟退火操作,构造了一个兼顾全局搜索与局部探测的混合遗传算法。针对该算法内在的良好并行性及串行计算难以发挥多核CPU计算优势的问题,将遗传操作和模拟退火操作设计成并行计... 为克服遗传算法的缺点,利用小生境的启发作用,引入改进的模拟退火操作,构造了一个兼顾全局搜索与局部探测的混合遗传算法。针对该算法内在的良好并行性及串行计算难以发挥多核CPU计算优势的问题,将遗传操作和模拟退火操作设计成并行计算形式,利用OpenMP将其线程化。对TSP的求解验证了该算法的有效性,并行算法的加速比和计算效率随着TSP规模的增加而显著提高。 展开更多
关键词 小生境 模拟退火算法 遗传算法 多核cpu
下载PDF
多核CPU的海量点云并行kNN算法 被引量:10
11
作者 王宗跃 马洪超 +2 位作者 徐宏根 张建伟 彭检贵 《测绘科学技术学报》 北大核心 2010年第1期46-49,共4页
提出基于多核CPU的海量点云k最近邻(kNN)快速搜索算法。该算法先将点云数据按格网方式进行组织存储于外存;在搜索kNN点时,从搜索点所在的块向外扩张搜索;在多核CPU环境下采用多线程模式进行数据的内外存调度和kNN点搜索。当内存达到设... 提出基于多核CPU的海量点云k最近邻(kNN)快速搜索算法。该算法先将点云数据按格网方式进行组织存储于外存;在搜索kNN点时,从搜索点所在的块向外扩张搜索;在多核CPU环境下采用多线程模式进行数据的内外存调度和kNN点搜索。当内存达到设定上限时,采用距离搜索点最远策略释放内存,降低内外存数据交换的频率。将该方法应用于基于kNN的滤波和格网化方法中,处理速度显著提高。 展开更多
关键词 机载激光雷达 海量点云 k最近邻 多核cpu 并行算法
下载PDF
一种基于8 bit CPU核的混合SoC验证平台的设计(英文) 被引量:1
12
作者 虞致国 魏敬和 《电子器件》 CAS 2009年第3期586-591,共6页
提出了一种基于8 bit CPU的混合信号SoC的验证平台。该平台能够完成IP模块验证、软硬件协同验证、混合验证等关键验证流程。该验证平台已经成功地应用在某混合信号SoC的设计上,并在0.35μm CMOS工艺上进行了实现。该验证平台对其它混合... 提出了一种基于8 bit CPU的混合信号SoC的验证平台。该平台能够完成IP模块验证、软硬件协同验证、混合验证等关键验证流程。该验证平台已经成功地应用在某混合信号SoC的设计上,并在0.35μm CMOS工艺上进行了实现。该验证平台对其它混合SoC设计具有一定的参考作用。 展开更多
关键词 混合SoC 验证平台 8位cpu 数模混合仿真
下载PDF
多核CPU-GPU协同的并行深度优先算法 被引量:2
13
作者 余莹 李肯立 《计算机应用研究》 CSCD 北大核心 2014年第10期2982-2985,共4页
针对多核CPU和GPU环境下图的深度优先搜索问题,提出多核CPU中实现并行DFS的新算法,通过有效利用内存带宽来提高性能,且当图增大时优势越明显。在此基础上提出一种混合方法,为DFS每一分支动态地选择最佳的实现:顺序执行;两种不同算法的... 针对多核CPU和GPU环境下图的深度优先搜索问题,提出多核CPU中实现并行DFS的新算法,通过有效利用内存带宽来提高性能,且当图增大时优势越明显。在此基础上提出一种混合方法,为DFS每一分支动态地选择最佳的实现:顺序执行;两种不同算法的多核执行;GPU执行。混合算法为每种大小的图提供相对更好的性能,且能避免高直径图上的最坏情况。通过比较多CPU和GPU系统,分析底层架构对DFS性能的影响。实验结果表明,一个高端single-socket GPU系统的DFS执行性能相当于一个高端4-socket CPU系统。 展开更多
关键词 多核cpu GPU 深度优先搜索 并行 异构
下载PDF
并行帧缓存设备:基于多核CPU的Xorg并行显示优化 被引量:1
14
作者 高珑 戴华东 +1 位作者 杨沙洲 丁滟 《软件学报》 EI CSCD 北大核心 2020年第10期3309-3320,共12页
Xorg图形服务器软件在帧缓存设备上采用单线程绘制模式,难以发挥多核CPU的性能.针对多核CPU上的帧缓存设备,设计了带有互斥操作的任务队列,并按照屏幕划分的方法,实现了Xorg的矩形填充操作在帧缓存设备上基于私有任务队列的多线程并行化... Xorg图形服务器软件在帧缓存设备上采用单线程绘制模式,难以发挥多核CPU的性能.针对多核CPU上的帧缓存设备,设计了带有互斥操作的任务队列,并按照屏幕划分的方法,实现了Xorg的矩形填充操作在帧缓存设备上基于私有任务队列的多线程并行化,并实现了主从线程负载均衡.x11perf测试结果表明,该算法在一台4核商用台式机上的加速比可以达到2.06. 展开更多
关键词 Xorg 帧缓存设备 嵌入式 并行算法 多核cpu
下载PDF
基于多核CPU的复杂液压产品快速并行优化方法 被引量:4
15
作者 宁志强 卫立新 +3 位作者 张瑞 权龙 化建辉 高有山 《农业机械学报》 EI CAS CSCD 北大核心 2022年第4期441-449,共9页
为缩短复杂液压产品的研发周期和提高系列化产品的开发效率,提出一种基于多核CPU的复杂液压产品快速并行优化方法。该方法利用粒子群算法寻求产品设计参数的优化和性能指标的约束,将每个仿真程序视作粒子群个体。采用两级加速策略,即CV... 为缩短复杂液压产品的研发周期和提高系列化产品的开发效率,提出一种基于多核CPU的复杂液压产品快速并行优化方法。该方法利用粒子群算法寻求产品设计参数的优化和性能指标的约束,将每个仿真程序视作粒子群个体。采用两级加速策略,即CVODE求解器加速和多核CPU加速。以非对称轴向柱塞泵三角槽优化设计为研究对象,通过物理样机试验对CVODE求解器加速方法的准确性进行验证,结果显示,试验与仿真结果吻合度较高。利用粒子群算法对三角槽主要参数进行优化以降低泵输出流量脉动。对比三角槽结构优化前后的流量脉动率,结果显示,在不增加柱塞腔压力的条件下,非对称轴向柱塞泵三角槽优化后的流量脉动相比优化前降低了36%。该方法可脱离专业仿真软件平台,能够独立运行于Windows操作系统,解决液压动态仿真对专业软件依赖的问题,且多进程比多线程编程更容易实现。在8核CPU工作站仿真条件下,与SimulationX平台仿真方法相比,该多核CPU并行方法的仿真效率提高10倍以上,与双核计算机并行运行效率相比提高近5倍。 展开更多
关键词 复杂液压产品 液压仿真软件 多核cpu 多进程并行优化 样机试验
下载PDF
基于多核CPU+GPU运算的电磁场高效体绘制算法研究 被引量:1
16
作者 陈宇峰 张铂 李林 《计算机工程与应用》 CSCD 北大核心 2018年第18期218-222,共5页
雷达探测范围作为电磁场的一个典型代表,由于其在军事决策时扮演着重要的作用,所以对探测范围可视化的准确性和实时性的要求很严格。传统的面绘制三维数据场信息会造成大量的空间信息丢失。因此,采用体绘制技术来获取电磁场中的三维数... 雷达探测范围作为电磁场的一个典型代表,由于其在军事决策时扮演着重要的作用,所以对探测范围可视化的准确性和实时性的要求很严格。传统的面绘制三维数据场信息会造成大量的空间信息丢失。因此,采用体绘制技术来获取电磁场中的三维数据场信息。针对传统体绘制技术算法执行效率较低的问题,提出使用多核CPU+GPU的架构来加速体绘制,从而实现实时处理。实验表明,采用提出的方法可以大幅减少体绘制中光线绘制的时间,充分利用CPU的空闲存储资源和计算资源。 展开更多
关键词 电磁场 体绘制 多核cpu+GPU 并行计算
下载PDF
一种DSP和通用CPU一体化的处理器架构及其4核实现 被引量:3
17
作者 王志君 梁利平 +3 位作者 洪钦智 罗汉青 王昳 赵淳 《微电子学与计算机》 CSCD 北大核心 2014年第10期32-38,共7页
提出了一种DSP和通用CPU一体化的处理器架构,并完成了一款基于该架构的同构4核处理器设计和流片验证.该处理器基于VLIW结构,支持自主定义的DSP指令系统,兼容现有通用的MIPS 4KC处理器指令集,支持最大8个指令通道的并行发射.处理器在不改... 提出了一种DSP和通用CPU一体化的处理器架构,并完成了一款基于该架构的同构4核处理器设计和流片验证.该处理器基于VLIW结构,支持自主定义的DSP指令系统,兼容现有通用的MIPS 4KC处理器指令集,支持最大8个指令通道的并行发射.处理器在不改变CPU的指令编码以及执行顺序的前提下,实现了芯片结构上的DSP和CPU执行处理的一体化,适合在统一的平台上同时完成宽带通信和多媒体的信号和协议处理的嵌入式应用开发.处理器内核通过自主定义的DSP指令字中前后并行标识位和一条专用的前导paralink指令实现了DSP与CPU指令的并行发射.在4核处理器的同构架构上,采用了全局读局部写的多核间片上数据存储策略,在控制硬件开销的基础上实现片上数据的共享.仿真和流片验证结果表明,所提出的DSP和CPU一体化处理器架构可行,在宽带通信和多媒体等嵌入式应用上具有优势. 展开更多
关键词 多核处理器 DSP和cpu一体化 VLIW结构
下载PDF
综合使用CPU和GPU的实时手术仿真系统并行框架 被引量:1
18
作者 贾世宇 潘振宽 《系统仿真学报》 CAS CSCD 北大核心 2014年第2期332-338,共7页
使用多线程技术实现了任务并行化的实时手术仿真系统框架。系统由主控制、力反馈控制、变形计算和GPU控制四大主线程和若干碰撞辅助线程构成。主控制线程处理手术工具与软组织的交互操作、碰撞检测和碰撞响应。力反馈控制线程处理力反... 使用多线程技术实现了任务并行化的实时手术仿真系统框架。系统由主控制、力反馈控制、变形计算和GPU控制四大主线程和若干碰撞辅助线程构成。主控制线程处理手术工具与软组织的交互操作、碰撞检测和碰撞响应。力反馈控制线程处理力反馈设备状态读入和反馈力输出。变形计算线程完成基于CPU的软组织变形计算。GPU控制线程处理三维场景图形渲染和基于GPU的软组织变形计算。碰撞辅助线程与主控制线程协同运作完成碰撞检测的并行处理。系统在数据结构和运行机制上进行了特殊设计,使得切割操作可以和GPU加速的变形计算并行运作。对若干测试场景的仿真结果表明,并行框架可以提高系统运行速度,并且运行稳定正常,无死锁现象。 展开更多
关键词 实时手术仿真 软组织变形 软组织切割 GPU加速
下载PDF
基于开放式CPU设计系统的双核CPU设计 被引量:1
19
作者 李山山 郑宁汉 高玉超 《实验室科学》 2015年第5期27-32,共6页
介绍了一种双核CPU的设计,采用精简的指令系统,具有经典的五级流水线结构,支持乘除法和异常/中断处理。CPU中的两个核具有分离的指令Cache,通过共享数据Cache来进行相应的共享数据传输,各Cache之间通过仲裁器来维护访问权限。同时对该... 介绍了一种双核CPU的设计,采用精简的指令系统,具有经典的五级流水线结构,支持乘除法和异常/中断处理。CPU中的两个核具有分离的指令Cache,通过共享数据Cache来进行相应的共享数据传输,各Cache之间通过仲裁器来维护访问权限。同时对该设计进行了有针对性的测试,验证双核是否能够正确工作,以及一些简单的性能分析。设计样例在相关课程的实验教学中具有很高的应用价值。 展开更多
关键词 双核 cpu设计 计算机组成与系统结构 流水线
下载PDF
基于多核CPU-GPU异构平台的并行Agent仿真 被引量:4
20
作者 余文广 王维平 +1 位作者 侯洪涛 李群 《系统工程与电子技术》 EI CSCD 北大核心 2012年第8期1716-1722,共7页
多核中央处理器(central processing units,CPU)-图形处理器(graphics processing units,GPU)异构平台为提高并行Agent仿真(parallel Agent-based simulation,PABS)在单机上的运行性能提供了一个更高效的硬件基础,但在当前相关研究中,... 多核中央处理器(central processing units,CPU)-图形处理器(graphics processing units,GPU)异构平台为提高并行Agent仿真(parallel Agent-based simulation,PABS)在单机上的运行性能提供了一个更高效的硬件基础,但在当前相关研究中,还缺乏一般性的理论方法来指导并行Agent仿真将多核CPU和GPU的计算资源充分利用起来。通过分析多核CPU-GPU异构并行架构的特点,在方法论层面上建立了并行Agent仿真在多核CPU-GPU异构平台下的多层负载分配模型,并根据基于Agent的仿真的执行结构,提出了对基于Agent的仿真的计算结构、数据结构进行重构的方法,以适应异构的硬件架构。最后对基于多核CPU-GPU的并行Agent仿真性能进行了实验分析。 展开更多
关键词 并行Agent仿真 多核中央处理器 图形处理器 异构平台
下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部