期刊文献+
共找到61篇文章
< 1 2 4 >
每页显示 20 50 100
Time Predictable Modeling Method for GPU Architecture with SIMT and Cache Miss Awareness
1
作者 Shaojie Zhang 《Journal of Electronic Research and Application》 2024年第2期109-115,共7页
Graphics Processing Units(GPUs)are used to accelerate computing-intensive tasks,such as neural networks,data analysis,high-performance computing,etc.In the past decade or so,researchers have done a lot of work on GPU ... Graphics Processing Units(GPUs)are used to accelerate computing-intensive tasks,such as neural networks,data analysis,high-performance computing,etc.In the past decade or so,researchers have done a lot of work on GPU architecture and proposed a variety of theories and methods to study the microarchitectural characteristics of various GPUs.In this study,the GPU serves as a co-processor and works together with the CPU in an embedded real-time system to handle computationally intensive tasks.It models the architecture of the GPU and further considers it based on some excellent work.The SIMT mechanism and Cache-miss situation provide a more detailed analysis of the GPU architecture.In order to verify the GPU architecture model proposed in this article,10 GPU kernel_task and an Nvidia GPU device were used to perform experiments.The experimental results showed that the minimum error between the kernel task execution time predicted by the GPU architecture model proposed in this article and the actual measured kernel task execution time was 3.80%,and the maximum error was 8.30%. 展开更多
关键词 heterogeneous computing GPU architecture modeling Time predictability
下载PDF
Improved DES on Heterogeneous Multi-core Architecture
2
作者 Zhenshan Bao Chong Chen Wenbo Zhang 《国际计算机前沿大会会议论文集》 2018年第1期34-34,共1页
下载PDF
基于嵌入式的车牌超分辨率识别算法
3
作者 管旭旭 张峰 张士文 《电气自动化》 2024年第4期114-115,118,共3页
在真实拍摄场景下,受成像设备性能以及远距离拍摄的限制,采集到的车牌的像素会变少。提升成像设备的质量成本较高。由于存在远距离的场景,因此对像素较少的车牌进行超分辨率重建至关重要。为此,提出了基于Atlas200DK嵌入式设备的车牌超... 在真实拍摄场景下,受成像设备性能以及远距离拍摄的限制,采集到的车牌的像素会变少。提升成像设备的质量成本较高。由于存在远距离的场景,因此对像素较少的车牌进行超分辨率重建至关重要。为此,提出了基于Atlas200DK嵌入式设备的车牌超分辨率识别算法。整个网络的推理过程均在Atlas200DK嵌入式开发板上进行,在含有远距离和模糊的自然场景下实测。结果表明:检测速度为33 fps,车牌定位准确率为99.2%,车牌识别准确率较直接识别提高了10.6个百分点,达到91.9%。算法可以在不增加成本和不损失精度的情况下提高车牌识别的准确率,对于智慧交通的大规模应用具有重要意义。 展开更多
关键词 嵌入式 异构计算架构 YOLOX网络
下载PDF
基于OpenVPX标准的异构融合处理模块软硬件协同设计研究
4
作者 文敏华 石添介 田径 《弹箭与制导学报》 北大核心 2024年第3期103-108,共6页
随着计算机软硬件技术的持续进步,机载计算平台集成的任务功能日益增多,导致平台内部的计算需求在规模和复杂性上不断攀升。面对智能化应用的迅猛增长,传统的单一处理器架构已不足以应对多样化的复杂任务。为此,基于OpenVPX标准,定义并... 随着计算机软硬件技术的持续进步,机载计算平台集成的任务功能日益增多,导致平台内部的计算需求在规模和复杂性上不断攀升。面对智能化应用的迅猛增长,传统的单一处理器架构已不足以应对多样化的复杂任务。为此,基于OpenVPX标准,定义并设计了一种符合硬件开放式架构的3U异构融合处理模块,以适应多种复杂任务的需求。文中还提出了一种异构计算资源池化技术,旨在实现多类型任务应用的快速部署和高效运行,同时降低通信延迟,显著提升计算平台的处理能力和适用性。最后进行了实验验证,结果表明与多CPU架构相比,文中所设计的异构融合处理模块在执行特定神经网络算法时,处理时间缩短了约4.8倍,证明了其在性能上的显著提升。该研究成果不仅展示了异构融合处理模块在机载智能计算应用中的显著性能优势,而且为航空计算平台的未来发展提供了创新的解决方案和技术支持。 展开更多
关键词 机载计算平台 OpenVPX 硬件开放式架构 异构融合处理 资源池化
下载PDF
LHAASO模拟作业从X86到ARM计算集群的移植
5
作者 程垚松 毕玉江 +1 位作者 郭超奇 闫晓飞 《数据与计算发展前沿》 CSCD 2024年第3期83-91,共9页
【目的】随着高能物理实验的推进与先进探测器的研发,产生的科学大数据显著增加,通过对这些数据的分析和模拟,可以发现宇宙运行规律并进一步探索宇宙的起源。【应用背景】科学数据的爆炸式增长对计算资源的规模和性能提出了更多的需求... 【目的】随着高能物理实验的推进与先进探测器的研发,产生的科学大数据显著增加,通过对这些数据的分析和模拟,可以发现宇宙运行规律并进一步探索宇宙的起源。【应用背景】科学数据的爆炸式增长对计算资源的规模和性能提出了更多的需求。例如,高海拔宇宙线观测站(LHAASO)自2020年实验开始运行以来,其宇宙线事例模拟作业一直在Intel X86集群上运行,但由于CPU资源有限,仅生产了第一阶段计划数据的一部分。【方法】基于对计算资源的需求和国际局势的变化,利用中国广东省东莞市的ARM架构计算集群,探索了异构计算服务设备在高能物理领域的应用。【结果】本文构建了一个完整的支持高能物理离线数据处理的应用程序生态环境。将基于平方公里阵列(KM2A)、水切伦科夫探测器阵列(WCDA)和广角切伦科夫望远镜阵列(WFCTA)实验的离线软件移植到ARM机器上运行,制定跨异地站点和异构计算集群的数据传输和作业调度策略,并评估了模拟作业在Intel X86和ARM集群中的性能和功耗差异。【结论】该环境中,移植的LHAASO模拟作业在ARM计算集群可以正确运行;虽然基于Intel X86架构的CPU单核性能优于ARM CPU,但是对于多核架构的整个服务器来说,ARM服务器性能更好。 展开更多
关键词 科学大数据 数据处理 异构计算 ARM架构
下载PDF
嵌入式异构智能计算系统并行多流水线设计
6
作者 赵二虎 吴济文 +2 位作者 肖思莹 晋振杰 徐勇军 《电子学报》 EI CAS CSCD 北大核心 2023年第11期3354-3364,共11页
嵌入式智能计算系统因其功耗受限和多传感器实时智能处理需要,对硬件平台的智能算力能效比和智能计算业务并行度提出了严峻挑战.传统嵌入式计算系统常采用的DSP+FPGA数字信号处理架构,无法适用于多个神经网络模型加速场景.本文基于ARM+D... 嵌入式智能计算系统因其功耗受限和多传感器实时智能处理需要,对硬件平台的智能算力能效比和智能计算业务并行度提出了严峻挑战.传统嵌入式计算系统常采用的DSP+FPGA数字信号处理架构,无法适用于多个神经网络模型加速场景.本文基于ARM+DLP+SRIO嵌入式异构智能计算架构,利用智能处理器多片多核多内存通道特性,提出了并行多流水线设计方法.该方法充分考虑智能计算业务中数据传输、拷贝、推理、结果反馈等环节时间开销,为不同的神经网络模型合理分配智能算力资源,以达到最大的端到端智能计算业务吞吐率.实验结果表明,采用并行多流水线设计方法的深度学习处理器利用率较单流水线平均提高约25.2%,较无流水线平均提高约30.7%,满足可见光、红外、SAR等多模图像实时智能处理需求,具有实际应用价值. 展开更多
关键词 嵌入式智能计算系统 异构计算架构 神经网络模型 并行多流水线 深度学习处理器
下载PDF
面向申威异构架构的并行代码自动生成 被引量:3
7
作者 陶小涵 朱雨 +2 位作者 庞建民 赵捷 徐金龙 《软件学报》 EI CSCD 北大核心 2023年第4期1570-1593,共24页
异构架构逐渐成为高性能计算领域的主流架构,但相较于同构多核架构,其硬件结构及存储层次更为复杂,程序编写更为困难.先进的优化编译器可以协助程序开发人员实现更为高效的代码,降低程序开发复杂度.多面体编译模型通过抽象分析将程序抽... 异构架构逐渐成为高性能计算领域的主流架构,但相较于同构多核架构,其硬件结构及存储层次更为复杂,程序编写更为困难.先进的优化编译器可以协助程序开发人员实现更为高效的代码,降低程序开发复杂度.多面体编译模型通过抽象分析将程序抽象成空间多面体表示形式,能够将多种循环变换与硬件映射相结合,并面向特定体系结构生成相应的代码.设计实现了一个面向国产申威异构架构的并行代码自动生成系统,采用“源-源”编译模式,基于多面体编译模型实现.系统针对申威异构架构特点将程序计算过程进行硬件部署,同时实现数据传输与内存空间的自动管理.实验基于Polybench测试集中线性代数相关用例进行测试.结果表明,利用代码自动生成系统生成的异构并行代码能够在申威异构平台上正确运行,并能够有效发挥申威异构平台的性能,基于申威异构平台利用64线程加速计算的平均加速比达到了539.16倍. 展开更多
关键词 申威异构架构 多面体模型 并行计算 代码生成
下载PDF
基于新一代神威天气和气候预测系统并行优化
8
作者 范国炜 吴涛 刘壮 《计算机仿真》 北大核心 2023年第12期353-358,共6页
为了模拟更详细真实的天气和气候变化,天气和气候模式正朝着更高分辨率和更多物理参数化方案的方向发展。基于神威新一代国产超级计算机,利用其异构众核体系结构的优势对基于非结构网格的天气-气候一体化模式(Global-to-Regional Integr... 为了模拟更详细真实的天气和气候变化,天气和气候模式正朝着更高分辨率和更多物理参数化方案的方向发展。基于神威新一代国产超级计算机,利用其异构众核体系结构的优势对基于非结构网格的天气-气候一体化模式(Global-to-Regional Integrated forecast System, GRIST)进行移植和优化,充分发挥申威处理器的性能。基于新一代神威的swGRIST在经过不断优化后,主核和从核协作运行时间加速比达到纯主核的2-4倍,热点函数最高可加速48倍以上,可扩展到100万核,对实时预报系统提升了保障。 展开更多
关键词 申威架构 天气和气候模式 异构众核 并行计算
下载PDF
基于异构并行计算的软件雷达通用硬件架构设计 被引量:1
9
作者 李德银 扈树洁 熊伟涛 《指挥控制与仿真》 2023年第4期127-131,共5页
软件雷达系统功能由软件定义是雷达未来发展的一个趋势,这对系统硬件计算性能和数据传输带宽提出了很高的要求,因此将异构并行高性能计算技术引入软件雷达领域。根据系统功能逻辑,构建了软件雷达硬件平台系统,利用先进的异构并行计算技... 软件雷达系统功能由软件定义是雷达未来发展的一个趋势,这对系统硬件计算性能和数据传输带宽提出了很高的要求,因此将异构并行高性能计算技术引入软件雷达领域。根据系统功能逻辑,构建了软件雷达硬件平台系统,利用先进的异构并行计算技术,设计了一个具体的通用硬件平台架构。该平台通过独立的高速采集卡完成回波信号的采集与A/D变换,利用FPGA刀片异构服务器完成雷达信号实时处理,通过GPU异构超级计算机完成数据处理和显控,利用InfiniBand网络和磁盘阵列完成数据的高速传输与存储。通过性能分析,该硬件平台能够满足现代雷达对计算速度和传输带宽的性能需求。 展开更多
关键词 软件雷达 硬件架构设计 高性能计算 异构并行
下载PDF
面向异构多背包问题的多级二进制帝国竞争算法 被引量:1
10
作者 李斌 唐志斌 《计算机应用》 CSCD 北大核心 2023年第9期2855-2867,共13页
在传统多背包问题的基础上,从典型物流服务场景中共性抽象出异构多背包问题(HMKP),并设计和定制了一种帝国竞争算法(ICA)对HMKP进行求解和评估。针对原始ICA易陷入局部最优以及0-1背包问题最优解往往在约束边界周围的特点,设计了双点自... 在传统多背包问题的基础上,从典型物流服务场景中共性抽象出异构多背包问题(HMKP),并设计和定制了一种帝国竞争算法(ICA)对HMKP进行求解和评估。针对原始ICA易陷入局部最优以及0-1背包问题最优解往往在约束边界周围的特点,设计了双点自变异策略(TPAS)和跳出局部最优算法(JLOA)对ICA进行改进,提出面向0-1背包问题的二进制帝国竞争算法(BICA)。BICA在求解35个0-1背包问题算例时展现出了全面、高效的寻优能力,基于最佳匹配值法(BMV)的BICA在第一组测试集的20个算例上能对19个算例100%找到理想最优值,在第二组测试集的15个算例上能对12个算例100%找到理想最优值,在所有对比算法中表现最优。数值结果分析表明,BICA在寻优演化中维持多极发展策略,并依托独特的种群进化方式在解空间中高效搜索理想解。在此基础上,针对HMKP强约束性和高复杂度的特性,基于BICA设计了求解HMKP的多级二进制帝国竞争算法(MLB-ICA)。分别在多个典型0-1背包问题算例组合构建的HMKP高维测试集上进行了MLB-ICA的数值实验和性能评估,结果表明虽然MLB-ICA的求解时间比Gurobi长,但求解精度提高了28%。可见,MLB-ICA能以较低的计算代价在可接受的时间范围内高效求解高维复杂的HMKP,为ICA在超大规模组合优化问题中的求解提出了可行的算法设计方案。 展开更多
关键词 0-1背包问题 异构多背包问题 帝国竞争算法 局部搜索策略 跳出局部最优机制 多级计算架构
下载PDF
基于FPGA的快速带钢表面缺陷检测系统设计
11
作者 王垚尧 刘登峰 柴志雷 《中国科技论文在线精品论文》 2023年第2期200-208,共9页
为使带钢表面缺陷检测系统满足实时检测的要求,提出以VGG-19作为主干网络,完成现场可编程门阵列(field programmable gate array,FPGA)对带钢表面进行快速检测与识别系统的设计。本系统基于ZYNQ-7000平台进行软硬协同设计:1)在PL端通过... 为使带钢表面缺陷检测系统满足实时检测的要求,提出以VGG-19作为主干网络,完成现场可编程门阵列(field programmable gate array,FPGA)对带钢表面进行快速检测与识别系统的设计。本系统基于ZYNQ-7000平台进行软硬协同设计:1)在PL端通过加速数据流方法对卷积进行并行化的设计,实现硬件加速,并且在PL端用高级语言对整个网络进行调度,控制与使用PL端加速的各个IP核。2)通过定点数据量化的方式,在数据精度几乎损失很少的情况下,大大减少了FPGA片上资源的使用,从而实现算法的加速。最终实验结果表明,本算法与CPU相比,速度提升了6倍,CPU平台与FPGA平台功耗比为12.6,GPU平台与FPGA平台功耗比为38.2,更适合嵌入式平台上的应用。 展开更多
关键词 计算机系统结构 异构计算 软硬件系统设计 深度学习 现场可编程门阵列(FPGA) ZYNQ
下载PDF
一种自主设计的面向E级高性能计算的异构融合加速器 被引量:12
12
作者 刘胜 卢凯 +9 位作者 郭阳 刘仲 陈海燕 雷元武 孙海燕 杨乾明 陈小文 陈胜刚 刘必慰 鲁建壮 《计算机研究与发展》 EI CSCD 北大核心 2021年第6期1234-1237,共4页
高性能计算(high performance computing,HPC)是推动科学技术发展的基础性领域之一,当前,作为超级计算机系统“下一个明珠”的E级高性能计算时代已经来临.面向E级高性能计算的加速器领域成为了全球高端芯片的竞技场.国际上,AMD、英伟达... 高性能计算(high performance computing,HPC)是推动科学技术发展的基础性领域之一,当前,作为超级计算机系统“下一个明珠”的E级高性能计算时代已经来临.面向E级高性能计算的加速器领域成为了全球高端芯片的竞技场.国际上,AMD、英伟达和英特尔公司已经占据这一领域多年.作为国内最早开始自主处理器设计的优势单位之一,国防科技大学一直以来都是高性能加速器领域强有力的竞争者.主要对国防科技大学自主设计的面向E级高性能计算的加速器芯片进行介绍,该芯片采用了CPU+GPDSP的异构融合架构,具备高性能、高效能和高可编程性的特点,有望成为新一代E级超算系统的核心计算芯片. 展开更多
关键词 高性能计算 加速器 异构融合体系结构 自主设计 高效能
下载PDF
基于MPI+CUDA的异构并行可压缩流求解器 被引量:7
13
作者 刘枫 李桦 +1 位作者 田正雨 潘沙 《国防科技大学学报》 EI CAS CSCD 北大核心 2014年第1期6-10,共5页
在CPU/GPU异构体系结构计算集群上,建立了基于MPI+CUDA的异构并行可压缩流求解器。讨论了异构结构上的可压缩流并行算法的并行模式,在CPU上执行计算密集度低、指令复杂的计算任务,在GPU上执行计算密集度高、指令单一的计算任务。通过数... 在CPU/GPU异构体系结构计算集群上,建立了基于MPI+CUDA的异构并行可压缩流求解器。讨论了异构结构上的可压缩流并行算法的并行模式,在CPU上执行计算密集度低、指令复杂的计算任务,在GPU上执行计算密集度高、指令单一的计算任务。通过数个算例,对比了异构并行计算和传统CPU并行计算计算结果和计算效率。将该算法运用于高超声速流动的数值模拟中,数值结果显示,基于MPI+CUDA的异构并行可压缩流求解器鲁棒性好,计算效率较CPU同构并行计算提高10倍以上。 展开更多
关键词 消息传递接口 统一计算设备架构 异构计算 可压缩流
下载PDF
高性能网格并行计算 被引量:6
14
作者 张季平 曾国荪 吴豪 《计算机工程》 CAS CSCD 北大核心 2004年第1期1-3,19,共4页
对高性能计算的各种方式进行了分析和比较,并阐述了网格和元计算的关系。通 过对当前各种网格工程的透视,论述了网格体系结构和网格服务语义。探讨了网格的两个关 键特点:异构性和动态性及其解决方法。对于认识网格概念以及指明未来... 对高性能计算的各种方式进行了分析和比较,并阐述了网格和元计算的关系。通 过对当前各种网格工程的透视,论述了网格体系结构和网格服务语义。探讨了网格的两个关 键特点:异构性和动态性及其解决方法。对于认识网格概念以及指明未来高性能并行计算发 展方向有一定意义。 展开更多
关键词 网格 高性能计算 开放网格服务体系结构 异构性
下载PDF
一种流体系结构中软硬结合的异构核协同方法 被引量:2
15
作者 任巨 何义 +4 位作者 荀长庆 杨乾明 文梅 伍楠 张春元 《计算机学报》 EI CSCD 北大核心 2008年第11期2038-2046,共9页
在流体系结构中,标量核同流处理核是异构核,它们之间的协同是流处理器能够正确、高效运转的基础.文中针对异构核间所采用的软件协同方法性能低的问题,提出了一种软件和硬件相结合的异构核协同方法,并基于MASA-I流处理SOPC系统进行了实现... 在流体系结构中,标量核同流处理核是异构核,它们之间的协同是流处理器能够正确、高效运转的基础.文中针对异构核间所采用的软件协同方法性能低的问题,提出了一种软件和硬件相结合的异构核协同方法,并基于MASA-I流处理SOPC系统进行了实现.使用媒体和数字信号处理领域核心算法进行测试的结果表明,与软件协同方法相比,使用文中方法的协同性能有2个量级的提升,程序整体性能提高一倍. 展开更多
关键词 异构核 核间协同 软硬结合 流处理器 体系结构
下载PDF
一种基于DAG图的异构可重构任务划分方法 被引量:4
16
作者 郝水侠 曾国荪 谭一鸣 《同济大学学报(自然科学版)》 EI CAS CSCD 北大核心 2011年第11期1693-1698,共6页
为了实现高性能低功耗的计算,以任务划分为研究对象,提出了异构可重构计算的基本概念和形式化描述方法,给出了基于异构计算任务和异构可重构体系结构相结合的异构可重构两种任务划分方法:节点内部可重组及网络可重建的任务划分及算法,... 为了实现高性能低功耗的计算,以任务划分为研究对象,提出了异构可重构计算的基本概念和形式化描述方法,给出了基于异构计算任务和异构可重构体系结构相结合的异构可重构两种任务划分方法:节点内部可重组及网络可重建的任务划分及算法,最后验证了其任务划分方法的有效性. 展开更多
关键词 有向无环图(DAG) 异构计算任务 可重构体系结构 任务划分
下载PDF
相似驱动的细粒度并行任务重构算法 被引量:1
17
作者 郝水侠 曾国荪 +1 位作者 马小信 许金超 《计算机科学》 CSCD 北大核心 2013年第9期44-50,共7页
异构计算是高性能计算技术的发展趋势,计算任务与体系结构匹配成为异构计算亟待解决的问题。重构技术为实现两者匹配带来了契机,要么任务重构适应体系结构,要么体系结构重构适应任务。提出基于相似驱动的并行任务重构算法以实现异构计... 异构计算是高性能计算技术的发展趋势,计算任务与体系结构匹配成为异构计算亟待解决的问题。重构技术为实现两者匹配带来了契机,要么任务重构适应体系结构,要么体系结构重构适应任务。提出基于相似驱动的并行任务重构算法以实现异构计算匹配。通过给出任务和系统匹配度量机制定义了图重构操作和图重构基本问题。根据问题给出细粒度重构算法,该算法主要有3个过程:任务图节点对融合、节点和边重构及重构精化过程。用格林威治大学典型实例图作为并行任务及典型体系结构测试了该算法。实验表明它在给定的误差范围内能保证计算任务和体系结构匹配。 展开更多
关键词 并行任务 体系结构 异构计算 图相似 重构
下载PDF
基于线性异构无线传感器网络的协同可靠数据传输 被引量:1
18
作者 赵增华 李腾飞 +2 位作者 金泉 毛延超 石高涛 《计算机研究与发展》 EI CSCD 北大核心 2010年第S2期205-208,共4页
大量无线传感器应用具有线性网络拓扑结构.结合高压输电线路监控系统的层次型异构无线传感器网络架构,提出了骨干网和子网协作进行可靠数据传输,以解决线性拓扑结构的单点失效问题.设计了骨干网节点自适应功率调整机制和传感器节点自动... 大量无线传感器应用具有线性网络拓扑结构.结合高压输电线路监控系统的层次型异构无线传感器网络架构,提出了骨干网和子网协作进行可靠数据传输,以解决线性拓扑结构的单点失效问题.设计了骨干网节点自适应功率调整机制和传感器节点自动子网切换机制,并在含9个骨干网节点的实验床上实现和性能验证.实验结果表明所提可靠数据传输机制能解决单点失效问题,并能有效改善网络性能. 展开更多
关键词 计算机系统结构 无线传感器网络 可靠数据传输 线性异构网络
下载PDF
基于混合编程模型的支持向量机训练并行化 被引量:2
19
作者 李涛 刘学臣 +2 位作者 张帅 王恺 杨愚鲁 《计算机研究与发展》 EI CSCD 北大核心 2015年第5期1098-1108,共11页
支持向量机(support vector machine,SVM)是一种广泛应用于统计分类以及回归分析的监督学习方法.基于内点法(interior point method,IPM)的SVM训练具有空间占用小、迭代趋近快等优点,但随着训练数据集规模的增大,仍面临处理速度与存储... 支持向量机(support vector machine,SVM)是一种广泛应用于统计分类以及回归分析的监督学习方法.基于内点法(interior point method,IPM)的SVM训练具有空间占用小、迭代趋近快等优点,但随着训练数据集规模的增大,仍面临处理速度与存储空间所带来的双重挑战.针对此问题,提出利用CPU-GPU异构系统进行大规模SVM训练的混合并行机制.首先利用计算统一设备架构(compute unified device architecture,CUDA)对基于内点法的SVM训练算法的计算密集部分并行化,并改进算法使其适合利用cuBLAS线性代数库加以实现,提高训练速度;然后利用消息传递接口(message passing interface,MPI)在集群系统上实现CUDA加速后算法的分布并行化,利用分布存储有效地增加所处理数据集规模并减少训练时间;进而基于Fermi架构支持的页锁定内存技术,打破了GPU设备存储容量不足对数据集规模的限制.结果表明,利用消息传递接口(MPI)和CUDA混合编程模型以及页锁定内存数据存储策略,能够在CPU-GPU异构系统上实现大规模数据集的高效并行SVM训练,提升其在大数据处理领域的计算性能和应用能力. 展开更多
关键词 支持向量机训练 计算统一设备架构 消息传递接口 页锁定内存 CPU-GPU异构系统
下载PDF
基于国产X86处理器的异构计算平台构建及敏感数据保护 被引量:1
20
作者 曾志平 萧海东 张新鹏 《计算机科学》 CSCD 北大核心 2015年第B11期317-322,共6页
大数据时代对敏感数据的保护需求与日俱增,如何在安全可控的软硬件环境下进行大数据集处理成为一个研究热点。设计了一种基于安全可控国产X86处理器的大数据平台,利用AES(Advanced Encryption Standard)算法对海量敏感数据提供安全... 大数据时代对敏感数据的保护需求与日俱增,如何在安全可控的软硬件环境下进行大数据集处理成为一个研究热点。设计了一种基于安全可控国产X86处理器的大数据平台,利用AES(Advanced Encryption Standard)算法对海量敏感数据提供安全保障;并合理构建GPU畀构计算环境,充分提高国产大数据平台的分析计算效率,为海量数据的安全处理提供了全新的解决方案。实验结果表明,基于国产兆芯X86处理器的GPU异构计算平台能有效满足大数据集处理需求;通过改进异构计算环境下的AES算法提升了加密效率,并获得了22-23倍的加速比。当应对海量数据(GB级以上)时,国产异构计算平台的并行处理能力和加速效果非常明显。该研究结果对有海量敏感信息的大数据集处理和信息安全保护具有重要应用价值。 展开更多
关键词 国产CPU X86构架 大数据 AES算法 GPU 异构计算
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部