期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
共轭梯度法在GPU及Xeon Phi下的并行优化及比较 被引量:1
1
作者 黄敏 丁萍 罗海飚 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2015年第11期35-46,53,共13页
为了充分利用多核处理器的强大计算能力并满足具有高并行度应用的需求,提出一种基于大规模稀疏矩阵特征问题求解的并行共轭梯度算法.对图形处理器(GPU)上的计算,有效利用GPU多层次的存储器体系,采用线程与矩阵映射、数据合并访问、数据... 为了充分利用多核处理器的强大计算能力并满足具有高并行度应用的需求,提出一种基于大规模稀疏矩阵特征问题求解的并行共轭梯度算法.对图形处理器(GPU)上的计算,有效利用GPU多层次的存储器体系,采用线程与矩阵映射、数据合并访问、数据复用等优化手段,并通过高效的线程调度来隐藏全局存储器的高延迟访问;对Xeon Phi处理器上的计算,有效利用Xeon Phi的高并行度计算对数据通信/传递、减少数据依赖、向量化、异步计算等进行优化,并通过高效的线程调度来隐藏全局存储器的高延迟访问.文中还通过实验验证了算法的可行性和正确性,并对比了不同方式下的运行效率,发现共轭梯度法在GPU下比在Xeon Phi下的加速效果更好. 展开更多
关键词 共轭梯度法 图形处理器 xeon phi 并行优化 稀疏矩阵向量乘
下载PDF
基于Xeon Phi平台的波动方程叠前深度偏移
2
作者 杨祥森 金君 +2 位作者 王鹏 马召贵 亢永敢 《计算机工程与科学》 CSCD 北大核心 2015年第5期907-913,共7页
波动方程叠前深度偏移适用于强横向变速介质,是一种高精度成像方法,但其巨大的计算量阻碍了该技术的应用。Xeon Phi是一种全新的高性能计算设备,为波动方程叠前深度偏移方法的推广应用提供了新的技术支持。以裂步傅里叶算子为例,介绍了... 波动方程叠前深度偏移适用于强横向变速介质,是一种高精度成像方法,但其巨大的计算量阻碍了该技术的应用。Xeon Phi是一种全新的高性能计算设备,为波动方程叠前深度偏移方法的推广应用提供了新的技术支持。以裂步傅里叶算子为例,介绍了面向Xeon Phi平台的偏移算法移植和优化方法,即采用offload模式将计算核函数加载到Xeon Phi设备上,在Xeon Phi协处理器上采用多线程方式,并且调整程序结构,充分利用SIMD矢量引擎提高向量化处理效率。扩展负载动态均衡的并行框架,形成了一套适用于大规模异构系统、基于Xeon Phi平台的波动方程叠前深度偏移软件。实际数据测试表明Xeon Phi平台可以极大地提高地震偏移处理效率,具有良好的可扩展性。 展开更多
关键词 xeon phi平台 波动方程叠前深度偏移 裂步傅里叶算子 并行框架 offload模式
下载PDF
基于Intel Xeon Phi的稀疏矩阵向量乘性能优化 被引量:1
3
作者 张爱民 安虹 +3 位作者 姚文军 梁伟浩 江霞 李丰 《小型微型计算机系统》 CSCD 北大核心 2016年第4期818-823,共6页
稀疏矩阵向量乘(Sp MV)是线性求解系统等科学计算中重要的计算核心.鉴于传统的稀疏矩阵向量乘算法在Intel Xeon Phi众核集成架构上存在SIM D利用率低,不规则访存开销高及负载不均衡的问题,难以发挥其运算能力.本文针对Intel Xeon Phi的... 稀疏矩阵向量乘(Sp MV)是线性求解系统等科学计算中重要的计算核心.鉴于传统的稀疏矩阵向量乘算法在Intel Xeon Phi众核集成架构上存在SIM D利用率低,不规则访存开销高及负载不均衡的问题,难以发挥其运算能力.本文针对Intel Xeon Phi的体系结构特点,提出了一种通用的分块压缩存储表示的稀疏矩阵向量乘并行算法:(1)在ELLPACK存储格式基础上按列分块及压缩矩阵,增加非零元的密度,提高SIMD利用率;(2)通过精心的数据重排,保留矩阵非零元本身的局部性,从而提高数据重用率,降低访存开销;(3)将矩阵压缩后划分成近似等大的矩阵块并静态等量分配到不同核上计算,使各核负载均衡.实验结果表明,与Intel Xeon Phi上已有的MKL数学库中的CSR算法相比,本算法获得了更高的计算访存比,性能比M KL的CSR算法平均快2.05倍. 展开更多
关键词 稀疏矩阵向量乘 数据布局重组 INTEL xeon phi 分块压缩存储
下载PDF
Xeon Phi平台上基于模板优化的3D GVF场计算加速 被引量:1
4
作者 齐金 李宽 +1 位作者 杨灿群 杜云飞 《计算机工程与科学》 CSCD 北大核心 2014年第8期1435-1440,共6页
3D梯度向量流场(3DGVF field)广泛应用于多种3D图像分析算法中,其计算需要多次迭代,计算量大,如何提高其计算速度具有重要的研究意义。面向Intel Xeon Phi众核集成架构,首次进行了3DGVF场计算的加速优化。首先,挖掘3D图像像素点间存在... 3D梯度向量流场(3DGVF field)广泛应用于多种3D图像分析算法中,其计算需要多次迭代,计算量大,如何提高其计算速度具有重要的研究意义。面向Intel Xeon Phi众核集成架构,首次进行了3DGVF场计算的加速优化。首先,挖掘3D图像像素点间存在的天然并行性,发挥众核架构优势,尝试线程级并行(多核)和数据级并行(SIMD)。其次,3DGVF场的计算过程是一种典型的3D-7点模板运算,结合Xeon Phi架构的L2缓存规格,提出一种高效的数据分块策略,充分挖掘数据的时/空局部性,有效缓解模板计算引起的缓存缺失,提升了计算性能。实验结果表明,引入模板优化技术能显著提升3D GVF场的计算速度,在图像维度为5123时,所提方法在57核Xeon Phi平台上的性能相比在2.6GHz 8核16线程的Intel Xeon E5-2670CPU上的性能,加速比可达2.77。 展开更多
关键词 3D梯度向量流场 xeon phi 模板优化 缓存分块
下载PDF
基于Intel Xeon Phi的激光等离子体粒子模拟研究 被引量:1
5
作者 姚文科 杜云飞 +1 位作者 吴强 杨灿群 《计算机工程与科学》 CSCD 北大核心 2014年第5期809-813,共5页
激光等离子体粒子模拟广泛用于探索极端物质状态下的科学问题。将一种基于粒子云网格方法的三维等离子体粒子模拟程序LARED-P移植到Intel Xeon Phi协处理器上。在移植的过程中,综合运用了Native和Offload两种编程模式:首先运用Native模... 激光等离子体粒子模拟广泛用于探索极端物质状态下的科学问题。将一种基于粒子云网格方法的三维等离子体粒子模拟程序LARED-P移植到Intel Xeon Phi协处理器上。在移植的过程中,综合运用了Native和Offload两种编程模式:首先运用Native模式对LARED-P程序中热点计算任务进行优化研究,通过采用SIMD扩展指令使该计算任务获得了4.61倍的加速;然后运用Offload模式将程序移植到CPU-Intel Xeon Phi异构系统上,并通过使用异步数据传输和双缓冲技术分别提升了程序性能9.8%和21.8%。 展开更多
关键词 LARED-P INTEL xeon phi Native模式 Offload模式 512位SIMD扩展指令 异步数据传输 双缓冲
下载PDF
自洽场方法在Xeon Phi上的并行实现 被引量:1
6
作者 万波 魏帆 金钟 《科研信息化技术与应用》 2014年第2期34-42,共9页
量子化学中,随着分子体系或所用基组的增大,计算量将显著增长。如何提高量子化学计算中的计算效率一直是研究的热点。随着计算机科学的发展,发挥计算机的多核优势提高量子化学的计算效率成为当前量子化学软件的通用方法。本文实现了自... 量子化学中,随着分子体系或所用基组的增大,计算量将显著增长。如何提高量子化学计算中的计算效率一直是研究的热点。随着计算机科学的发展,发挥计算机的多核优势提高量子化学的计算效率成为当前量子化学软件的通用方法。本文实现了自洽场方法 (Self-Consistent Field method,SCF)的单点能计算的OpenMP并行,并探索实现了在Intel Xeon Phi协处理器上的OpenMP并行方法。 展开更多
关键词 量子化学 SCF 单点能 OPENMP xeon phi 并行
原文传递
PhiBench 2.0: characterizing data analytics workloads on Intel Knights Landing
7
作者 Xie Biwei Zhan Jianfeng +1 位作者 Wang Lei Zhang Lixin 《High Technology Letters》 EI CAS 2019年第2期121-128,共8页
With high computational capacity, e.g. many-core and wide floating point SIMD units, Intel Xeon Phi shows promising prospect to accelerate high-performance computing(HPC) applications. But the application of Intel Xeo... With high computational capacity, e.g. many-core and wide floating point SIMD units, Intel Xeon Phi shows promising prospect to accelerate high-performance computing(HPC) applications. But the application of Intel Xeon Phi on data analytics workloads in data center is still an open question. Phibench 2.0 is built for the latest generation of Intel Xeon Phi(KNL, Knights Landing), based on the prior work PhiBench(also named BigDataBench-Phi), which is designed for the former generation of Intel Xeon Phi(KNC, Knights Corner). Workloads of PhiBench 2.0 are delicately chosen based on BigdataBench 4.0 and PhiBench 1.0. Other than that, these workloads are well optimized on KNL, and run on real-world datasets to evaluate their performance and scalability. Further, the microarchitecture-level characteristics including CPI, cache behavior, vectorization intensity, and branch prediction efficiency are analyzed and the impact of affinity and scheduling policy on performance are investigated. It is believed that the observations would help other researchers working on Intel Xeon Phi and data analytics workloads. 展开更多
关键词 Intel xeon phi data analytics workloads characterization Knights Landing(KNL) many core x86 processors
下载PDF
利用Stencil建模及评估Intel IMCI vgather指令 被引量:1
8
作者 林新华 王一超 +3 位作者 秦强 李硕 文敏华 松岡聡 《计算机工程与科学》 CSCD 北大核心 2016年第9期1741-1747,共7页
Intel Xeon Phi协处理器的指令集IMCI引入了硬件实现的vgather指令,旨在帮助512位SIMD寄存器访问非连续内存地址上的数据。然而实验结果显示,vgather很有可能成为应用在Xeon Phi协处理器上关键的性能瓶颈之一。基于以上结论,针对vgathe... Intel Xeon Phi协处理器的指令集IMCI引入了硬件实现的vgather指令,旨在帮助512位SIMD寄存器访问非连续内存地址上的数据。然而实验结果显示,vgather很有可能成为应用在Xeon Phi协处理器上关键的性能瓶颈之一。基于以上结论,针对vgather的性能建模可以帮助用户深入地掌握和理解Xeon Phi协处理器的性能特性。在实验方法上,本文方法与现存的通过程序段内嵌入汇编代码进行数据统计不同,使用PAPI等性能分析工具直接收集硬件计数器的统计结果,作为模型的实验数据。本文的性能模型基于AGI事件次数和根据VPU_DATA_READ次数估算得出的vgather所导致的平均延迟构建而成。该模型能够对Xeon Phi应用代码中由vgather所导致的总延迟进行预测。最终,为了验证模型预测的准确性,将该模型应用在三维7点stencil应用代码上,预测结果显示,vgather耗时占计算总耗时的约40%。再将该结果与利用intrinsics指令去除vgather后的计算耗时进行了对比验证,结果显示模型预测准确。基于上述结论,采用硬件计数器的统计结果在Xeon Phi协处理器上针对vgather构建了性能模型。同时,通过与其他平台的vgather对比,认为该模型也可以应用在同样具备vgather的Intel CPU处理器平台上。 展开更多
关键词 性能建模 vgather xeon phi 硬件计数器
下载PDF
A case study of 3D RTM-TTI algorithm on multicore and many-core platforms
9
作者 张秀霞 Tan Guangming +1 位作者 Chen Mingyu Yao Erlin 《High Technology Letters》 EI CAS 2017年第2期185-190,共6页
3D reverse time migration in tiled transversly isotropic(3D RTM-TTI) is the most precise model for complex seismic imaging.However,vast computing time of 3D RTM-TTI prevents it from being widely used,which is addresse... 3D reverse time migration in tiled transversly isotropic(3D RTM-TTI) is the most precise model for complex seismic imaging.However,vast computing time of 3D RTM-TTI prevents it from being widely used,which is addressed by providing parallel solutions for 3D RTM-TTI on multicores and many-cores.After data parallelism and memory optimization,the hot spot function of 3D RTMTTI gains 35.99 X speedup on two Intel Xeon CPUs,89.75 X speedup on one Intel Xeon Phi,89.92 X speedup on one NVIDIA K20 GPU compared with serial CPU baseline.This study makes RTM-TTI practical in industry.Since the computation pattern in RTM is stencil,the approaches also benefit a wide range of stencil-based applications. 展开更多
关键词 3D RTM-TTI Intel xeon phi NVIDIA K20 GPU stencil computing manycore MULTICORE seismic imaging
下载PDF
面向CPU+MIC混合异构平台的地震波叠前时间偏移算法并行与优化策略 被引量:1
10
作者 熊敏 王勇献 《计算机工程与科学》 CSCD 北大核心 2015年第1期14-22,共9页
地震波的叠前时间偏移算法是构造复杂岩层成像最有效的方法之一。地震勘探进入海量数据时代,且叠前偏移算法是数据处理中最费时的环节,对叠前偏移算法做并行计算优化有着重要的研究意义。近年来,高性能并行计算开始进入异构、众核时代,... 地震波的叠前时间偏移算法是构造复杂岩层成像最有效的方法之一。地震勘探进入海量数据时代,且叠前偏移算法是数据处理中最费时的环节,对叠前偏移算法做并行计算优化有着重要的研究意义。近年来,高性能并行计算开始进入异构、众核时代,以Intel新一代至强融核MIC(Xeon Phi)为例,新型众核处理器具有成本低、性能高等特点。从最经典的Kirchhoff叠前时间偏移(PKTM)算法出发,基于CPU+MIC异构平台,采用offload编程模式实现对PKTM算法的并行移植与性能优化,对于6 000万规模(8 000×8 000)的应用问题,总的并行模拟时间从357.52s减少到1.66s,性能提升了214.37倍。 展开更多
关键词 协同并行 Intel至强融核 异构并行 KIRCHHOFF叠前时间偏移 性能优化
下载PDF
Java虚拟机在Intel众核架构下的动态数据预取研究与优化 被引量:2
11
作者 余炀 臧斌宇 《小型微型计算机系统》 CSCD 北大核心 2016年第11期2391-2396,共6页
Intel Xeon Phi协处理器作为现阶段极具代表性的众核产品之一,为应用程序提供了强大的硬件环境和计算资源.然而,Xeon Phi所采用的内存设计存在高访问延迟的问题,因此非常依赖于缓存数据预取技术以提升访存性能.而Java作为一门具有自动... Intel Xeon Phi协处理器作为现阶段极具代表性的众核产品之一,为应用程序提供了强大的硬件环境和计算资源.然而,Xeon Phi所采用的内存设计存在高访问延迟的问题,因此非常依赖于缓存数据预取技术以提升访存性能.而Java作为一门具有自动内存管理且被广泛使用的语言,现有设计并未针对于Xeon Phi架构采取访存相关的优化.本文详细地研究了Xeon Phi上的缓存预取机制,并在Hot Spot虚拟机内部设计实现了一套动态的运行时缓存预取解决方案,该方案相比传统的静态方法和现有动态预取方案更适合于Xeon Phi众核架构及Java动态语言环境.本文通过实验表明,该动态预取方案在Xeon Phi众核平台上可以带来平均2.5倍的单线程加速比以及40%的多线程最优性能提升. 展开更多
关键词 xeon phi众核架构 JAVA虚拟机 数据预取
下载PDF
基于矩阵转置优化的Intel KNL特性分析 被引量:2
12
作者 王琦 韩林 +2 位作者 高雨辰 李颖颖 王曦 《计算机工程与设计》 北大核心 2018年第5期1358-1364,1371,共8页
矩阵转置访存密集,便于并行优化,因此优化矩阵转置程序,旨在分析Knights Landing平台新特性。分析矩阵转置程序特性,按照矩阵一行元素个数,将矩阵分为3类;利用KNL平台提供的AVX-512扩展指令集对其进行向量化优化以及数据预取,利用OpenM... 矩阵转置访存密集,便于并行优化,因此优化矩阵转置程序,旨在分析Knights Landing平台新特性。分析矩阵转置程序特性,按照矩阵一行元素个数,将矩阵分为3类;利用KNL平台提供的AVX-512扩展指令集对其进行向量化优化以及数据预取,利用OpenMP实现两种不同粒度的并行优化;利用矩阵转置程序,通过实验数据对比,分析KNL平台优化程序的特点及其不同模式的不同特性。 展开更多
关键词 矩阵转置 英特尔第二代至强融合处理器 并行优化 高带宽内存 集群模式
下载PDF
Intel第二代MIC架构处理器特性分析
13
作者 王冬 赵荣彩 王琦 《信息工程大学学报》 2019年第6期720-726,共7页
2016年6月Intel推出第二代集成众核架构的至强融核处理器(KNL)。相比第一代融核协处理器(KNC),KNL的新特性包括以下4个方面:①提供独立自启动形态,避免KNC依赖于PCI-E进行数据传输的主从结构;②提供宽度为512 bit的向量寄存器,能够一次... 2016年6月Intel推出第二代集成众核架构的至强融核处理器(KNL)。相比第一代融核协处理器(KNC),KNL的新特性包括以下4个方面:①提供独立自启动形态,避免KNC依赖于PCI-E进行数据传输的主从结构;②提供宽度为512 bit的向量寄存器,能够一次实现16个单精度或8个双精度浮点数据的处理;③在处理器上集成高带宽内存,缓解内存访问瓶颈;④提供多种集群模式,根据程序特征对融核处理器进行划分,改善数据局部性。首先对第二代融核处理器KNL的新特性进行研究,然后利用扩展性好的典型科学计算程序对KNL的新特性进行测试分析,实验结果表明,新特性增强了KNL的并行计算能力,最后总结利用KNL进行并行优化的方法。 展开更多
关键词 至强融核 高带宽内存 集群模式 并行优化
下载PDF
基于CPU-MIC异构众核环境的行星流体动力学数值模拟 被引量:1
14
作者 吴长茂 杨超 +3 位作者 尹亮 刘芳芳 孙乔 李力刚 《数值计算与计算机应用》 2017年第3期197-214,共18页
数值模拟是行星流体动力学研究的主要工具.本文介绍CPU-MIC异构众核平台的行星流体动力学数值模拟,计算并模拟地球外核的磁流体运动.本文在已有工作的基础上^([1-3]),添加了CPU-MIC异构众核环境的数值模拟支持.首先描述了CPU-MIC异构众... 数值模拟是行星流体动力学研究的主要工具.本文介绍CPU-MIC异构众核平台的行星流体动力学数值模拟,计算并模拟地球外核的磁流体运动.本文在已有工作的基础上^([1-3]),添加了CPU-MIC异构众核环境的数值模拟支持.首先描述了CPU-MIC异构众核环境的上的数值模拟流程,然后给出了MIC上的分布式并行GMRES(m)众核解法器的实现算法.其次,实现了解法器的计算核心稀疏矩阵向量乘(SpMV)在MIC上的分布式并行算法,该SpMV实现了计算-通信重叠、数据传输-计算重叠.再次,为加速行星流体动力学方程收敛,给出了MIC上以SpMV为基本操作的分布式并行多项式预条件子.最后,提出了一些MIC众核平台的优化措施,如多线程、流存储和数据传输优化等.天河2号数值模拟表明相比CPU版的数值模拟,CPU-MIC异构众核环境下数值模拟在单MIC卡和64块MIC卡分别取得了6.93和6.0倍的加速比. 展开更多
关键词 行星流体动力学 解法器 并行计算 众核加速 GMRES 性能优化
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部