期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
集成众核上快速独立成分分析降维并行算法 被引量:5
1
作者 方民权 张卫民 周海芳 《计算机研究与发展》 EI CSCD 北大核心 2016年第5期1136-1146,共11页
高光谱遥感影像快速独立成分分析(fast independent component analysis,FastICA)降维过程包含大规模矩阵计算及大量迭代计算.通过热点分析,面向集成众核(many integrated core,MIC)架构设计了协方差矩阵计算、白化处理和ICA迭代等热点... 高光谱遥感影像快速独立成分分析(fast independent component analysis,FastICA)降维过程包含大规模矩阵计算及大量迭代计算.通过热点分析,面向集成众核(many integrated core,MIC)架构设计了协方差矩阵计算、白化处理和ICA迭代等热点并行方案,提出和实现一种M-FastICA并行降维算法,并构建算法性能模型;基于集成众核研究并行程序优化策略,针对各热点并行方案提出一系列优化策略,特别是创新性地提出一种下三角阵负载均衡方法,并量化测试其优化效果.实验结果显示M-FastICA算法最高可加速42倍,比24核CPU多线程并行快2.2倍;探讨了波段数与并行程序性能的关系;实验数据验证了算法性能模型的准确性. 展开更多
关键词 集成众核 独立成分分析 高光谱影像降维 性能模型 下三角阵负载均衡
下载PDF
Intel多核与集成众核上CFD程序的OpenMP性能分析 被引量:2
2
作者 车永刚 张理论 +2 位作者 王勇献 徐传福 程兴华 《计算机科学与探索》 CSCD 北大核心 2015年第10期1153-1162,共10页
多核与众核已成为当前主流的高性能计算体系结构,Open MP编程是开发其并行计算能力的主要手段之一。针对一个实际高阶精度结构网格CFD(computational fluids dynamics)应用程序,采用基于硬件计数器的性能测试和模型分析的方法,系统地研... 多核与众核已成为当前主流的高性能计算体系结构,Open MP编程是开发其并行计算能力的主要手段之一。针对一个实际高阶精度结构网格CFD(computational fluids dynamics)应用程序,采用基于硬件计数器的性能测试和模型分析的方法,系统地研究了其在Intel Xeon E5 Sandy Bridge多核处理器和Intel Knights Corner集成众核协处理器上的Open MP性能。重点分析了Open MP库开销、线程负载均衡性、主存访问带宽对性能的影响,发现因Open MP并行引入的冗余计算对并行效率影响很小,但串行计算部分和负载不均衡性对并行效率影响大,主存访问带宽对浮点性能的影响大。还比较了该程序两种体系结构上的性能差异,讨论了性能进一步优化的方向。 展开更多
关键词 集成众核 CFD应用程序 OPEN MP 性能分析
下载PDF
基于集成众核的3D蒙特卡罗半导体器件模拟器
3
作者 方民权 张卫民 +3 位作者 张理论 曾琅 刘晓彦 尹龙祥 《计算机工程与科学》 CSCD 北大核心 2015年第4期621-627,共7页
3D蒙特卡罗器件模拟计算量大,计算量随网格与粒子数增加而急剧增加。通过分析3D蒙卡模拟加速热点和进一步可并行性,研究有效电势方法的集成众核并行方案;研究粒子自由飞行、统计模拟信息、计算表面粗糙散射等热点并行方案,最终实现基于C... 3D蒙特卡罗器件模拟计算量大,计算量随网格与粒子数增加而急剧增加。通过分析3D蒙卡模拟加速热点和进一步可并行性,研究有效电势方法的集成众核并行方案;研究粒子自由飞行、统计模拟信息、计算表面粗糙散射等热点并行方案,最终实现基于CPU/MIC的三级并行3D蒙特卡罗器件模拟软件。实验结果显示,三级并行比单级并行获得更好的性能;当提高模拟精度时,相比单级并行,三级并行蒙特卡罗模拟加速比增加。 展开更多
关键词 蒙特卡罗 半导体器件模拟 集成众核 有效电势方法 粒子自由飞行
下载PDF
集成众核平台下CombLec88的并行化
4
作者 宋博文 张保东 周晓辉 《计算机工程与设计》 北大核心 2016年第2期433-437,共5页
针对随机数产生器CombLec88相对于传统的线性同余产生器LCG(linear congruential generator)运行速度较慢的情况,在研究CombLec88串行算法的基础上,利用"Simple skip ahead"算法并行化理论,提出一种基于Intel MIC(many integr... 针对随机数产生器CombLec88相对于传统的线性同余产生器LCG(linear congruential generator)运行速度较慢的情况,在研究CombLec88串行算法的基础上,利用"Simple skip ahead"算法并行化理论,提出一种基于Intel MIC(many integrated core)众核平台的CombLec88并行化方案。割分一个周期内的原始随机数序列,汇总各个线程产生的随机数,产生所需随机序列。实验结果表明,该方案能够通过TestU01的454项测试,与串行程序相同,移植到Intel MIC平台后性能良好,相对CPU单线程的最优加速比为16.004。 展开更多
关键词 随机数产生器 并行化 CombLec88 集成众核 TestU01
下载PDF
基于JNI和C++的Intel集成众核并行方法
5
作者 桑喆 邓川 +2 位作者 苟聪 刘开兴 白明泽 《计算机与现代化》 2018年第4期32-36,55,共6页
针对当前Intel集成众核协处理器(MIC)只能使用C/C++/Fortran编程语言进行并行计算,不能对已有的Java程序提供高性能计算支持的问题,提出基于Java Native Interface(JNI)技术和C++的MIC混合并行计算方法。该方法基于JNI设计Java代码与C+... 针对当前Intel集成众核协处理器(MIC)只能使用C/C++/Fortran编程语言进行并行计算,不能对已有的Java程序提供高性能计算支持的问题,提出基于Java Native Interface(JNI)技术和C++的MIC混合并行计算方法。该方法基于JNI设计Java代码与C++代码的数据交换机制,使MIC协处理器强大的浮点计算能力加速Java应用程序成为可能。通过实验测试分析基于MIC多线程并行的Java程序计算性能效果,结果表明该方法能有效利用MIC协处理器,对Java程序的计算性能提升显著。 展开更多
关键词 集成众核 并行计算 JAVA NATIVE interface
下载PDF
有限元网格积分算法在MIC众核平台上的并行实现
6
作者 寇大治 孔大力 《计算机科学》 CSCD 北大核心 2015年第11期56-58,62,共4页
基于英特尔集成众核(Many Integrated Core,MIC)架构,将有限元网格积分算法在至强融核(Xeon Phi)协处理器做了移植和性能分析。该应用全面测试了有限元分析的核心计算过程在MIC上的加速效果,实现了卸载模式(offload)[1]下利用OpenMP在MI... 基于英特尔集成众核(Many Integrated Core,MIC)架构,将有限元网格积分算法在至强融核(Xeon Phi)协处理器做了移植和性能分析。该应用全面测试了有限元分析的核心计算过程在MIC上的加速效果,实现了卸载模式(offload)[1]下利用OpenMP在MIC上的线程并行化。计算性能测试结果显示集成众核平台可以有效地加速有限元网格积分算法:1)一块被充分利用的MIC设备卡(3115A)的计算能力超过两路16核Intel XeonTM E5-2670CPU;2)MIC并发的物理线程可能由于公共缓存访问存在竞争而降低程序的扩展性。测试结果还显示了在多CPU多MIC平台上进一步移植完整的MPI并行有限元模拟软件的可行性。这项工作有助于推动与有限元网格相关的科学和工程高性能计算的研究。 展开更多
关键词 集成众核 卸载模式 并行 多线程 有限元
下载PDF
基于众核平台的CLCG并行化设计与实现
7
作者 杨杰 宋博文 +1 位作者 张保东 周晓辉 《西安邮电大学学报》 2015年第4期66-69,73,共5页
针对组合式线性同余产生器,在众核平台上给出一种并行化设计。该设计依据组合式线性同余产生器串行算法原理,将组合式线性同余产生器周期内的随机数序列进行分块产生,每个线程独立产生一段周期内的随机数子序列,从而进行并行化处理。实... 针对组合式线性同余产生器,在众核平台上给出一种并行化设计。该设计依据组合式线性同余产生器串行算法原理,将组合式线性同余产生器周期内的随机数序列进行分块产生,每个线程独立产生一段周期内的随机数子序列,从而进行并行化处理。实验结果表明,该设计能够通过TestU01的452项测试,移植到Intel MIC平台后性能良好,产生10 000 000 000个随机数的时间相对CPU单线程的最优加速比为14.61。 展开更多
关键词 随机数产生器 并行化 组合式线性同余产生器 集成众核 TestU01
下载PDF
面向CPU/MIC异构架构的K-Means向量化算法 被引量:4
8
作者 谭郁松 伍复慧 +2 位作者 吴庆波 陈微 孙晓利 《计算机科学与探索》 CSCD 2014年第6期641-652,共12页
在大数据背景下,以K-Means为代表的聚类分析对于数据分析和挖掘十分重要。海量高维数据的处理给K-Means算法带来了性能方面的强烈需求。最新提出的众核体系结构MIC(many integrated core)能够为算法加速提供众核间线程级和核内指令级并... 在大数据背景下,以K-Means为代表的聚类分析对于数据分析和挖掘十分重要。海量高维数据的处理给K-Means算法带来了性能方面的强烈需求。最新提出的众核体系结构MIC(many integrated core)能够为算法加速提供众核间线程级和核内指令级并行,使其成为K-Means算法加速的很好选择。在分析K-Means基本算法特点的基础上,分析了K-Means算法的瓶颈,提出了可利用数据并行的K-Means向量化算法,优化了向量化算法的数据布局方案。最后,基于CPU/MIC的异构架构实现了向量化K-Means算法,并且探索了MIC在非传统HPC(high performance computing)应用领域的优化策略。测试结果表明,K-Means向量化算法具有良好的计算性能和扩展性。 展开更多
关键词 向量优化 集成众核(MIC) 异构 MANY integrated CORE (MIC)
下载PDF
基于OpenMP4.0的发动机燃烧模拟软件异构并行优化 被引量:2
9
作者 杨梅芳 车永刚 高翔 《计算机研究与发展》 EI CSCD 北大核心 2018年第2期400-408,共9页
LESAP是一个超燃冲压发动机燃烧数值模拟软件,可模拟发动机燃烧室内的燃烧化学反应与超声速流动,具有实际工程应用价值,其计算量巨大.面向通用CPU与Intel集成众核协处理器(many integrated core,MIC)构成的新型异构众核平台,使用新的Ope... LESAP是一个超燃冲压发动机燃烧数值模拟软件,可模拟发动机燃烧室内的燃烧化学反应与超声速流动,具有实际工程应用价值,其计算量巨大.面向通用CPU与Intel集成众核协处理器(many integrated core,MIC)构成的新型异构众核平台,使用新的OpenMP 4.0编程标准,实现了LESAP软件面向异构并行平台的移植,并采用SIMD向量化、数据传输优化、基于网格块划分的负载均衡等技术进行了性能优化.性能测试结果表明异构版本比纯CPU版本性能更佳.在天河二号超级计算机的1个结点(含2个12核的Intel Xeon E5-2692CPU加3块Intel Xeon Phi 31S1P协处理器)上,对一个实际超燃发动机燃烧数值模拟问题,网格规模为532万单元时,每时间步的平均执行时间从原来纯CPU版的64.72s减少到21.06s,性能加速比达到约3.07. 展开更多
关键词 发动机燃烧数值模拟 异构平台 Intel集成众核 OpenMP4.0 性能优化
下载PDF
MIC异构直线加速器束流动力学模拟并行软件开发
10
作者 董晓彤 杜克伟 +1 位作者 赵瑞峰 徐进 《计算机系统应用》 2016年第9期124-130,共7页
现代高能物理研究需要使用高能量的粒子加速器,加速器束流动力学模拟软件具有重要的实用意义.介绍了一个3维基于MIC的异构直线加速器并行束流动力学模拟软件NEWBEAM-MIC的开发进展.目的是使用最新的超级异构计算机提高束流动力学模拟软... 现代高能物理研究需要使用高能量的粒子加速器,加速器束流动力学模拟软件具有重要的实用意义.介绍了一个3维基于MIC的异构直线加速器并行束流动力学模拟软件NEWBEAM-MIC的开发进展.目的是使用最新的超级异构计算机提高束流动力学模拟软件的性能,更好地完成加速器的设计和优化工作.这个软件模拟了DTL和SOLENOID加速器装置中粒子的运动过程.NEWBEAM-MIC是在NEWBEAM-CPU软件基础上,将粒子推进部分分配到MIC卡上运行,从而利用MIC多线程的优势使计算加速的.通过实际测试,这个软件在天河二号上使用100 CPUs和100 MICs可以模拟109个粒子,其中DTL场力计算、SOLENOID场力计算和粒子推进三个部分均可以比仅使用100 CPUs的NEWBEAM软件有100倍以上的加速效果.再考虑MIC卡上的多线程,对同样规模的粒子,使用100 CPUs和100 MICs,当MIC线程数开到最大(224)时,NEWBEAM-MIC可以比单线程串行计算方式加速10000倍以上.这表明本文开发的基于MIC的异构软件可以很好地加速原有的CPU软件,发挥现有MIC异构超级计算机的潜在性能. 展开更多
关键词 粒子追踪 异构并行计算 直线加速器 集成众核 FFTW
下载PDF
CPU-MIC异构并行架构下基于大规模频繁子图挖掘的药物发现算法 被引量:2
11
作者 彭绍亮 牛琦 +1 位作者 李肯立 邹权 《大数据》 2019年第2期89-103,共15页
频繁子图挖掘是许多实际应用领域中需要解决的重要问题,由于计算密集性、挖掘的图集及其结果容量大,现有的频繁子图挖掘方案无法满足时间需求,其处理效率是目前面临的主要挑战。原创性地提出了并行加速的频繁子图挖掘工具cmFSM。cmFSM... 频繁子图挖掘是许多实际应用领域中需要解决的重要问题,由于计算密集性、挖掘的图集及其结果容量大,现有的频繁子图挖掘方案无法满足时间需求,其处理效率是目前面临的主要挑战。原创性地提出了并行加速的频繁子图挖掘工具cmFSM。cmFSM主要在3个层次上进行并行优化:单节点上的细粒度OpenMP并行化、多节点多进程并行化和CPU-MIC协作并行化。在单节点上cmFSM的处理速度比基于CPU的最佳算法快一倍,在多节点方案中cmFSM提供可扩展性。结果表明,即使只使用一些并行计算资源,cmFSM也明显优于现有的最先进的算法。这充分表明提出的工具在生物信息学领域的有效性。 展开更多
关键词 频繁子图挖掘 生物信息学 并行算法 内存约束 同构 集成众核
下载PDF
一种面向高性能计算的MIC内存扩展方案
12
作者 余世干 李鹏鹏 《西安文理学院学报(自然科学版)》 2017年第5期37-41,70,共6页
大数据处理已经成为数据中心和高性能计算领域的重要趋势,MIC(Many Integrated Core,众核集成架构)以其出色的数据处理能力,为高性能计算做出了突出贡献,但受限于自身内存容量限制,MIC无法处理对内存需求较大的应用.因此,本研究利用Linu... 大数据处理已经成为数据中心和高性能计算领域的重要趋势,MIC(Many Integrated Core,众核集成架构)以其出色的数据处理能力,为高性能计算做出了突出贡献,但受限于自身内存容量限制,MIC无法处理对内存需求较大的应用.因此,本研究利用Linux系统,设计了一种基于SWAP机制扩展MIC内存的方案,即在Host上预留一块内存,并借助SWAP机制定期将MIC上的有用的页换入到该预留内存上,实现对MIC内存的扩充.最后,通过对方案进行测试,说明了该内存扩展方案的可行性. 展开更多
关键词 高性能计算 集成架构 Swap分区
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部