-
题名程序向量化中非规则访存问题研究
被引量:2
- 1
-
-
作者
徐金龙
赵荣彩
刘鹏
李晓亮
-
机构
数学工程与先进计算国家重点实验室
解放军
-
出处
《计算机工程》
CAS
CSCD
北大核心
2015年第12期86-90,共5页
-
基金
国家"863"计划基金资助项目(2009AA01220)
"核高基"重大专项(2009zx10036-001-001)
-
文摘
现有的程序向量化方法通常仅支持连续访存模式,而不支持非连续的内存访问。为实现更多程序的向量并行,提出一种向量化非规则访存处理方法。对访存特征进行检测分类,针对不同特征给出对应的向量化方案,同时设计收益分析方法,以保证向量化的有效性。实验结果表明,该方法可有效提高向量化能力,实现复杂访存形式的程序向量化。
-
关键词
非连续访存
向量化
访存特征
数据重组
数组访存
-
Keywords
non-contiguous memory access
vectorization
memory access feature
data reorganization
array memory access
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名GRAPES_CUACE大气化学耦合模式并行优化
被引量:1
- 2
-
-
作者
叶跃进
陈德训
胡江凯
马欣
张小曳
-
机构
江南计算技术研究所
中国气象局数值预报中心
中国气象科学研究院
-
出处
《计算机科学》
CSCD
北大核心
2019年第S11期528-534,共7页
-
基金
国家重点研发计划(2016YFC0203300)
国家重大专项基金(2016YFA0602202,2017YFB0202603)资助
-
文摘
文中主要介绍了数值天气预报模式GRAPES_MESO(4.0版本)与大气化学模式CUACE在线耦合形成的GRAPES_CUACE大气化学耦合模型在不同版本的x86体系结构下的并行优化算法的研究与分析。借鉴目前国内外主流的并行优化设计方法,结合GRAPES_MESO系统本身的程序架构和并行框架,针对不同版本x86体系架构做了相应的并行化改造。运用gprof工具和戳桩计时等方法,测试得到的程序热点模块主要有3部分:IO、通信和物理过程。对IO模块主要的优化方法为:1、由离散读写改为连续读写;2、开辟缓冲区由稀疏访存改为连续访存;3、异步IO。对通信部分采用两种方式:1、由细粒度改为粗粒度通信;2、采用时间复杂度更低的集合通信。对IO与通信模块优化结果分析可得:IO模块优化后的耗时占比由原来的43.7%降至1.41%,比重大幅度降低,最优部分性能提升了317倍,因此,该方法极大地提升了IO模块运行效率。此外,对物理过程进行优化采用的主要方法是:1、多层循环计算过程由离散改为连续;2、通信机制循环外移;3、数据复用以减少计算冗余;4、缩减栈变量空间等。这些优化方法使计算性能提高了22%,进一步提高了程序的并行效率和模式的强可扩展性。
-
关键词
异步IO
粗粒度
连续访存
集合通信
-
Keywords
Asynchronous IO
Coarse-grained
Continuous memory access
Aggregate communicatio
-
分类号
TP302.7
[自动化与计算机技术—计算机系统结构]
-