期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
面向CPU-GPU源到源编译系统的渐近拟合优化方法 被引量:1
1
作者 魏洪昌 朱正东 +1 位作者 董小社 宁洁 《计算机工程与应用》 CSCD 北大核心 2016年第21期30-35,共6页
针对CPU-GPU异构并行系统应用开发移植后优化不充分问题,提出了一种渐近拟合优化与源到源编译相结合的方法,该方法能够对插入了制导语句的C语言程序转换为CUDA语言后的程序进行多次剖分,根据源程序特性和硬件信息自动完成源到源编译与优... 针对CPU-GPU异构并行系统应用开发移植后优化不充分问题,提出了一种渐近拟合优化与源到源编译相结合的方法,该方法能够对插入了制导语句的C语言程序转换为CUDA语言后的程序进行多次剖分,根据源程序特性和硬件信息自动完成源到源编译与优化,并基于该方法实现了原型系统。通过在不同环境中的该原型系统在功能和性能方面进行的测试表明,由系统生成的CUDA目标程序与C源程序在功能上一致,性能上却有了大幅度提高,通过与CUDA基准测试程序相比表明,该目标程序在性能上明显优于其他源到源编译转换生成的程序。 展开更多
关键词 源到源编译 统一计算架构(CUDA) 剖分 渐近拟合优化
下载PDF
面向CPU-GPU架构的源到源自动映射方法 被引量:2
2
作者 朱正东 刘袁 +3 位作者 魏洪昌 颜康 王寅峰 董小社 《计算机工程与应用》 CSCD 北大核心 2015年第21期41-47,共7页
针对GPU上应用开发移植困难的问题,提出了一种串行计算源程序到并行计算源程序的映射方法。该方法从串行源程序中获得可并行化循环的层次信息,建立循环体结构与GPU线程的对应关系,生成GPU端核心函数代码;根据变量引用读写属性生成CPU端... 针对GPU上应用开发移植困难的问题,提出了一种串行计算源程序到并行计算源程序的映射方法。该方法从串行源程序中获得可并行化循环的层次信息,建立循环体结构与GPU线程的对应关系,生成GPU端核心函数代码;根据变量引用读写属性生成CPU端控制代码。基于该方法实现了一个编译原型系统,完成了C语言源程序到CUDA源程序的自动生成。对原型系统在功能和性能方面的测试结果表明,该系统生成的CUDA源程序与C语言源程序在功能上一致,其性能有显著提高,在一定程度上解决了计算密集型应用向CPU-GPU异构多核系统移植困难的问题。 展开更多
关键词 通用计算图形处理器(GPGPU) 统一计算架构(CUDA) 自动映射 源到源编译
下载PDF
面向异构多核架构的自适应编译框架 被引量:2
3
作者 白秀秀 董小社 +2 位作者 刘超 曹海军 李亮 《计算机学报》 EI CSCD 北大核心 2014年第7期1548-1559,共12页
针对应用在移植到异构多核高性能计算机系统中所面临的可移植性差以及性能优化难度大的问题,文中提出一种面向异构多核架构的自适应编译框架.通过源到源编译解决传统并行编程模型应用向异构多核架构的映射问题;同时利用动态剖分信息,自... 针对应用在移植到异构多核高性能计算机系统中所面临的可移植性差以及性能优化难度大的问题,文中提出一种面向异构多核架构的自适应编译框架.通过源到源编译解决传统并行编程模型应用向异构多核架构的映射问题;同时利用动态剖分信息,自适应地调整插桩并配置优化策略,形成迭代式的自动优化过程.文中自适应编译框架将软硬件映射机制与优化策略结合,有效地解决了同构并行应用向异构多核架构的移植问题并提高了应用的整体性能.实验结果表明,文中基于Cell架构实现的原型系统,很好地解决了异构多核架构下应用移植性等问题,同时应用性能有所提高. 展开更多
关键词 异构多核 源到源编译 插桩 迭代式优化
下载PDF
一个面向存储优化GPGPU编译器 被引量:1
4
作者 李小强 安虹 吴石磊 《小型微型计算机系统》 CSCD 北大核心 2014年第4期872-877,共6页
近年来,图形处理器(GPU)在通用计算领域的应用越来越广泛,较高的性能功耗比以及合理的价格使其迅速普及.CUDA则是一种在当今图形处理器上进行通用编程的代表语言.但是由于CUDA过多的暴露了底层硬件的细节,使得程序员必须熟悉GPU的硬件... 近年来,图形处理器(GPU)在通用计算领域的应用越来越广泛,较高的性能功耗比以及合理的价格使其迅速普及.CUDA则是一种在当今图形处理器上进行通用编程的代表语言.但是由于CUDA过多的暴露了底层硬件的细节,使得程序员必须熟悉GPU的硬件细节才能写出高效运行的程序.而且由于GPU硬件在不断进化,使得为某一代GPU开发的程序很难高效的在新的硬件平台上执行.这大大增加了使用CUDA进行编程的难度和工作量.因此本文提出了一个面向存储优化的GPGPU编译器,将高层的制导语言翻译成优化的CUDA语言.硬件无关的高层制导语言提供了简单的编程模型和可移植性.应用了多种存储优化技术的优化编译器则负责生成高性能的CUDA程序.使用Rodinia测试程序集在Tesla C2050 GPU上的实验结果表明,本文的方案达到了较好的性能和可移植性的平衡. 展开更多
关键词 制导语言 源到源编译 存储优化 GPU
下载PDF
线程级猜测并行系统代码自动生成工具的设计与实现 被引量:1
5
作者 王家龙 刘艳红 沈立 《计算机科学》 CSCD 北大核心 2017年第11期114-119,共6页
虽然线程级猜测(Thread Level Speculation,TLS)执行机制可以简化多线程编程模型接口,并能获得较高的性能加速,但其并行程序的开发仍然比较困难。面向一个高效的软件TLS模型HEUSPEC,研究了代码自动生成工具C2H的设计与实现方法。具体包... 虽然线程级猜测(Thread Level Speculation,TLS)执行机制可以简化多线程编程模型接口,并能获得较高的性能加速,但其并行程序的开发仍然比较困难。面向一个高效的软件TLS模型HEUSPEC,研究了代码自动生成工具C2H的设计与实现方法。具体包括3部分内容:首先,为HEUSPEC设计简单的标注语句,标注出可并行段的一些特征;其次,提出将标注语句和可并行段转换为猜测线程函数的算法;最后,设计生成HEUSPEC并行代码的算法。该方法已在开源编译器Clang上实现。面向Rodinia,OmpScr等基准程序的测试结果表明,C2H能够将带有简单标注语句的串行C代码转换为HEUSPEC并行代码,且其性能与手工编写的HEUSPEC并行代码的性能十分接近。 展开更多
关键词 线程级猜测 HEUSPEC 源到源编译 标注语句 Clang
下载PDF
利用分组算法实现高效的并行程序模型检测
6
作者 王云云 韩文廷 +3 位作者 周军蕊 陈俊仕 姚文军 安虹 《小型微型计算机系统》 CSCD 北大核心 2016年第9期1898-1903,共6页
在并行时代,模型检测技术(通常也被称为状态空间搜索)是验证并行程序正确性的有效方法.由于线程执行次序的不确定性,线程之间交互次序的改变导致程序状态呈指数性增长,因此在利用状态空间搜索法搜索程序状态时,状态爆炸是亟需解决的难题... 在并行时代,模型检测技术(通常也被称为状态空间搜索)是验证并行程序正确性的有效方法.由于线程执行次序的不确定性,线程之间交互次序的改变导致程序状态呈指数性增长,因此在利用状态空间搜索法搜索程序状态时,状态爆炸是亟需解决的难题.为了改善该问题,提出基于分组的模型检测方法.针对操作不同变量的线程,在程序中简单添加制导语句对其进行分组,之后利用该分组信息搜索状态空间,并实时记录已完成搜索的分组信息,从而避免搜索冗余状态.实验结果表明,本文提出的方案对于缓解状态爆炸问题有很好的效果,制导分组前后,测试程序的状态集平均减少了67%,有效提高了并行程序验证效率. 展开更多
关键词 制导语言 源到源编译 模型检测 分组
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部