期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
Towards optimized tensor code generation for deep learning on sunway many-core processor
1
作者 Mingzhen LI Changxi LIU +8 位作者 Jianjin LIAO Xuegui ZHENG Hailong YANG Rujun SUN Jun XU Lin GAN Guangwen YANG Zhongzhi LUAN Depei QIAN 《Frontiers of Computer Science》 SCIE EI CSCD 2024年第2期1-15,共15页
The flourish of deep learning frameworks and hardware platforms has been demanding an efficient compiler that can shield the diversity in both software and hardware in order to provide application portability.Among th... The flourish of deep learning frameworks and hardware platforms has been demanding an efficient compiler that can shield the diversity in both software and hardware in order to provide application portability.Among the existing deep learning compilers,TVM is well known for its efficiency in code generation and optimization across diverse hardware devices.In the meanwhile,the Sunway many-core processor renders itself as a competitive candidate for its attractive computational power in both scientific computing and deep learning workloads.This paper combines the trends in these two directions.Specifically,we propose swTVM that extends the original TVM to support ahead-of-time compilation for architecture requiring cross-compilation such as Sunway.In addition,we leverage the architecture features during the compilation such as core group for massive parallelism,DMA for high bandwidth memory transfer and local device memory for data locality,in order to generate efficient codes for deep learning workloads on Sunway.The experiment results show that the codes generated by swTVM achieve 1.79x improvement of inference latency on average compared to the state-of-the-art deep learning framework on Sunway,across eight representative benchmarks.This work is the first attempt from the compiler perspective to bridge the gap of deep learning and Sunway processor particularly with productivity and efficiency in mind.We believe this work will encourage more people to embrace the power of deep learning and Sunwaymany-coreprocessor. 展开更多
关键词 sunway processor deep learning compiler code generation performance optimization
原文传递
低功耗多线程编译优化技术 被引量:16
2
作者 赵荣彩 唐志敏 +1 位作者 张兆庆 GuangR.Gao 《软件学报》 EI CSCD 北大核心 2002年第6期1123-1129,共7页
提出了在多线程体系结构中通过降低执行频率有效减小功耗的理论模型和方法.首先研究识别可降频运行的线程的计算模型和降频因子的计算,然后给出在编译过程中基于对应用程序行为的分析,结合线程划分的低功耗编译优化算法和实现策略.该模... 提出了在多线程体系结构中通过降低执行频率有效减小功耗的理论模型和方法.首先研究识别可降频运行的线程的计算模型和降频因子的计算,然后给出在编译过程中基于对应用程序行为的分析,结合线程划分的低功耗编译优化算法和实现策略.该模型和方法可用于具有执行频率可动态调整的多处理器类多线程体系结构,既可开发TLP(thread level parallelism),又可有效减小功率消耗. 展开更多
关键词 多线程 低功耗 编译优化 并行处理 计算机系统
下载PDF
编译指导的多线程低功耗技术研究 被引量:7
3
作者 赵荣彩 唐志敏 +1 位作者 张兆庆 Guang R.Gao 《计算机研究与发展》 EI CSCD 北大核心 2002年第12期1572-1579,共8页
多线程和低功耗将是研究下一代微处理器结构所要解决和实现的重点目标之一 .提出了一个在 SMT体系结构中通过动态调整 CPU执行频率降低功耗的计算模型 ,进一步分析和讨论了如何在编译时识别具有可使处理部件降低频率执行的期望区间 ,并... 多线程和低功耗将是研究下一代微处理器结构所要解决和实现的重点目标之一 .提出了一个在 SMT体系结构中通过动态调整 CPU执行频率降低功耗的计算模型 ,进一步分析和讨论了如何在编译时识别具有可使处理部件降低频率执行的期望区间 ,并给出了调整频率和能量分析的计算模型以及编译实现策略 ,目的是在不降低或不明显降低程序执行性能的情况下 ,显著降低处理器的功率 /能量消耗 .理论上该模型也可以用于 展开更多
关键词 多线程 低功耗技术 微处理器 体系结构 编译优化
下载PDF
一种面向媒体处理器有效生成并行指令的方法 被引量:2
4
作者 琚小明 姚庆栋 史册 《科技通报》 2005年第4期453-459,470,共8页
随着数字信号处理器(DSP)的迅速发展,面向DSP设计可重定目标的C编译器成为必然。由GCC编译器移植面向媒体处理器的C编译器,利用指令模板匹配不能有效的生成并行指令。本文结合32位具有RISC-DSP结构的媒体处理器MD32特有的体系结构特点,... 随着数字信号处理器(DSP)的迅速发展,面向DSP设计可重定目标的C编译器成为必然。由GCC编译器移植面向媒体处理器的C编译器,利用指令模板匹配不能有效的生成并行指令。本文结合32位具有RISC-DSP结构的媒体处理器MD32特有的体系结构特点,提出C编译器支持的,在汇编级通过指令调度和调整指令操作数及其类型的代码优化方法,实现输出高效的并行指令,同时提高了代码的运行效率和代码的密度。统计数据表明:代码执行效率平均可以提高14%,而代码密度平均提高11.75%。这种方法比树模式匹配方法更容易实现,并适用于支持并行指令的其他DSP处理器。 展开更多
关键词 计算机体系结构 代码生成 代码优化 编译器 媒体处理器
下载PDF
基于多线索机制的无断流流水
5
作者 程旭 崔光佐 +1 位作者 王克义 杨芙清 《电子学报》 EI CAS CSCD 北大核心 1999年第9期133-134,140,共3页
本文基于多线索机制,通过优化编译与硬件流水线相结合提出了一种无断流流水机制,并设计了无断流流水线( M T N B- P I P E L I N E) .该流水线主要通过提前进行线索切换消除控制转移开销,并开发线索间的更大并行... 本文基于多线索机制,通过优化编译与硬件流水线相结合提出了一种无断流流水机制,并设计了无断流流水线( M T N B- P I P E L I N E) .该流水线主要通过提前进行线索切换消除控制转移开销,并开发线索间的更大并行性.最后,对该流水线进行了性能评价,表明流水线可进一步提高加速化. 展开更多
关键词 流水线 指令级并行 多线索结构 并行计算机
下载PDF
SMA处理器中的持续优化技术
6
作者 邓鹍 窦勇 周兴铭 《计算机研究与发展》 EI CSCD 北大核心 2002年第9期1087-1092,共6页
前瞻多线程结构 (SMA)是在超标量前瞻执行技术和多线程技术的基础上结合了二者的优点而发展起来的 .首先研究了 SMA模型的特点 ,指出了 3个关键性能要素 :现场负载不均衡、线程间控制前瞻失效与线程间数据前瞻失效 .为了有效地开发 SMA... 前瞻多线程结构 (SMA)是在超标量前瞻执行技术和多线程技术的基础上结合了二者的优点而发展起来的 .首先研究了 SMA模型的特点 ,指出了 3个关键性能要素 :现场负载不均衡、线程间控制前瞻失效与线程间数据前瞻失效 .为了有效地开发 SMA结构的潜能 ,引入了若干启发式规则 ,设计了基于线程的动态轮廓采样机制 ,并在此基础上实现了一个持续优化框架原型 .对上述优化规则的模拟表明 ,该优化原型能够较好地完成线程优化任务 ,有效地开发 SMA结构的性能潜力 . 展开更多
关键词 SMA处理器 持续优化技术 前瞻多线程结构 动态Profile 微处理器 指令级并行技术
下载PDF
基于多线程结构的编译优化技术 被引量:2
7
作者 邓昆鸟 肖刚 +1 位作者 周兴铭 徐明 《计算机工程与科学》 CSCD 1999年第4期13-16,共4页
编译优化是多线程技术中的一个重要组成部分,也是目前多线程研究中比较薄弱的环节。本文讨论了初步多线程换型中相关的编译优化技术,并给出了基本的分析和比较结果。
关键词 多线程结构 编译 优化 代码生成
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部