面向TPU粗粒度指令的自动张量化方法

Automatic Tensorization for TPU Coarse-grained Instructions

下载PDF

导出

摘要张量化是通过调用硬件特定指令对张量运算进行加速的过程。TPU支持多种粗粒度指令,可表示神经网络级别的算子,且没有明确的运算规模限制。现有张量化方法对于粗粒度指令需要手写大量的IR匹配片段,且难以实现灵活的双缓存(ping-pong buffer)形式的指令并行优化,不利于扩展至TPU场景。为此,提出了一种面向TPU粗粒度指令的自动张量化方法——Tir2TPU。首先,基于TensorIR抽象语法树的分析对运算程序进行指令替换。其次,设计了一种模拟硬件行为的并行模型以实现指令并行优化。最后,构建了基于TPU硬件特征的程序调度空间以实现快速自动调优。实验对矩阵乘法等5种机器学习模型中常用的算子进行了性能评估。实验结果表明,Tir2TPU自动优化生成的算子与TPU自有编译器相比可取得最高3.1倍、平均1.78倍的运算加速,并且可取得平均90%的手工优化性能。 syntax tree.Secondly,it also utilizes a parallel model that simulates hardware behavior to generate parallel instruction flow.Finally,Tir2TPU combines a hardware-centric schedule space based on TPU features,which greatly accelerates auto-tuning process.The performance of Tir2TPU is evaluatedon 5 commonly used operators in machine learning models.Experimental results show that Tir2TPU can achieve up to 3×and an average of 1.78×speedup compared to TPU’s compiler,and consistently delivers 90%performance compared to manually optimized operators.

作者刘磊周志德刘兴祥车皓阳姚雷江贺 LIU Lei;ZHOU Zhide;LIU Xingxiang;CHE Haoyang;YAO Lei;JIANG He(School of Software Engineering,Dalian University of Technology,Dalian,Liaoning 116620,China;Sangfor Technologies Inc.,Shenzhen,Guangdong 518000,China;Zhejiang Zeekr Intelligent Technology Co.,Ltd.,Ningbo,Zhejiang 315800,China)

机构地区大连理工大学软件学院深信服科技股份有限公司浙江极氪智能科技有限公司

出处《计算机科学》 CSCD 北大核心 2024年第6期52-60,共9页 Computer Science

基金国家自然科学基金重点项目(62032004) CCF-深信服伏羲基金项目(2022003) 中国博士后科学基金(2023M730472) 国家自然科学基金(62302077)。

关键词机器学习编译器张量加速器张量化指令并行算子优化 Machine-learning compiler Tensor accelerator Tensorization Instruction parallelism Operator optimization

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

1空天速递[J].问天少年,2024(3):14-19.
2朱淘淘,饶先明.面向云数据中心的人工智能模型自动优化框架设计[J].软件,2024,45(1):180-183.
3孙文飞,张云华.基于多模态的图文情感分析[J].智能计算机与应用,2023,13(12):102-106.
4侯有岐.基于数学运算素养探究2023年全国乙卷解析几何题的解法[J].数理化解题研究,2024(13):14-18.
5刘建新,明亮,张霆,赵立营.基于OpenGL着色器和双缓存的雷达航迹高效显示方法[J].现代雷达,2024,46(1):36-38.
6曹淙胤,朱幸辉,李楷润,杨玉娟.基于改进遗传算法的CLIA运行调度优化[J].自动化应用,2024,65(5):33-37.
7董方霞.学生数学运算能力培养的基本策略[J].山东教育,2024(8):46-47.
8付善诗,李新云.关于 PLC 自动控制技术在制药设备中的应用[J].中文科技期刊数据库（文摘版）工程技术,2016(9):253-253.
9张茜.“一体两翼”双校区办学模式下学生管理问题探究——以浙江水利水电学院为例[J].中文科技期刊数据库（文摘版）教育,2024(3):0121-0124. 被引量：1
10叶祥龙,蒋文,李云莉,唐先慧,陆炫宇.基于X64架构的泛探雷达并行处理系统设计[J].火控雷达技术,2024,53(1):27-34.

计算机科学

2024年第6期

浏览历史

内容加载中请稍等...

面向TPU粗粒度指令的自动张量化方法

相关作者

相关机构

相关主题

浏览历史