期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
民国初期翻译短篇小说经典化中的深度编译策略 被引量:2
1
作者 权继振 《出版发行研究》 CSSCI 北大核心 2016年第12期107-109,共3页
民国初期是中国文学史上短篇小说最为风行的时期,鲁迅、胡适、周瘦鹃等推出的经典翻译短篇小说在推动文学现代化和启蒙国民方面都卓有成效。本文以《短篇小说第一集》《欧美名家短篇小说丛刊》和《小说月报》中的经典翻译短篇小说为个... 民国初期是中国文学史上短篇小说最为风行的时期,鲁迅、胡适、周瘦鹃等推出的经典翻译短篇小说在推动文学现代化和启蒙国民方面都卓有成效。本文以《短篇小说第一集》《欧美名家短篇小说丛刊》和《小说月报》中的经典翻译短篇小说为个案研究对象,从文字的深加工、注释、附录与附记、序言与题头等方面探究其深度编译策略,以期能够通过多元互补的翻译策略和编辑策略,为实现翻译文学作品的经典化提供思路。 展开更多
关键词 短篇小说 民国初期 经典化 深度编译
下载PDF
AutoConfig:面向深度学习编译优化的自动配置机制
2
作者 张洪滨 周旭林 +2 位作者 邢明杰 武延军 赵琛 《软件学报》 EI CSCD 北大核心 2024年第6期2668-2686,共19页
随着深度学习模型和硬件架构的快速发展,深度学习编译器已经被广泛应用.目前,深度学习模型的编译优化和调优的方法主要依赖基于高性能算子库的手动调优和基于搜索的自动调优策略.然而,面对多变的目标算子和多种硬件平台的适配需求,高性... 随着深度学习模型和硬件架构的快速发展,深度学习编译器已经被广泛应用.目前,深度学习模型的编译优化和调优的方法主要依赖基于高性能算子库的手动调优和基于搜索的自动调优策略.然而,面对多变的目标算子和多种硬件平台的适配需求,高性能算子库往往需要为各种架构进行多次重复实现.此外,现有的自动调优方案也面临着搜索开销大和缺乏可解释性的挑战.为了解决上述问题,提出AutoConfig,一种面向深度学习编译优化的自动配置机制.针对不同的深度学习计算负载和特定的硬件平台,AutoConfig可以构建具备可解释性的优化算法分析模型,采用静态信息提取和动态开销测量的方法进行综合分析,并基于分析结果利用可配置的代码生成技术自动完成算法选择和调优.AutoConfig创新性地将优化分析模型与可配置的代码生成策略相结合,不仅能保证性能加速效果,还能减少重复开发的开销,同时可以简化调优过程.在此基础上,进一步将AutoConfig集成到深度学习编译器Buddy Compiler中,对矩阵乘法和卷积的多种优化算法建立分析模型,并将自动配置的代码生成策略应用在多种SIMD硬件平台上进行评估.实验结果可验证AutoConfig在代码生成策略中完成参数配置和算法选择的有效性.与经过手动或自动优化的代码相比,由AutoConfig生成的代码可达到相似的执行性能,并且无需承担手动调优的重复实现开销和自动调优的搜索开销. 展开更多
关键词 深度学习编译 编译优化 代码生成 自动配置机制
下载PDF
面向深度学习算子的循环不变式外提算法
3
作者 梁佳利 华保健 +1 位作者 吕雅帅 苏振宇 《计算机科学与探索》 CSCD 北大核心 2023年第1期127-139,共13页
TVM是一个深度学习编译器,支持将TVM的领域专用语言即张量表达式定义的算子编译生成目标平台的代码,并在高级中间表示TVM IR上进行一系列优化。张量表达式对算子执行循环变换,产生与循环迭代变量相关的复杂表达式的计算,在多层嵌套循环... TVM是一个深度学习编译器,支持将TVM的领域专用语言即张量表达式定义的算子编译生成目标平台的代码,并在高级中间表示TVM IR上进行一系列优化。张量表达式对算子执行循环变换,产生与循环迭代变量相关的复杂表达式的计算,在多层嵌套循环内这些计算包含了大量的循环不变式。然而,传统的循环不变量外提技术不能判断不变量外提是否能带来额外收益,无法发现操作数顺序不同的循环不变表达式,不能处理嵌套的条件表达式,并且与目标平台编译器优化存在冲突等。由于这些挑战,传统的循环不变量外提算法无法直接用于深度学习编译器的优化,提出了一种融合深度学习代价函数和启发式策略的循环不变量外提算法。该算法基于深度学习编译器的高层中间表示,通过调整操作数顺序和简化嵌套条件表达式等方法规范化表达式。为了衡量优化的收益,在结合TVM IR和目标平台的特点的基础上,提出了一个新的面向深度学习的不变式外提代价指标函数。在开源编译器TVM 0.7版本上,通过新增优化遍的形式,具体实现了所介绍的算法以及代价函数。为评测算法的有效性,在Tesla P4的图形处理器(GPU)平台上对TVM TOPI的测试算子集中27个典型算子不同输入规模的511个测例进行了测试。实验结果表明47.6%的算子性能得到提升,最大加速比大于40.0%。 展开更多
关键词 深度学习编译 领域专用语言 循环不变量外提 中间表示
下载PDF
一种基于TVM的算子生成加速策略
4
作者 高伟 李帅龙 +3 位作者 茆琳 王磊 李颖颖 韩林 《计算机工程》 CAS CSCD 北大核心 2024年第8期353-362,共10页
随着人工智能(AI)的飞速发展,新算子和底层硬件层出不穷,这给算子库的开发和维护带来了巨大的工作量。单纯基于手工优化来解决AI模型的性能和效率很容易出现瓶颈。TVM深度学习编译器通过代码的自动化生成减轻了手工优化的负担,但同时也... 随着人工智能(AI)的飞速发展,新算子和底层硬件层出不穷,这给算子库的开发和维护带来了巨大的工作量。单纯基于手工优化来解决AI模型的性能和效率很容易出现瓶颈。TVM深度学习编译器通过代码的自动化生成减轻了手工优化的负担,但同时也存在搜索时间长的问题。为此,针对TVM的自动化代码生成框架Ansor,提出基于梯度提升算法的新代价模型和基于预定义规则的调度空间剪枝优化2种优化策略,旨在加速TVM的自动化代码生成过程,实现模型快速落地与部署,并进一步为人工智能技术的应用提供更高效的解决方案。实验结果表明,通过应用优化后代价模型可以在不损失推理时间的前提下,使得在x86 CPU平台上模型的调优时间减少30%~35%,同时优化后算子性能最高可提升22%,使得在深度计算单元(DCU)平台上模型的调优时间减少20%左右,同时优化后算子平均性能提升5.7%,此外,基于预定义规则的剪枝策略可以有效提升代价模型的收敛速度,并且在原有最佳迭代次数下,模型推理时间可提高7.4%。 展开更多
关键词 深度学习编译 代价模型 梯度提升算法 剪枝策略 自动调优
下载PDF
基于MLIR的FP8量化模拟与推理内存优化
5
作者 徐金龙 桂中华 +2 位作者 李嘉楠 李颖颖 韩林 《计算机科学》 CSCD 北大核心 2024年第9期112-120,共9页
随着目标检测模型和语言大模型的迅速发展,网络模型正变得越来越庞大。为了更好地在端侧硬件上进行模型部署,通常采用模型量化技术对模型进行压缩。现有的模型量化策略主要基于FP16,BF16和INT8等类型实现。其中,8bit数据类型在降低推理... 随着目标检测模型和语言大模型的迅速发展,网络模型正变得越来越庞大。为了更好地在端侧硬件上进行模型部署,通常采用模型量化技术对模型进行压缩。现有的模型量化策略主要基于FP16,BF16和INT8等类型实现。其中,8bit数据类型在降低推理内存占用与部署开销方面最为显著,但INT8类型依赖特定的校准算法,未能很好地处理动态范围大、离群点多的模型。FP8类型能够更好地拟合神经网络中的数据分布,同时具有多种数制,可在表达范围和表达精度上灵活调整。然而,当前MLIR系统缺乏对FP8类型量化的支持。为此,提出了一种基于MLIR系统的FP8量化模拟策略,包含FP8E4M3和FP8E5M2两种数制,通过对网络中的算子进行量化模拟,评估FP8两种数制对模型推理精度的影响。同时,针对推理引擎中存在的内存分配冗余问题,提出了一种基于定义使用链的内存复用策略,使得模型推理过程中的内存占用峰值进一步减小。实验选取了典型的Yolov5s和Resnet50模型进行测试,结果表明相较于现有的INT8量化策略,FP8量化策略能够保持更好的模型精度,同时不依赖特定校准算法,部署更为简便。在模型精度上,测试用例分别达到了55.5%和77.8%的准确度,经过内存复用优化,内存占用峰值降低了约15%~20%。 展开更多
关键词 模型压缩 深度学习编译 FP8量化 MLIR Yolov5s模型
下载PDF
基于专用卷积神经网络加速器的编译器设计与实现 被引量:1
6
作者 焦禹铭 吴凯 +2 位作者 郭风祥 王昭 宋庆增 《计算机应用》 CSCD 北大核心 2022年第S01期208-214,共7页
不同框架深度学习模型部署是人工智能落地的核心,然而模型计算量和参数量过大、编程模型未统一导致了各种新型的专用卷积神经网络(CNN)加速器层出不穷,增加了模型的部署难度。对模型压缩和编译工具链这两个方面进行了改进:在模型压缩方... 不同框架深度学习模型部署是人工智能落地的核心,然而模型计算量和参数量过大、编程模型未统一导致了各种新型的专用卷积神经网络(CNN)加速器层出不穷,增加了模型的部署难度。对模型压缩和编译工具链这两个方面进行了改进:在模型压缩方面,提出新的通道剪枝标准,结合了通道的相关性和影响性以及输出通道对应的激活值,在保证精度的同时可以极大地削减卷积神经网络的计算量和参数量;在编译工具链方面,设计了一套自动的端到端优化堆栈,提出了针对基于现场可编程门阵列(FPGA)的深度学习编译器设计方法,并在中间表示中添加了所提出的排序标准的剪枝算法。实验结果表明,所设计的编译器于舰船目标检测的任务中,在通用设备上,保证精度损失不超过1%的情况下取得了1.3倍的加速效果;在专用的CNN加速器上取得了1.6倍的加速效果,在部署中能够有效地针对卷积网络进行加速。 展开更多
关键词 现场可编程门阵列 模型压缩 深度学习编译 中间表示 目标检测
下载PDF
基于RISC-V的神经网络加速器硬件实现 被引量:1
7
作者 鞠虎 高营 +1 位作者 田青 周颖 《电子与封装》 2023年第2期68-73,共6页
针对第五代开放精简指令集(RISC-V)的人工智能(AI)处理器较少、先进的精简指令微处理器(ARM)架构供应链不稳定、自主可控性弱的问题,设计了以RISC-V处理器为核心的神经网络推理加速器系统级芯片(SoC)架构。采用开源项目搭建So C架构;基... 针对第五代开放精简指令集(RISC-V)的人工智能(AI)处理器较少、先进的精简指令微处理器(ARM)架构供应链不稳定、自主可控性弱的问题,设计了以RISC-V处理器为核心的神经网络推理加速器系统级芯片(SoC)架构。采用开源项目搭建So C架构;基于可变张量加速器(VTA)架构,完成深度神经网络加速器指令集设计;通过高级可扩展接口(AXI)连接处理器与VTA,并采用共享内存的方式进行数据传输;基于深度学习编译栈实现卷积运算和神经网络部署。试验结果表明,所设计的架构可灵活实现多种主流的深度神经网络推理任务,乘法累加单元(MAC)数目可以达到1024,量化长度为有符号8位整数(INT8),编译栈支持主流神经网络编译,实现了修正后的ZFNet和ResNet20神经网络图像分类演示,在现场可编程逻辑门阵列(FPGA)电路上整体准确率分别达到78.95%和84.81%。 展开更多
关键词 RISC-V 神经网络 可变张量加速器 通用矩阵乘 深度学习编译
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部