低资源集群中的大语言模型分布式推理技术被引量：1

Accelerating Distributed Inference of Large Language Models in Low-Resource Clusters

下载PDF

导出

摘要探索了一种并行能力更强、具有更好兼容性的大语言模型(LLM)分布式推理范式。该范式专为弱算力、小显存环境设计。同时面向主机内外差异带宽,设计了基于通信树的高效All-Reduce组通信技术;针对小显存集群,设计了细粒度的显存管理与调度技术。最后,基于这些关键技术,构建了一套针对资源受限场景的LLM推理软件系统,旨在用数量有限的低资源设备,最大化能推理的LLM,同时通过优化通信策略与计算调度加速分布式推理。实验证明,在应用上述技术后,本方案的首词元生成延迟降低34%~61%,每秒生成词元吞吐量提升52%~150%,显存占用降低61%。 A distributed inference paradigm for large language model(LLM)with stronger parallelism and better compatibility is explored,which is designed for weak computing power and small memory environments.Meanwhile,an efficient All-Reduce group communication technique based on communication tree is designed for the different bandwidths inside and outside the host,and a fine-grained memory management and scheduling technique is designed for small memory clusters.Finally,based on these key techniques,a set of LLM infer⁃ence software system for resource-constrained scenarios is constructed,aiming to maximize the LLMs that can be inferenced with a lim⁃ited number of low-resource devices,and at the same time accelerating the distributed inference by optimizing the communication strategy and computation scheduling.Experiments demonstrate that after applying the above techniques,the first lexical element generation latency is reduced by 34%~61%,the lexical element generation throughput per second is increased by 52%~150%,and the memory occupation is re⁃duced by 61%.

作者冯文佼李宗航虞红芳 FENG Wenjiao;LI Zonghang;YU Hongfang(University of Electronic Science and Technology of China,Chengdu 611731,China)

机构地区电子科技大学

出处《中兴通讯技术》北大核心 2024年第2期43-49,共7页 ZTE Technology Journal

关键词 LLM分布式推理范式资源受限场景优化通信策略与计算调度 LLM distributed inference paradigm resource-constrained scenarios communication and computation scheduling optimization

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献22

1任莹.基于预训练BERT模型的客服工单自动分类研究[J].云南电力技术,2020,48(1):2-7. 被引量：3
2蒿峰,王小海,庞传军.基于Word2vec的电网调度词汇词向量生成方法及语音识别应用[J].内蒙古电力技术,2020,38(5):72-76. 被引量：12
3杨海燕,李涛.ChatGPT教学应用:场景、局限与突破策略[J].中国教育信息化,2023,29(6):26-34. 被引量：21
4黄承伟,冯玉斌,张玉波,张炜.面向电力设备风险与隐患的知识库构建方法[J].广西电力,2022,45(6):81-88. 被引量：3
5张鹤译,王鑫,韩立帆,李钊,陈子睿,陈哲.大语言模型融合知识图谱的问答系统研究[J].计算机科学与探索,2023,17(10):2377-2388. 被引量：35
6Xin PENG.Software development in the age of intelligence:embracing large language models with the right approach[J].Frontiers of Information Technology & Electronic Engineering,2023,24(11):1513-1519. 被引量：1
7曾骏,王子威,于扬,文俊浩,高旻.自然语言处理领域中的词嵌入方法综述[J].计算机科学与探索,2024,18(1):24-43. 被引量：7
8秦涛,杜尚恒,常元元,王晨旭.ChatGPT的工作原理、关键技术及未来发展趋势[J].西安交通大学学报,2024,58(1):1-12. 被引量：19
9杨挺,耿毅男,郭经红,梁云,王成山.人工智能在新型电力系统智能传感、通信与数据处理领域应用[J].高电压技术,2024,50(1):19-29. 被引量：9
10曹祎,张莉,郭静,李楠,齐剑川,陈皓轩,赵润彤.基于大语言模型的低碳电力市场发展应用前景[J].智慧电力,2024,52(2):8-16. 被引量：4

引证文献1

1赵明江,刘艳梅,杨婧一,张星奎,贾占宇.基于非Transformer架构大模型的技术研究及应用探索[J].电力大数据,2024,27(6):11-21.

1高峰,孟德森,解正源,亓林,董军宇.基于Transformer和动态3D卷积的多源遥感图像分类[J].北京航空航天大学学报,2024,50(2):606-614. 被引量：1
2潘雨黛,张玲玲,蔡忠闽,赵天哲,魏笔凡,刘均.基于大规模语言模型的知识图谱可微规则抽取[J].计算机科学与探索,2023,17(10):2403-2412. 被引量：3
3王广义,郭志强.中共党史党建学一级学科的内在逻辑及二级学科设置述论[J].思想理论教育,2024(4):77-82. 被引量：1
4王昆,王秋杨.城绿共生:面向社会需求的高质量城市生态空间格局构建[J].《规划师》论丛,2023(1):193-203.
5毛星,张欣,王宝佳,段玉林,李卫国,任妮.长三角区域农业遥感应用:进展、挑战与展望[J].中国农业信息,2023,35(6):37-48. 被引量：1
6《甘肃中医药大学学报》稿约[J].甘肃中医药大学学报,2024,41(1).

中兴通讯技术

2024年第2期

浏览历史

内容加载中请稍等...

低资源集群中的大语言模型分布式推理技术被引量：1

同被引文献22

引证文献1

相关作者

相关机构

相关主题

浏览历史

低资源集群中的大语言模型分布式推理技术 被引量：1

同被引文献22

引证文献1

相关作者

相关机构

相关主题

浏览历史

低资源集群中的大语言模型分布式推理技术被引量：1