-
题名低资源集群中的大语言模型分布式推理技术
被引量:1
- 1
-
-
作者
冯文佼
李宗航
虞红芳
-
机构
电子科技大学
-
出处
《中兴通讯技术》
北大核心
2024年第2期43-49,共7页
-
文摘
探索了一种并行能力更强、具有更好兼容性的大语言模型(LLM)分布式推理范式。该范式专为弱算力、小显存环境设计。同时面向主机内外差异带宽,设计了基于通信树的高效All-Reduce组通信技术;针对小显存集群,设计了细粒度的显存管理与调度技术。最后,基于这些关键技术,构建了一套针对资源受限场景的LLM推理软件系统,旨在用数量有限的低资源设备,最大化能推理的LLM,同时通过优化通信策略与计算调度加速分布式推理。实验证明,在应用上述技术后,本方案的首词元生成延迟降低34%~61%,每秒生成词元吞吐量提升52%~150%,显存占用降低61%。
-
关键词
llm分布式推理范式
资源受限场景
优化通信策略与计算调度
-
Keywords
llm distributed inference paradigm
resource-constrained scenarios
communication and computation scheduling optimization
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-