期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
低资源集群中的大语言模型分布式推理技术 被引量:1
1
作者 冯文佼 李宗航 虞红芳 《中兴通讯技术》 北大核心 2024年第2期43-49,共7页
探索了一种并行能力更强、具有更好兼容性的大语言模型(LLM)分布式推理范式。该范式专为弱算力、小显存环境设计。同时面向主机内外差异带宽,设计了基于通信树的高效All-Reduce组通信技术;针对小显存集群,设计了细粒度的显存管理与调度... 探索了一种并行能力更强、具有更好兼容性的大语言模型(LLM)分布式推理范式。该范式专为弱算力、小显存环境设计。同时面向主机内外差异带宽,设计了基于通信树的高效All-Reduce组通信技术;针对小显存集群,设计了细粒度的显存管理与调度技术。最后,基于这些关键技术,构建了一套针对资源受限场景的LLM推理软件系统,旨在用数量有限的低资源设备,最大化能推理的LLM,同时通过优化通信策略与计算调度加速分布式推理。实验证明,在应用上述技术后,本方案的首词元生成延迟降低34%~61%,每秒生成词元吞吐量提升52%~150%,显存占用降低61%。 展开更多
关键词 llm分布式推理范式 资源受限场景 优化通信策略与计算调度
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部