期刊文献+

面向算力中心的大模型推理优化技术

Optimization techniques for large model inference aimed at computing power centers
下载PDF
导出
摘要 随着人工智能技术的飞速发展,大型语言模型在自然语言处理、代码生成、多模态交互等领域展现出强大的能力。然而,大模型的高算力需求成为其在实际应用中广泛部署的主要瓶颈。本文聚焦于算力中心的大语言模型推理服务的优化技术,通过静态推理和推理服务的协同优化,使算力中心的大语言模型推理服务的整体性能得到显著提升。
作者 毛秋力 沈庆飞 李秀红 Mao Qiuli;Shen Qingfei;Li Xiuhong
出处 《质量与认证》 2024年第9期40-44,共5页
  • 相关文献

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部