网站首页
编程语言
数据库
系统相关
其他分享
编程问答
BladeLLM
2024-09-16
TAG:BladeLLM 的纯异步推理架构
作者:张子鹏PAI引擎团队随着GQA/MLA/MoE等模型结构不断发展,大语言模型的推理逐步解除了显存限制,逐渐向着高并发、高吞吐的方向发展。推理引擎的运行时开销也变得不可忽视。主流LLM推理框架的运行时开销大致来自:Python性能:考虑用户易用性和开发效率,业界主流框架都采用Python