1、大模型部署的背景
a、大模型部署的挑战
- 对设备的要求:存储大
- 推理:生成token的速度、动态shape、内存管理
- 服务:高并发下的吞吐量、单用户的响应时间
b、技术方案:
- 模型并行、量化
- Transfomer优化、推理优化
2、LMDeploy介绍
a、是在N卡上的全流程方案,包括轻量化、推理和服务,当前还没有cover移动端。核心是推理引擎turbomind
b、为什么要量化?
- 降低显存要求:权重、KV Cache
- 提升推理速度
- 推理阶段,Decoder Only模型的瓶颈是内存访问,A100上实测batch_size=128时瓶颈由内存访问过渡到计算
c、TurboMind推理引擎
- Continous Batch Inferrence
- 有状态的推理
- Blocked K/V cache
- 高性能cuda kernel优化
d、推理服务api server
3、动手
标签:优化,训练营,书生,开源,内存,推理,模型 From: https://www.cnblogs.com/littlesuccess/p/18019183