fastLLM

2024-08-07一文搞定：LLM并发加速部署方案（llama.cpp、vllm、lightLLM、fastLLM）
llama.cpp、vllm、lightllm、fastllm四种框架的对比：llama.cpp：基于C++，①请求槽，②动态批处理，③CPU/GPU混合推理vllm：基于Python，①PagedAttention高效管理注意力KV内存，②连续动态批处理，③量化GPTQ/AWQ/SqueezeLLM等。lightllm：基于Python，①三进程异步协作，②动态批处理，③Fla