• 2024-08-22vLLM
    vLLM是一个快速且易于使用的LLM推理和服务库vLLM的快速性体现在:最先进的服务吞吐量通过PagedAttention有效管理注意力机制KV的内存连续的批次处理请求使用CUDA/HIP图快速执行模型量化:GPTQ、AWQ、INT4、INT8、FP8CUDA内核优化,包括FlashAttention和FlashInfer的集成推测行