SamplingParams

2024-08-22vLLM
vLLM是一个快速且易于使用的LLM推理和服务库vLLM的快速性体现在：最先进的服务吞吐量通过PagedAttention有效管理注意力机制KV的内存连续的批次处理请求使用CUDA/HIP图快速执行模型量化：GPTQ、AWQ、INT4、INT8、FP8CUDA内核优化，包括FlashAttention和FlashInfer的集成推测行