• 2024-08-22LLM 推理 & 服务
    目录vLLMPagedAttention:解决内存瓶颈vLLM的安装与使用vLLM加州大学伯克利分校的研究者开源了一个项目vLLM,该项目主要用于快速LLM推理和服务。vLLM的核心是PagedAttention,这是一种新颖的注意力算法,它将在操作系统的虚拟内存中分页的经典思想引入到LLM服务中。配备了Pa
  • 2024-07-12FlashAttention/ PagedAttention原理,大模型加速
    1.1GPU硬件特点由于FlashAttention计算self-attention的主要关键是有效的硬件使用,所以了解GPU内存和各种操作的性能特征是很有必要的。以A100(40GBHBM)为例,下面显示其内存层次结构的粗略图。SRAM内存分布在108个流式多处理器(SMs)上,每个处理器192KB。片上SRAM比
  • 2024-07-09vLLM与PagedAttention:全面概述
    翻译自:https://medium.com/@abonia/vllm-and-pagedattention-a-comprehensive-overview-20046d8d0c61简单、快速且经济的LLM服务vLLM是一个旨在提高大型语言模型(LLM)推理和服务效率与性能的库。由UCBerkeley开发,vLLM引入了PagedAttention,这是一种新颖的注意力算法,显著优化了注