vLLM与PagedAttention：全面概述

时间：2024-07-09 13:19:30浏览次数：18

标签：PagedAttention 模型概述内存 LLM vLLM CUDA

翻译自：https://medium.com/@abonia/vllm-and-pagedattention-a-comprehensive-overview-20046d8d0c61

简单、快速且经济的LLM服务

vLLM是一个旨在提高大型语言模型（LLM）推理和服务效率与性能的库。由UC Berkeley开发，vLLM引入了PagedAttention，这是一种新颖的注意力算法，显著优化了注意力键和值的内存管理。这一创新不仅提高了吞吐量，还实现了对传入请求的持续批处理，使用CUDA/HIP图快速执行模型，并支持包括并行采样和束搜索在内的多种解码算法。vLLM兼容NVIDIA和AMD GPU，并与流行的Hugging Face模型无缝集成，使其成为开发者和研究人员的通用工具。

PagedAttention：关键技术

PagedAttention是vLLM性能提升的核心。它通过将KV缓存划分为块，解决了LLM服务中内存管理的重大问题，允许在内存中非连续存储键和值。这种方法不仅优化了内存使用，减少了高达96%的浪费，还实现了高效的内存共享，显著降低了复杂采样算法的内存开销。PagedAttention的内存管理策略受到操作系统中虚拟内存和分页概念的启发，提供了一种灵活且高效的方式来管理内存资源。

vLLM系统概览 — arxiv.2309.06180

vLLM的特性和能力

高吞吐量和内存效率
vLLM提供了最先进的服务吞吐量，使其成为需要高性能和低延迟应用的理想选择。
持续的请求批处理
vLLM高效地管理传入的请求，允许持续的批处理和处理。
快速模型执行
利用CUDA/HIP图，vLLM确保模型的快速执行，提高LLM服务的整体性能。
量化支持
vLLM支持各种量化技术，包括GPTQ、AWQ、SqueezeLLM和FP8 KV缓存，以进一步优化模型性能并减少内存占用。
优化的CUDA内核
vLLM包括针对NVIDIA GPU的优化CUDA内核，以提高性能。
张量并行性支持
对于分布式推理，vLLM提供张量并行性支持，便于在多个GPU上实现可扩展和高效的模型服务。
流式输出
vLLM支持流式输出，允许实时处理和交付模型输出。
兼容OpenAI的API服务器
vLLM可用于启动兼容OpenAI API的服务器，使其易于与现有系统和工作流程集成。

标签：PagedAttention,模型,概述,内存,LLM,vLLM,CUDA
From： https://www.cnblogs.com/IcyFeather/p/18291598

嵌入式学习——C语言概述(编译原理)
一、计算机的组成部分输入设备、内存、cpu（运算器、控制器）、外存储器、输出设备二、C语言编译的步骤（面试重点）1、预处理：宏指令的替换（#include<stdio.h>等等）、删除注释、添加行号等。例如：gcc-Ehello.c-ohello.ihello.i文件内容：这段代码就......
使用vllm部署大语言模型
vLLM是一个快速且易于使用的库，用于LLM（大型语言模型）推理和服务。通过PagedAttention技术，vLLM可以有效地管理注意力键和值内存，降低内存占用和提高计算效率。vLLM能够将多个传入的请求进行连续批处理，从而提高整体处理速度。环境Lniux操作系统，2张3090，cuda版本是12.2安装vllm......
网络安全--计算机网络安全概述
目录网络信息系统安全的目标网络安全的分支举例P2DR模型信息安全模型访问控制的分类多级安全模型网络信息系统安全的目标保密性保证用户信息的保密性，对于非公开的信息，用户无法访问并且无法进行非授权访问，举例子就是：防止信息泄露。完整性保证用户的信息完整性，就是不允......
计算机网络概述
计算机网络基本概念从技术范畴来看，计算机网络是计算机技术与通信技术相互融合的产物更为简短、概括性的定义：计算机网络是互连的、自治的计算机的集合。目前最大的、应用最广泛的计算机网络就是Internet或称因特网。Internet中互连的端系统、分组交换设备或其他网络设备在进行......
智慧校园全平台综合概述
在当今信息化浪潮的推动下，"智慧校园"作为教育创新的前沿阵地，正逐步揭开其神秘面纱，引领一场前所未有的教育转型革命。它远超过单纯技术叠加的传统框架，而是深度融合云计算、大数据、物联网等前沿科技，精心编织一个高效、互动、智能优化资源的教育生态网。接下来，我们将细致入微地剖......
Franka FCI 概述
Franka控制接口(FCI)允许快速直接地与手臂和手进行低级双向连接。它提供机器人的当前状态，并允许使用通过以太网连接的外部工作站PC直接控制机器人。通过使用libfranka我们的开源C++接口，您可以使用5种不同的接口以1kHz的频率发送实时控制值：重力和摩擦补偿关节水......
机器学习概述
机器学习是一个快速发展的领域，它有潜力改变我们生活和工作的方式。通过使机器从数据中学习和做出决定，而不需要被明确编程，机器学习正在改变医疗、金融和教育等行业。以下是关于机器学习的基础、应用和未来的前景。什么是机器学习？机器学习是人工智能的一个子领域，涉及训练机器......
[概述]博客随笔/文章/日记食用指北
标签功能：[概述]：如何和本人&该博客打交道的方法在这里会一点点写给大家。[规划]：短期的，长期的，恒久的，临时的，想到啥写啥，不觉得自己是个能坚持很久的人，所以和各位共勉。[积累]：以文科学习为主，基本是电子稿，偶尔会暴字。[打卡]：主要是对于2的落实，包括完成进度和相关的感悟。[好题]：（......
web前端概述
文章目录Web前端概述HTML简史HTML5新特性使用标签承载内容结构文本列表（list）链接（anchor）图像（image）表格（table）表单（form）音视频（audio/video）窗口（frame）其他使用CSS渲染页面简介颜色（color）文本（text/font）盒子（boxmodel）列表、表格和表单图像布局使用JavaScript控制行为JavaScr......
ELK日志分析系统概述及部署
目录1.ELK1.1ELK简介1.2ELK组件1.3ELK的优点1.4 为什么要使用ELK?1.5 完整日志系统基本特征1.6ELK的工作原理：2. 部署ELK日志分析系统2.1 部署Elasticsearch软件2.1.1 安装elasticsearch—rpm包2.1.2 修改elasticsearch主配置文件2.1.3es性能调优参......

vLLM与PagedAttention：全面概述

简单、快速且经济的LLM服务

PagedAttention：关键技术

vLLM的特性和能力

相关文章

赞助商

阅读排行