首页 > 其他分享 >【LLMOps】vllm加速机制及推理不一致根因剖析

【LLMOps】vllm加速机制及推理不一致根因剖析

时间:2023-12-18 11:23:31浏览次数:35  
标签:transformer PageAttention 根因 矩阵 LLMOps vllm 推理 内存

介绍

当前大模型主流推理方式包括:vllm、tgi、原生transformer

回顾

目前主流大模型都是由transformer演变过来,transformer核心是attention,参考《Attention is All You Need》 ,attention核心则是3个矩阵:Query、Key、Value。

一句话解释attention:Query是当前单词查询矩阵,Key是被查询单词的索引矩阵,Value是被查询单词的结果矩阵。

参考:https://zhuanlan.zhihu.com/p/624531147?utm_id=0https://zhuanlan.zhihu.com/p/104393915

vllm加速原理

 参考文章:https://blog.vllm.ai/2023/06/20/vllm.html

在vllm中有个观念:大模型的推理性能瓶颈是内存(In vLLM, we identify that the performance of LLM serving is bottlenecked by memory),因此vllm致力于优化内存,内存优化的越好,其支持的并发度越高。

核心技术:PageAttention

在PageAttention使用之前,大模型的推理内存是连续的,这就导致碎片化的内存是无法利用的。

PageAttention理念来源于操作系统的虚拟内存,核心手段是对显存进行分块+索引;

 

另外,该方式提高显存的复用性。例如相同的prompt可以存放到单独的内存块中,不需要再重复生成。

 

推理不一致

未完待续

 

标签:transformer,PageAttention,根因,矩阵,LLMOps,vllm,推理,内存
From: https://www.cnblogs.com/zhouwenyang/p/17910639.html

相关文章

  • 【LLMOps】Accelerate & DeepSpeed多卡使用
    介绍目前大模型微调主要方案是LLaMA-Factory LLaMA-Factory中,提供了两种多卡框架:Accelerate、DeepSpeedAccelerate依赖accelerate==0.24.1transformers==4.34.1datasets==2.14.7tiktoken==0.5.1peft==0.6.2trl==0.7.1这里只列出可能冲突版本注意使用最新版本0.24.1,尝......
  • 大模型时代的模型运维与部署:LLMops
    来源:https://blog.csdn.net/sinat_26917383/article/details/1315383341LLMOps介绍1.1关联定义术语LLMOps代表大型语言模型运维。它的简短定义是LLMOps是LLM的MLOps。这意味着LLMOps是一组工具和最佳实践,用于管理LLM支持的应用程序的生命周期,包括开发、部署和维护......
  • 生成式AI时代的AI Infra—从DevOps->MLOps->LLMOps
    来源:https://zhuanlan.zhihu.com/p/640725385 距离上次讲LLM相关的内容已经过去2个月了LLMasController—无限拓展LLM的能力边界,本文想要从AIInfra的角度出发,从更宏观的角度看GenerativeAI对AIInfra生态产生的变化,本文不局限于LLM,文中提到的LLM泛指一切GenerativeAI或者......
  • LLMOps(Large Language Model Operations)简介
    LLMOps是一个新兴领域,专注于管理大型语言模型的整个生命周期,包括数据管理、模型开发、部署和伦理等方面。HuggingFace、Humanloop和NVIDIA等公司正在引领这一领域的发展。HuggingFace的Transformers库已成为构建和微调各种NLP任务的大型语言模型的首选开源库。类似地,Humanloop......
  • 4种API性能恶化根因分析
    摘要:服务发生性能恶化时,需要投入大量人力分析性能异常根因,分析成本高,耗时长。我们提出了一种先在异常调用链内部分析候选根因,再在全局拓扑环境下对候选根因进行汇聚的二级分......
  • 从Bug中学习--Bug根因分析法
    来源:http://www.51testing.com/html/31/n-4456831.html一提起测试,大多数人很容易就会联想到Bug。的确,测试的日常工作离不开Bug,测试工作很重要的一部分就是发现Bug。但......
  • 从Bug中学习--Bug根因分析法
    来源:http://www.51testing.com/html/31/n-4456831.html一提起测试,大多数人很容易就会联想到Bug。的确,测试的日常工作离不开Bug,测试工作很重要的一部分就是发现Bug。但......