LMDeploy量化部署LLM&VLM实践

时间：2024-06-09 10:59:29浏览次数：25

标签：VLM LLM 模型 inp lmdeploy chat LMDeploy root

一、前提知识：

大模型部署背景：

什么是模型部署：

部署面临的挑战：

受Transformer 架构影响：

常见GPU算力还能一战，但是显存带宽受限严重，时间花费在数据交换上居多

大模型部署方法：

模型参数以定点数或整数形式存储，实际计算时，反量化为浮点数去计算，再用定点数和整数去存储计算结果。量化会降低访存量。

LMDepoly简介：

二、项目实战

环境配置：

进入开发机，切换为终端(Terminal)模式。

创建conda环境，输入命令：

studio-conda -t lmdeploy -o pytorch-2.1.2

安装LMDeploy：

激活LMDeploy虚拟环境：

conda activate lmdeploy

安装0.3.0版本的lmdeploy：

pip install lmdeploy[all]==0.3.0

[all] 表示安装 lmdeploy 包的所有可选依赖项或功能

LMDeploy模型对话：

前提知识：

TurboMind是LMDeploy的一个推理引擎，仅支持推理TurboMind格式的模型，TurboMind在推理HF格式模型时，会自动将模型格式进行格式转换。

准备模型：

从开发机share文件夹创建模型软链接，输入命令：

cd ~
ln -s /root/share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b /root/
# cp -r /root/share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b /root/

使用Transformer库运行模型：

（为后续对比做准备）

切换到VSCode，左边栏空白处右键，选择Open in Intergrated Terminal，打开终端

在终端中输入如下指令，新建pipeline_transformer.py

touch /root/pipeline_transformer.py

打开pipeline_transformer.py文件，填入代码：

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("/root/internlm2-chat-1_8b", trust_remote_code=True)

# Set `torch_dtype=torch.float16` to load model in float16, otherwise it will be loaded as float32 and cause OOM Error.
model = AutoModelForCausalLM.from_pretrained("/root/internlm2-chat-1_8b", torch_dtype=torch.float16, trust_remote_code=True).cuda()
model = model.eval()

inp = "hello"
print("[INPUT]", inp)
response, history = model.chat(tokenizer, inp, history=[])
print("[OUTPUT]", response)

inp = "please provide three suggestions about time management"
print("[INPUT]", inp)
response, history = model.chat(tokenizer, inp, history=history)
print("[OUTPUT]", response)

按Ctrl+S键保存。

回到终端，激活conda环境：

conda activate lmdeploy

运行刚刚创建的python代码：

python /root/pipeline_transformer.py

结果如下：

稍后与LMDeploy的推理速度对比

使用LMDeploy与模型对话：

使用LMDepoly命令：

#lmdeploy chat [HF格式模型路径/TurboMind格式模型路径]
lmdeploy chat /root/internlm2-chat-1_8b

至此，通过LMDepoly以命令行方式与 InternLM2-Chat-1.8B 模型对话跑通。

标签：VLM,LLM,模型,inp,lmdeploy,chat,LMDeploy,root
From： https://blog.csdn.net/Moo_n_earth/article/details/139536802

Block Transformer：通过全局到局部的语言建模加速LLM推理
在基于transformer的自回归语言模型（LMs）中，生成令牌的成本很高，这是因为自注意力机制需要关注所有之前的令牌，通常通过在自回归解码过程中缓存所有令牌的键值（KV）状态来解决这个问题。但是，加载所有先前令牌的KV状态以计算自注意力分数则占据了LMs的推理的大部分成本。在这篇论文中，作者......
每日AIGC最新进展(21)：清华大学提出从人体运动和视频中理解人类行为MotionLLM、武汉大
DiffusionModels专栏文章汇总：入门与实战MotionLLM:UnderstandingHumanBehaviorsfromHumanMotionsandVideos本研究提出了一种名为MotionLLM的新型框架，旨在通过结合视频和运动序列（如SMPL序列）的多模态数据，利用大型语言模型（LLMs）的能力来理解人类行为。与以往只针对视......
使用 vllm 本地部署 Qwen2-7B-Instruct
使用vllm本地部署Qwen2-7B-Instruct0.引言1.安装vllm2.本地部署Qwen2-7B-Instruct3.使用Qwen2-7B-Instruct0.引言此文章主要介绍使用使用vllm本地部署Qwen2-7B-Instruct。1.安装vllm创建虚拟环境，condacreate-nmyvllmpython=3.11-ycondaac......
LLM大语言模型算法特训，带你转型AI大语言模型算法工程师
LLM大语言模型算法特训，带你转型AI大语言模型算法工程师 LLM（大语言模型）是指大型的语言模型，如GPT（GenerativePre-trainedTransformer）系列模型。以下是《LLM大语言模型算法特训，带你转型AI大语言模型算法工程师》课程可能包含的内容：1.深入理解大语言模型：课程可能会介绍大......
一键云部署：资源编排 ROS 轻松部署 LLM 流程编排服务 Flowise
Flowise是一个开源的低代码工具，供开发者构建定制化的LLM流程编排和AI代理。资源编排服务（ResourceOrchestrationService,ROS）是阿里云提供基于基础设施即代码（InfrastructureasCode,IaC）理念的自动化部署服务，我们可以通过定义一个JSON/YAML/Terraform模板，轻松部署一套......
LLM 扩展开发工具
参考知乎：大模型Agent智能体25款产品、商业案例随笔记（一）、基于大模型的AI搜索15款产品随笔记（二）LLM扩展开发工具：1、开源且无需编码(No-Code)的LLM应用构建工具： https://flowiseai.com/ ，将永远免费供商业和个人使用。代码库： https://github.com/FlowiseAI......
LLM的基础模型5：Embedding模型
大模型技术论文不断，每个月总会新增上千篇。本专栏精选论文重点解读，主题还是围绕着行业实践和工程量产。若在某个环节出现卡点，可以回到大模型必备腔调或者LLM背后的基础模型新阅读。而最新科技（Mamba,xLSTM,KAN）则提供了大模型领域最新技术跟踪。若对于具身智能感兴趣的请移步具身......
AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.05.25-2024.05.31
文章目录～1.EmpoweringVisualCreativity:AVision-LanguageAssistanttoImageEditingRecommendations2.Bootstrap3D:Improving3DContentCreationwithSyntheticData3.Video-MME:TheFirst-EverComprehensiveEvaluationBenchmarkofMulti-modalLLMsin......
STEEL ——首个利用 LLM 检测假新闻的框架算法解析
1.概述近年来，假新闻的泛滥确实对政治、经济和整个社会产生了深远的负面影响。为了解决这一问题，人们开发了各种假新闻检测方法，这些方法试图通过分析新闻内容、来源和传播方式来识别虚假信息。然而，正如你所提到的，现有的假新闻检测方法存在一些局限性。其中一个主要问题是它......
什么是LLM大模型训练，详解Transformer结构模型
本文分享自华为云社区《LLM大模型学习必知必会系列(四)：LLM训练理论篇以及Transformer结构模型详解》，作者：汀丶。1.模型/训练/推理知识介绍深度学习领域所谓的“模型”，是一个复杂的数学公式构成的计算步骤。为了便于理解，我们以一元一次方程为例子解释：y=ax+b该方程意味......