使用 lmdeploy 部署 internlm/internlm2_5-7b-chat

时间：2024-07-13 15:55:52浏览次数：24

标签：7B 模型 internlm2 LMDeploy internlm lmdeploy 推理 7b

使用 lmdeploy 部署 internlm/internlm2_5-7b-chat

0. 引言
1. lmdeploy 性能
2. lmdeploy 支持的模型
3. 快速开始

0. 引言

LMDeploy 由 MMDeploy 和 MMRazor 团队联合开发，是涵盖了 LLM 任务的全套轻量化、部署和服务解决方案。这个强大的工具箱提供以下核心功能：

高效的推理：LMDeploy 开发了 Persistent Batch(即 Continuous Batch)，Blocked K/V Cache，动态拆分和融合，张量并行，高效的计算 kernel等重要特性。推理性能是 vLLM 的 1.8 倍

可靠的量化：LMDeploy 支持权重量化和 k/v 量化。4bit 模型推理效率是 FP16 下的 2.4 倍。量化模型的可靠性已通过 OpenCompass 评测得到充分验证。

便捷的服务：通过请求分发服务，LMDeploy 支持多模型在多机、多卡上的推理服务。

有状态推理：通过缓存多轮对话过程中 attention 的 k/v，记住对话历史，从而避免重复处理历史会话。显著提升长文本多轮对话场景中的效率。

卓越的兼容性: LMDeploy 支持 KV Cache 量化, AWQ 和 Automatic Prefix Caching 同时使用。

1. lmdeploy 性能

LMDeploy TurboMind 引擎拥有卓越的推理能力，在各种规模的模型上，每秒处理的请求数是 vLLM 的 1.36 ~ 1.85 倍。在静态推理能力方面，TurboMind 4bit 模型推理速度（out token/s）远高于 FP16/BF16 推理。在小 batch 时，提高到 2.4 倍。

在这里插入图片描述

2. lmdeploy 支持的模型

2024年7月13日时点

LLMs	VLMs
- Llama (7B - 65B)	- LLaVA(1.5,1.6) (7B-34B)
- Llama2 (7B - 70B)	- InternLM-XComposer2 (7B, 4khd-7B)
- Llama3 (8B, 70B)	- QWen-VL (7B)
- InternLM (7B - 20B)	- DeepSeek-VL (7B)
- InternLM2 (7B - 20B)	- InternVL-Chat (v1.1-v1.5)
- InternLM2.5 (7B)	- MiniGeminiLlama (7B)
- QWen (1.8B - 72B)	- CogVLM-Chat (17B)
- QWen1.5 (0.5B - 110B)	- CogVLM2-Chat (19B)
- QWen1.5 - MoE (0.5B - 72B)	- MiniCPM-Llama3-V-2_5
- QWen2 (0.5B - 72B)	- Phi-3-vision (4.2B)
- Baichuan (7B)	- GLM-4V (9B)
- Baichuan2 (7B-13B)
- Code Llama (7B - 34B)
- ChatGLM2 (6B)
- GLM4 (9B)
- Falcon (7B - 180B)
- YI (6B-34B)
- Mistral (7B)
- DeepSeek-MoE (16B)
- DeepSeek-V2 (16B, 236B)
- Mixtral (8x7B, 8x22B)
- Gemma (2B - 7B)
- Dbrx (132B)
- StarCoder2 (3B - 15B)
- Phi-3-mini (3.8B)

3. 快速开始

使用 pip ( python 3.8+) 安装 LMDeploy，

pip install lmdeploy

部署 openai 兼容 api 格式的模型服务，

lmdeploy serve api_server internlm/internlm2_5-7b-chat --server-port 8000 --model-name internlm2

使用 Chatbox 设置访问，

在这里插入图片描述
问一个问题试一试，

在这里插入图片描述

reference: https://github.com/InternLM/lmdeploy

标签：7B,模型,internlm2,LMDeploy,internlm,lmdeploy,推理,7b
From： https://blog.csdn.net/engchina/article/details/140395032

使用 lmdeploy 部署 Qwen/Qwen2-7B-Instruct
使用lmdeploy部署internlm/internlm2_5-7b-chat0.引言1.lmdeploy性能2.lmdeploy支持的模型3.快速开始0.引言LMDeploy由MMDeploy和MMRazor团队联合开发，是涵盖了LLM任务的全套轻量化、部署和服务解决方案。这个强大的工具箱提供以下核心功能：高效的......
MAX98357、MAX98357A、MAX98357B小巧、低成本、PCM D类IIS放大器，具有AB类性能中文说明
前言：MAX98357A支持标准I2S数据，MAX98357B支持左对齐数字音频数据。两个版本均支持8通道TDM音频数据。IIS数字功放MAX98357开发板/评估系统MAX98357WLP-9(1.347x1.437mm)封装的外观和丝印AKMMAX98357TQFN-16-EP(3x3mm)封装的外观和丝印AKK引脚说明WLP......
解决办法：hyper-v导出虚拟机到ESXI报错找不到磁盘:dev disk by-uuid 4b85b6e9-f0d1-4dc
linux救援模式可以进入系统，发现UUID都是正常的。执行以下命令确认的：[root@localhost~]#cat/etc/fstabUUID=4b85b6e9-f0d1-4dc8-a9dd-aafad7b4354c/xfsdefaults00UUID=24c8c603-e6bd-453c-982f-79e9df3468fd/bootxfsdefaults00UUID=53608cf9-17c1-40c5-85ed-f88......
「杂题乱刷2」CF607B
代码恢复训练2024.7.2.链接(codeforces)链接(luogu)一道很基础的区间dp。只讲状态定义，$dp_{i,j}$表示$i\simj$区间需要的最少消除次数。时间复杂度$O(n^2)$。点击查看代码/*Tips:你数组开小了吗？你MLE了吗？你觉得是贪心，是不是该想想dp？一个小时没调出来......
YC307B [ 20240625 CQYC省选模拟赛 T2 ] 一个题（ynoi）
题意你需要维护一个可重集$S$，支持插入删除以及查询最大的方案使得给定正整数$k$，划分为$k$个非空子集的按位与结果之和最大。$n\le10^5$Sol先上个trie。然后考虑一次查询怎么搞。先转化一下，如果需要划分为$k$个子集，显然需要合并$n-k$次。我们只......
开源模型应用落地-Qwen2-7B-Instruct与vllm实现推理加速的正确姿势（十）
一、前言目前，大语言模型已升级至Qwen2版本。无论是语言模型还是多模态模型，均在大规模多语言和多模态数据上进行预训练，并通过高质量数据进行后期微调以贴近人类偏好。在本篇学习中，将集成vllm实现模型推理加速，现在，我们赶紧跟上技术发展的脚步，去体验一下新版本模型的推理质......
Qwen2 阿里最强开源大模型（Qwen2-7B）本地部署、API调用和WebUI对话机器人
阿里巴巴通义千问团队发布了Qwen2系列开源模型，该系列模型包括5个尺寸的预训练和指令微调模型：Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B以及Qwen2-72B。对比当前最优的开源模型，Qwen2-72B在包括自然语言理解、知识、代码、数学及多语言等多项能力上均显著超越当前领先的Lla......
ollama gpu 集成测试qwen2 7b 模型
昨天测试了下基于ollamacpu模式运行的qwen2对于小参数0.5b以及1.5b的速度还行，但是你的cpu核数以及内存还是需要大一些今天测试下基于gpu的qwen27b模型，以下简单说明下安装ollama如果我们申请的机器包含了GPU，ollama的安装cli还是比较方便的，会直接帮助我们进行gpu驱......
使用 vllm 本地部署 Qwen2-7B-Instruct
使用vllm本地部署Qwen2-7B-Instruct0.引言1.安装vllm2.本地部署Qwen2-7B-Instruct3.使用Qwen2-7B-Instruct0.引言此文章主要介绍使用使用vllm本地部署Qwen2-7B-Instruct。1.安装vllm创建虚拟环境，condacreate-nmyvllmpython=3.11-ycondaac......
NeMo训练llama2_7b(不用NeMo-Framework-Launcher)
@TOC本文介绍了NeMo如何训练llama2_7b模型1.参考链接支持的模型列表功能特性LLAMA2端到端流程(基于NeMo-Framework-Launcher)2.创建容器dockerrun--gpusall--shm-size=32g-ti-eNVIDIA_VISIBLE_DEVICES=all\--privileged--net=host-v$PWD:/home\......

使用 lmdeploy 部署 internlm/internlm2_5-7b-chat

使用 lmdeploy 部署 internlm/internlm2_5-7b-chat

0. 引言

1. lmdeploy 性能

2. lmdeploy 支持的模型

3. 快速开始

相关文章

赞助商

阅读排行