首页 > 其他分享 >使用 lmdeploy 部署 internlm/internlm2_5-7b-chat

使用 lmdeploy 部署 internlm/internlm2_5-7b-chat

时间:2024-07-13 15:55:52浏览次数:20  
标签:7B 模型 internlm2 LMDeploy internlm lmdeploy 推理 7b

使用 lmdeploy 部署 internlm/internlm2_5-7b-chat

0. 引言

LMDeploy 由 MMDeploy 和 MMRazor 团队联合开发,是涵盖了 LLM 任务的全套轻量化、部署和服务解决方案。 这个强大的工具箱提供以下核心功能:

高效的推理:LMDeploy 开发了 Persistent Batch(即 Continuous Batch),Blocked K/V Cache,动态拆分和融合,张量并行,高效的计算 kernel等重要特性。推理性能是 vLLM 的 1.8 倍

可靠的量化:LMDeploy 支持权重量化和 k/v 量化。4bit 模型推理效率是 FP16 下的 2.4 倍。量化模型的可靠性已通过 OpenCompass 评测得到充分验证。

便捷的服务:通过请求分发服务,LMDeploy 支持多模型在多机、多卡上的推理服务。

有状态推理:通过缓存多轮对话过程中 attention 的 k/v,记住对话历史,从而避免重复处理历史会话。显著提升长文本多轮对话场景中的效率。

卓越的兼容性: LMDeploy 支持 KV Cache 量化, AWQ 和 Automatic Prefix Caching 同时使用。

1. lmdeploy 性能

LMDeploy TurboMind 引擎拥有卓越的推理能力,在各种规模的模型上,每秒处理的请求数是 vLLM 的 1.36 ~ 1.85 倍。在静态推理能力方面,TurboMind 4bit 模型推理速度(out token/s)远高于 FP16/BF16 推理。在小 batch 时,提高到 2.4 倍。

在这里插入图片描述

2. lmdeploy 支持的模型

2024年7月13日时点

LLMsVLMs
- Llama (7B - 65B)- LLaVA(1.5,1.6) (7B-34B)
- Llama2 (7B - 70B)- InternLM-XComposer2 (7B, 4khd-7B)
- Llama3 (8B, 70B)- QWen-VL (7B)
- InternLM (7B - 20B)- DeepSeek-VL (7B)
- InternLM2 (7B - 20B)- InternVL-Chat (v1.1-v1.5)
- InternLM2.5 (7B)- MiniGeminiLlama (7B)
- QWen (1.8B - 72B)- CogVLM-Chat (17B)
- QWen1.5 (0.5B - 110B)- CogVLM2-Chat (19B)
- QWen1.5 - MoE (0.5B - 72B)- MiniCPM-Llama3-V-2_5
- QWen2 (0.5B - 72B)- Phi-3-vision (4.2B)
- Baichuan (7B)- GLM-4V (9B)
- Baichuan2 (7B-13B)
- Code Llama (7B - 34B)
- ChatGLM2 (6B)
- GLM4 (9B)
- Falcon (7B - 180B)
- YI (6B-34B)
- Mistral (7B)
- DeepSeek-MoE (16B)
- DeepSeek-V2 (16B, 236B)
- Mixtral (8x7B, 8x22B)
- Gemma (2B - 7B)
- Dbrx (132B)
- StarCoder2 (3B - 15B)
- Phi-3-mini (3.8B)

3. 快速开始

使用 pip ( python 3.8+) 安装 LMDeploy,

pip install lmdeploy

部署 openai 兼容 api 格式的模型服务,

lmdeploy serve api_server internlm/internlm2_5-7b-chat --server-port 8000 --model-name internlm2

使用 Chatbox 设置访问,

在这里插入图片描述
问一个问题试一试,

在这里插入图片描述

reference: https://github.com/InternLM/lmdeploy

标签:7B,模型,internlm2,LMDeploy,internlm,lmdeploy,推理,7b
From: https://blog.csdn.net/engchina/article/details/140395032

相关文章

  • 使用 lmdeploy 部署 Qwen/Qwen2-7B-Instruct
    使用lmdeploy部署internlm/internlm2_5-7b-chat0.引言1.lmdeploy性能2.lmdeploy支持的模型3.快速开始0.引言LMDeploy由MMDeploy和MMRazor团队联合开发,是涵盖了LLM任务的全套轻量化、部署和服务解决方案。这个强大的工具箱提供以下核心功能:高效的......
  • MAX98357、MAX98357A、MAX98357B小巧、低成本、PCM D类IIS放大器,具有AB类性能中文说明
    前言:MAX98357A支持标准I2S数据,MAX98357B支持左对齐数字音频数据。两个版本均支持8通道TDM音频数据。IIS数字功放MAX98357开发板/评估系统MAX98357WLP-9(1.347x1.437mm)封装的外观和丝印AKMMAX98357TQFN-16-EP(3x3mm)封装的外观和丝印AKK引脚说明WLP......
  • 解决办法:hyper-v导出虚拟机到ESXI报错找不到磁盘:dev disk by-uuid 4b85b6e9-f0d1-4dc
    linux救援模式可以进入系统,发现UUID都是正常的。执行以下命令确认的:[root@localhost~]#cat/etc/fstabUUID=4b85b6e9-f0d1-4dc8-a9dd-aafad7b4354c/xfsdefaults00UUID=24c8c603-e6bd-453c-982f-79e9df3468fd/bootxfsdefaults00UUID=53608cf9-17c1-40c5-85ed-f88......
  • 「杂题乱刷2」CF607B
    代码恢复训练2024.7.2.链接(codeforces)链接(luogu)一道很基础的区间dp。只讲状态定义,\(dp_{i,j}\)表示\(i\simj\)区间需要的最少消除次数。时间复杂度\(O(n^2)\)。点击查看代码/*Tips:你数组开小了吗?你MLE了吗?你觉得是贪心,是不是该想想dp?一个小时没调出来......
  • YC307B [ 20240625 CQYC省选模拟赛 T2 ] 一个题(ynoi)
    题意你需要维护一个可重集\(S\),支持插入删除以及查询最大的方案使得给定正整数\(k\),划分为\(k\)个非空子集的按位与结果之和最大。\(n\le10^5\)Sol先上个trie。然后考虑一次查询怎么搞。先转化一下,如果需要划分为\(k\)个子集,显然需要合并\(n-k\)次。我们只......
  • 开源模型应用落地-Qwen2-7B-Instruct与vllm实现推理加速的正确姿势(十)
    一、前言  目前,大语言模型已升级至Qwen2版本。无论是语言模型还是多模态模型,均在大规模多语言和多模态数据上进行预训练,并通过高质量数据进行后期微调以贴近人类偏好。在本篇学习中,将集成vllm实现模型推理加速,现在,我们赶紧跟上技术发展的脚步,去体验一下新版本模型的推理质......
  • Qwen2 阿里最强开源大模型(Qwen2-7B)本地部署、API调用和WebUI对话机器人
    阿里巴巴通义千问团队发布了Qwen2系列开源模型,该系列模型包括5个尺寸的预训练和指令微调模型:Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B以及Qwen2-72B。对比当前最优的开源模型,Qwen2-72B在包括自然语言理解、知识、代码、数学及多语言等多项能力上均显著超越当前领先的Lla......
  • ollama gpu 集成测试qwen2 7b 模型
    昨天测试了下基于ollamacpu模式运行的qwen2对于小参数0.5b以及1.5b的速度还行,但是你的cpu核数以及内存还是需要大一些今天测试下基于gpu的qwen27b模型,以下简单说明下安装ollama如果我们申请的机器包含了GPU,ollama的安装cli还是比较方便的,会直接帮助我们进行gpu驱......
  • 使用 vllm 本地部署 Qwen2-7B-Instruct
    使用vllm本地部署Qwen2-7B-Instruct0.引言1.安装vllm2.本地部署Qwen2-7B-Instruct3.使用Qwen2-7B-Instruct0.引言此文章主要介绍使用使用vllm本地部署Qwen2-7B-Instruct。1.安装vllm创建虚拟环境,condacreate-nmyvllmpython=3.11-ycondaac......
  • NeMo训练llama2_7b(不用NeMo-Framework-Launcher)
    @TOC本文介绍了NeMo如何训练llama2_7b模型1.参考链接支持的模型列表功能特性LLAMA2端到端流程(基于NeMo-Framework-Launcher)2.创建容器dockerrun--gpusall--shm-size=32g-ti-eNVIDIA_VISIBLE_DEVICES=all\--privileged--net=host-v$PWD:/home\......