首页 > 其他分享 >书生浦语大模型实战训练营L2G3000 LMDeploy 量化部署实践闯关任务

书生浦语大模型实战训练营L2G3000 LMDeploy 量化部署实践闯关任务

时间:2024-12-01 16:57:20浏览次数:11  
标签:L2G3000 name -- internlm2 models chat LMDeploy root 浦语

LMDeploy 量化部署实践闯关任务

文章目录


前言

  1. 使用结合W4A16量化与kv cache量化的internlm2_5-1_8b-chat模型封装本地API并与大模型进行一次对话。
  2. 使用Function call功能让大模型完成一次简单的"加"与"乘"函数调用。

一、任务一

在终端中,让我们输入以下指令,来创建一个名为lmdeploy的conda环境,python版本为3.10,创建成功后激活环境并安装0.5.3版本的lmdeploy及相关包。

conda create -n lmdeploy  python=3.10 -y
conda activate lmdeploy
conda install pytorch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 pytorch-cuda=12.1 -c pytorch -c nvidia -y
pip install timm==1.0.8 openai==1.40.3 lmdeploy[all]==0.5.3

pip install datasets==2.19.2

为方便文件管理,我们需要一个存放模型的目录,本教程统一放置在/root/models/目录。

运行以下命令,创建文件夹并设置开发机共享目录的软链接。

mkdir /root/models
ln -s /root/share/new_models/Shanghai_AI_Laboratory/internlm2_5-7b-chat /root/models
ln -s /root/share/new_models/Shanghai_AI_Laboratory/internlm2_5-1_8b-chat /root/models
ln -s /root/share/new_models/OpenGVLab/InternVL2-26B /root/models

此时,我们可以看到/root/models中会出现internlm2_5-7b-chat、internlm2_5-1_8b-chat和InternVL2-26B文件夹。
教程使用internlm2_5-7b-chat和InternVL2-26B作为演示。由于上述模型量化会消耗大量时间(约8h),量化作业请使用internlm2_5-1_8b-chat模型完成。

在量化工作正式开始前,我们还需要验证一下获取的模型文件能否正常工作,以免竹篮打水一场空。

让我们进入创建好的conda环境并启动InternLM2_5-7b-chat!

conda activate lmdeploy
lmdeploy chat /root/models/internlm2_5-7b-chat

在这里插入图片描述

在这里插入图片描述

W4A16 量化+ KV cache+KV cache 量化

量化命令

lmdeploy lite auto_awq \
   /root/models/internlm2_5-1_8b-chat \
  --calib-dataset 'ptb' \
  --calib-samples 128 \
  --calib-seqlen 2048 \
  --w-bits 4 \
  --w-group-size 128 \
  --batch-size 1 \
  --search-scale False \
  --work-dir /root/models/internlm2_5-1_8b-chat-w4a16-4bit

在这里插入图片描述
量化后的模型做KV cache

lmdeploy serve api_server \
    /root/models/internlm2_5-1_8b-chat-w4a16-4bit/ \
    --model-format awq \
    --quant-policy 4 \
    --cache-max-entry-count 0.4\
    --server-name 0.0.0.0 \
    --server-port 23333 \
    --tp 1

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

二、任务二

使用Function call

conda activate lmdeploy
lmdeploy serve api_server \
    /root/models/internlm2_5-1_8b-chat-w4a16-4bit \
    --model-format awq \
    --cache-max-entry-count 0.4 \
    --quant-policy 4 \
    --server-name 0.0.0.0 \
    --server-port 23333 \
    --tp 1

在新建终端中输入如下指令,新建internlm2_5.py

touch /root/internlm2_5.py

此时我们可以在左侧的File Broswer中看到internlm2_5.py文件,双击打开。

将以下内容复制粘贴进internlm2_5.py

# 导入openai模块中的OpenAI类,这个类用于与OpenAI API进行交互
from openai import OpenAI


# 创建一个OpenAI的客户端实例,需要传入API密钥和API的基础URL
client = OpenAI(
    api_key='YOUR_API_KEY',  
    # 替换为你的OpenAI API密钥,由于我们使用的本地API,无需密钥,任意填写即可
    base_url="http://0.0.0.0:23333/v1"  
    # 指定API的基础URL,这里使用了本地地址和端口
)

# 调用client.models.list()方法获取所有可用的模型,并选择第一个模型的ID
# models.list()返回一个模型列表,每个模型都有一个id属性
model_name = client.models.list().data[0].id

# 使用client.chat.completions.create()方法创建一个聊天补全请求
# 这个方法需要传入多个参数来指定请求的细节
response = client.chat.completions.create(
  model=model_name,  
  # 指定要使用的模型ID
  messages=[  
  # 定义消息列表,列表中的每个字典代表一个消息
    {"role": "system", "content": "你是一个友好的小助手,负责解决问题."},  
    # 系统消息,定义助手的行为
    {"role": "user", "content": "帮我讲述一个关于狐狸和西瓜的小故事"},  
    # 用户消息,询问时间管理的建议
  ],
    temperature=0.8,  
    # 控制生成文本的随机性,值越高生成的文本越随机
    top_p=0.8  
    # 控制生成文本的多样性,值越高生成的文本越多样
)

# 打印出API的响应结果
print(response.choices[0].message.content)

Ctrl+S键保存(Mac用户按Command+S)。

现在让我们在新建终端输入以下指令激活环境并运行python代码。

conda activate lmdeploy
python /root/internlm2_5.py

终端会输出如下结果。

此时代表我们成功地使用本地API与大模型进行了一次对话,如果切回第一个终端窗口,会看到如下信息,这代表其成功的完成了一次用户问题GET与输出POST。

关于Function call,即函数调用功能,它允许开发者在调用模型时,详细说明函数的作用,并使模型能够智能地根据用户的提问来输入参数并执行函数。完成调用后,模型会将函数的输出结果作为回答用户问题的依据。

首先让我们进入创建好的conda环境并启动API服务器。

conda activate lmdeploy
lmdeploy serve api_server \
    /root/models/internlm2_5-7b-chat \
    --model-format hf \
    --quant-policy 0 \
    --server-name 0.0.0.0 \
    --server-port 23333 \
    --tp 1

目前LMDeploy在0.5.3版本中支持了对InternLM2, InternLM2.5和llama3.1这三个模型,故我们选用InternLM2.5 封装API。

让我们使用一个简单的例子作为演示。输入如下指令,新建internlm2_5_func.py

touch /root/internlm2_5_func.py

双击打开,并将以下内容复制粘贴进internlm2_5_func.py

from openai import OpenAI


def add(a: int, b: int):
    return a + b


def mul(a: int, b: int):
    return a * b


tools = [{
    'type': 'function',
    'function': {
        'name': 'add',
        'description': 'Compute the sum of two numbers',
        'parameters': {
            'type': 'object',
            'properties': {
                'a': {
                    'type': 'int',
                    'description': 'A number',
                },
                'b': {
                    'type': 'int',
                    'description': 'A number',
                },
            },
            'required': ['a', 'b'],
        },
    }
}, {
    'type': 'function',
    'function': {
        'name': 'mul',
        'description': 'Calculate the product of two numbers',
        'parameters': {
            'type': 'object',
            'properties': {
                'a': {
                    'type': 'int',
                    'description': 'A number',
                },
                'b': {
                    'type': 'int',
                    'description': 'A number',
                },
            },
            'required': ['a', 'b'],
        },
    }
}]
messages = [{'role': 'user', 'content': 'Compute (3+5)*2'}]

client = OpenAI(api_key='YOUR_API_KEY', base_url='http://0.0.0.0:23333/v1')
model_name = client.models.list().data[0].id
response = client.chat.completions.create(
    model=model_name,
    messages=messages,
    temperature=0.8,
    top_p=0.8,
    stream=False,
    tools=tools)
print(response)
func1_name = response.choices[0].message.tool_calls[0].function.name
func1_args = response.choices[0].message.tool_calls[0].function.arguments
func1_out = eval(f'{func1_name}(**{func1_args})')
print(func1_out)

messages.append({
    'role': 'assistant',
    'content': response.choices[0].message.content
})
messages.append({
    'role': 'environment',
    'content': f'3+5={func1_out}',
    'name': 'plugin'
})
response = client.chat.completions.create(
    model=model_name,
    messages=messages,
    temperature=0.8,
    top_p=0.8,
    stream=False,
    tools=tools)
print(response)
func2_name = response.choices[0].message.tool_calls[0].function.name
func2_args = response.choices[0].message.tool_calls[0].function.arguments
func2_out = eval(f'{func2_name}(**{func2_args})')
print(func2_out)

现在让我们输入以下指令运行python代码。

python /root/internlm2_5_func.py

不知道为什么,始终会报错:
在这里插入图片描述
报错信息显示是代理原因,因此我们将代码进行修改,不再使用api开发形式,直接本地导入量化以后的模型权重,代码如下:

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch


def add(a: int, b: int):
    return a + b


def mul(a: int, b: int):
    return a * b


tools = [{
    'type': 'function',
    'function': {
        'name': 'add',
        'description': 'Compute the sum of two numbers',
        'parameters': {
            'type': 'object',
            'properties': {
                'a': {
                    'type': 'int',
                    'description': 'A number',
                },
                'b': {
                    'type': 'int',
                    'description': 'A number',
                },
            },
            'required': ['a', 'b'],
        },
    }
}, {
    'type': 'function',
    'function': {
        'name': 'mul',
        'description': 'Calculate the product of two numbers',
        'parameters': {
            'type': 'object',
            'properties': {
                'a': {
                    'type': 'int',
                    'description': 'A number',
                },
                'b': {
                    'type': 'int',
                    'description': 'A number',
                },
            },
            'required': ['a', 'b'],
        },
    }
}]
messages = [{'role': 'user', 'content': 'Compute (3+5)*2 only'}]

# Load the model and tokenizer
model_path = '/root/models/internlm2_5-1_8b-chat-w4a16-4bit'
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    torch_dtype=torch.float16,
    trust_remote_code=True
).cuda()

# Prepare input text
input_text = messages[0]['content']

# Tokenize input
inputs = tokenizer(input_text, return_tensors="pt").to("cuda")

# Generate output
with torch.no_grad():
    outputs = model.generate(
        inputs.input_ids,
        max_length=50,
        temperature=0.1,
        top_p=0.8,
    )

# Decode and print output
response_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("Response:", response_text)

# Simulate tool execution
func1_name = "add"
func1_args = {'a': 3, 'b': 5}
func1_out = eval(f'{func1_name}(**{func1_args})')
print("Function 1 Output:", func1_out)

func2_name = "mul"
func2_args = {'a': func1_out, 'b': 2}
func2_out = eval(f'{func2_name}(**{func2_args})')
print("Function 2 Output:", func2_out)

稍待片刻终端输出如下。
在这里插入图片描述

标签:L2G3000,name,--,internlm2,models,chat,LMDeploy,root,浦语
From: https://blog.csdn.net/qq_30731313/article/details/144140988

相关文章

  • baichuan_lmdeploy大规模对话问答语言模型
    Baichuan论文无模型结构Baichuan系列模型是由百川智能开发的开源大规模预训练模型,包含7B和13B等规模。其中,Baichuan-7B在大约1.2万亿tokens上训练的70亿参数模型,支持中英双语,上下文窗口长度为4096。模型具体参数:模型名称隐含层维度层数头数词表大小总参数量训练数据(toke......
  • 浦语Camp3:基础4-Llamaindex RAG实践
    基础任务任务要求:基于LlamaIndex构建自己的RAG知识库,寻找一个问题A在使用LlamaIndex之前InternLM2-Chat-1.8B模型不会回答,借助LlamaIndex后InternLM2-Chat-1.8B模型具备回答A的能力,截图保存。需要A10030%内存!!!安装环境:condacreate-nllamaindexpython=3.1......
  • 【书生·浦语实战营】进阶岛第6关:MindSearch CPU-only 版部署
    文章目录任务目标学习内容1.创建开发机&环境配置[CondaError:Runcondainit'before'condaactivate']报错解决[ERROR:Couldnotopenrequirementsfile:[Errno13]Permissiondenied:'/root/mindsearch/Mindsearch/requirements.txt]报错解决2.获取硅基流动APIK......
  • 浦语Camp3:入门3-Git基础
    任务等级任务内容必做任务破冰,提交一份自我介绍必做任务创建并提交一个项目1.破冰,提交一份自我介绍因此使用gitconfig--global命令来设置用户名和用户邮件执行:gitconfig--globaluser.name"YourName"#真实信息脱敏处理gitconfig--globaluser.email"your......
  • 浦语Camp3:入门2-Python基础
    任务类型任务内容闯关任务python实现wordcount闯关任务Vscode连接InternStudiodebug笔记1.python实现wordcount请实现一个wordcount函数,统计英文字符串中每个单词出现的次数。返回一个字典,key为单词,value为对应单词出现的次数text="""Gotthispandaplushtoyformyd......
  • 浦语Camp3:入门1-Linux基础
    任务等级任务内容闯关任务完成SSH连接与端口映射并运行hello_world.py可选任务1将Linux基础命令在开发机上完成一遍可选任务2使用VSCODE远程连接开发机并创建一个conda环境可选任务3创建并运行test.sh文件1.完成SSH连接与端口映射并运行hello_world.py新建hello_world.p......
  • 书生·浦语大模型 进阶岛 InternVL 多模态模型部署
    基础任务使用QLoRA进行微调模型,复现微调效果,并能成功讲出梗图。尝试使用LoRA,或调整xtuner的config,如LoRArank,学习率。看模型Loss会如何变化,并记录调整后效果。1.使用QLoRA进行微调模型2.微调后结果合并cdXTunerpython3xtuner/configs/internvl/v1_5/convert_to_of......
  • 【书生大模型实战营(暑假场)闯关材料】基础岛:第3关 浦语提示词工程实践
    1.配置环境时遇到的问题注意要使用terminal,而不是jupyter。否则退出TMUX会话时,会出问题。退出TMUX会话命令如下:ctrl+BD#先按CTRL+B随后按D另外一个是,端口转发命令ssh-pXXXXroot@ssh.intern-ai.org.cn-CNg-L{本地机器_PORT}:127.0.0.1:{开发机_PORT}-oS......
  • 书生大模型实战营3期 - 进阶岛 - 3 - LMDeploy 量化部署进阶实践
    文章目录闯关任务完成结果闯关任务任务描述:LMDeploy量化部署实践闯关任务任务文档:LMDeploy量化部署进阶实践完成结果使用结合W4A16量化与kvcache量化的internlm2_5-7b-chat模型封装本地API并与大模型进行一次对话,作业截图需包括显存占用情况与大模型回复,参考4......
  • 【书生浦语大模型实战营学习笔记】第一课 浦语大模型全链路开源开放体系
    视频内容总结:视频是由汪周谦主讲,主题是介绍书生谱语大模型开源开放体系。内容主要包括以下几个方面: 1.**书生谱语大模型的发展历程**:-从2023年7月6日起,书生谱语大模型(Interlm)开始免费开源并商用,提供了全链条的开源工具体系。-2023年9月底,发布了适合中小企业和科研......