首页 > 其他分享 >基于Deepspeed实现LLaMA-13B或70B模型的微调

基于Deepspeed实现LLaMA-13B或70B模型的微调

时间:2024-02-02 19:13:52浏览次数:50  
标签:13B Deepspeed 训练 -- auto deepspeed train steps LLaMA

写在前面

事实证明,在部分情况下,依然有开启deepspeed的必要性

这是上一篇文章,讲述使用双卡/8卡3090微调llama2-70B/13B模型 - AlphaInf - 博客园 (cnblogs.com)

但这一篇文章,存在下面的几个问题:

  • 如果训练的数据的seq_len过长,那么很有可能出现OOM,无法训练长的数据
  • 如果需要调的参数极多,所需显存大幅超过了实际拥有的显存,那么也将无法微调

于是,就需要有deepspeed登场

deepspeed开启ZeRO3的情况下,可以将内存“虚拟化”为显存,在训练时,不将整个模型加载到显存中,而是将当前正在训练的部分加载进去(通常是逐层Transformer模块的形式)。

当设备的内存达到2TB时,则可实现70B级别模型的全量微调,且只需要3090显卡(甚至只需要一张!),且在单节点情况下,增加显卡可以使训练速度呈线性增长。

因此,会比传统的训练方法慢很多,且对通信带宽(特别是PCI总线)有着极高的要求。

在配置设备时,我们强烈建议采用PCIE 4.0的设备,而不是PCIE 3.0的设备(虽然8卡准系统的价格从1w变为了4w,但这是值得的)

笔者新配的机器,为一台10卡3090,采用了PCIE 4.0的准系统+2TB DDR4内存,使其具备了低成本进行70B模型推理的能力。

(低成本是相对的,这台机也要19w,够买一辆比亚迪汉了)

经过实测,在开启ZeRO3的情况下,一张A100-80G能达到4张3090的速度,但是价格却是3090的20倍(

微调和deepspeed环境的安装和激活

可以参考使用双卡/8卡3090微调llama2-70B/13B模型 - AlphaInf - 博客园 (cnblogs.com) 来安装基础的环境

在这个环境的基础上,通过pip install deepspeed安装deepspeed库。

本人采用了venv环境,安装虚拟环境,名字叫venv_deepspeed,以避免与其他环境产生冲突。

激活的命令是

source venv-deepspeed/bin/activate

此时,我们就可以进入虚拟环境中

这个虚拟环境和一般的python环境不一样,可以安装两套独立,互不影响的环境。

此外,你还需要配置ds_config(这个文件放在LLaMA-Factory的根目录下),这是一个ZeRO3的配置文件(根目录下也已经配好了)

{
    "bf16": {
        "enabled": true
    },

    "optimizer": {
        "type": "AdamW",
        "params": {
            "lr": "auto",
            "betas": "auto",
            "eps": "auto",
            "weight_decay": "auto"
        }
    },

    "scheduler": {
        "type": "WarmupLR",
        "params": {
            "warmup_min_lr": "auto",
            "warmup_max_lr": "auto",
            "warmup_num_steps": "auto"
        }
    },

    "zero_optimization": {
        "stage": 3,
        "offload_optimizer": {
            "device": "cpu",
            "pin_memory": true
        },
        "offload_param": {
            "device": "cpu",
            "pin_memory": true
        },
        "overlap_comm": true,
        "contiguous_gradients": true,
        "sub_group_size": 1e9,
        "reduce_bucket_size": "auto",
        "stage3_prefetch_bucket_size": "auto",
        "stage3_param_persistence_threshold": "auto",
        "stage3_max_live_parameters": 1e9,
        "stage3_max_reuse_distance": 1e9,
        "stage3_gather_16bit_weights_on_model_save": true
    },

    "gradient_accumulation_steps": "auto",
    "gradient_clipping": "auto",
    "steps_per_print": 2000,
    "train_batch_size": "auto",
    "train_micro_batch_size_per_gpu": "auto",
    "wall_clock_breakdown": false
}

启动deepspeed

我们在LLaMA-Factory的目录下,运行该命令即可启动

deepspeed --num_gpus 2 src/train_bash.py \
    --deepspeed ds_config.json \
    --stage sft \
    --do_train \
    --model_name_or_path /hy-tmp/tigerbot-13b-chat-v5-4k \
    --dataset self_cognition \
    --template tigerbot \
    --finetuning_type lora \
    --lora_target q_proj,v_proj \
    --cutoff_len 4096 \
    --output_dir /hy-tmp/tigerbot-13b-rename \
    --overwrite_cache \
    --per_device_train_batch_size 2 \
    --gradient_accumulation_steps 1 \
    --lr_scheduler_type cosine \
    --logging_steps 1 \
    --save_steps 1000 \
    --learning_rate 5e-5 \
    --num_train_epochs 3.0 \
    --plot_loss \
    --bf16 \
    --overwrite_output_dir

下面简单讲解下一些参数的含义

  • --deepspeed 控制ds_config的控制信息
  • --model_name_or_path 原始模型的路径
  • --dataset 数据集选择,可以参考LLaMA-Factory中如何修改该数据集
  • --template 模板的设置,可以参考前一篇非deepspeed微调的文章来设置。
  • --finetuning_type 微调方式,可以选择lora/freeze/full的方式进行微调。
  • --lora_target 设置要经过lora微调的是哪一些部分的权重
  • --cutlff_len 最长的训练数据,最多可以包含多少个token(注意,这里是输入+输出的长度总和)
  • --output_dir 输出训练好的权重的路径

下面给一个采用freeze法,在8卡3090上训练LLaMA-70B模型的命令

deepspeed --num_gpus 8 src/train_bash.py \
    --deepspeed ds_config.json \
    --stage sft \
    --do_train \
    --model_name_or_path /hy-tmp/tigerbot-70b-chat-v4-4k \
    --dataset 法条结构化 \
    --template tigerbot \
    --finetuning_type freeze \
    --num_layer_trainable 28 \
    --cutoff_len 4096 \
    --output_dir /hy-tmp/extract-law-structure-70b \
    --overwrite_cache \
    --per_device_train_batch_size 2 \
    --gradient_accumulation_steps 1 \
    --lr_scheduler_type cosine \
    --logging_steps 1 \
    --save_steps 1000 \
    --learning_rate 1e-5 \
    --num_train_epochs 1.0 \
    --plot_loss \
    --bf16 \
    --overwrite_output_dir

和上面不同的地方在于

  • 2卡变8卡,不过实际上2卡也可以训练,毕竟ZeRO3是一层一层训练的。

  • lora变为了freeze,且增加了num_layer_trainable的参数,这里相当于是,训练最后的28层参数(不包括norm),其他参数不参与训练。

    在28层训练的情况下,消耗的内存总量约为600GB

  • 训练轮数(num_train_epochs)被降低到了1,经过实测,训练参数一多,就得降低训练轮数,不然很容易过拟合

  • 学习率也被降低到了1e-5

标签:13B,Deepspeed,训练,--,auto,deepspeed,train,steps,LLaMA
From: https://www.cnblogs.com/alphainf/p/18003689

相关文章

  • 为什么llama用RMSnorm而不是layernorm
    来源:Llama美洲鸵(大羊驼)改进之一:均方层归一化RMSNorm-CSDN博客 ......
  • llama-recipes fine-tuning 3
    multipleGPUsinsinglenodeclicktoviewthecodetorchrun--nnodes1--nproc_per_node2examples/finetuning.py--enable_fsdp--use_peft--peft_methodlora--datasetmedcqa_dataset--model_namemeta-llama/Llama-2-7b-hf--fsdp_config.pure_bf16--output......
  • LLaMA
     近期Meta的羊驼模型(LLaMA)持续刷屏,杨立昆疯狂转发,在GPT4秀肌肉之前着实吸引了不少科研人员的眼球,开源的真香。然而LLaMA模型并没有进行指令微调,这不斯坦福马上公布了Alpaca模型,该模型是由Meta的LLaMA7B利用52k的指令微调出来的,据说性能约等于GPT-3.5。该模型目前没有开源,原......
  • 通过4个任务比较LangChain和LlamaIndex
    我们在本地使用大模型的时候,尤其是构建RAG应用的时候,一般会有2个成熟的框架可以使用LangChain:用开发LLM的通用框架。LlamaIndex:专门用于构建RAG系统的框架。选择一个框架是对于项目的后续开发是非常重要的,因为如果后续更换框架是一个非常困难的事情,所以我们这里对这两个框架......
  • python llama_index
    PythonLlamaIndexIntroductionPythonisapopularprogramminglanguageknownforitssimplicityandreadability.Ithasavastecosystemoflibrariesandframeworksthatmakeitsuitableforawiderangeofapplications,fromwebdevelopmenttodataana......
  • python 安装 llama_index
    Python安装llama_index简介在进行数据分析和机器学习的过程中,我们经常需要对数据进行索引和检索。其中,llama_index是一个强大的Python库,用于快速构建和管理索引。它提供了各种功能,包括全文搜索、近似搜索、范围搜索等。本文将向您介绍如何安装和使用llama_index。安装要安装l......
  • chatglmLlama模型架构对比
    ChatGPTvs.LlamaModelArchitectureComparisonInrecentyears,languagemodelshavemadesignificantprogressinthefieldofnaturallanguageprocessing.Twoprominentmodels,ChatGPTandLlama,havegainedattentionduetotheirimpressiveperformance......
  • llama模型 pytorch 加载
    Llama模型PyTorch加载![llama](简介Llama模型是一个用于图像分类的深度学习模型,它是基于PyTorch实现的。本文将介绍如何使用PyTorch加载Llama模型,并展示一个简单的图像分类示例。PyTorch简介PyTorch是一个开源的深度学习框架,它提供了丰富的工具和库,可以帮助我们构建、训练和......
  • LLaMA如何使用python调用
    使用Python调用LLaMA解决图像分类问题介绍LLaMA(LowLatencyModelAnalyzer)是一个用于分析和优化机器学习模型的开源工具。它可以帮助开发者在低延迟的环境中运行模型,并提供优化建议。本文将介绍如何使用Python调用LLaMA来解决一个具体的问题——图像分类。问题描述假设我们有......
  • python llama 安装
    PythonLlama安装流程概述在本文中,我将指导你如何安装PythonLlama。PythonLlama是一个非常有用的Python软件包,可以帮助你更轻松地开发Python应用程序。下面是整个安装过程的流程图:flowchartTDA[开始]-->B[下载PythonLlama]B-->C[安装依赖]C-->D[安装......