首页 > 其他分享 >使用8卡3090微调llama2-70B模型

使用8卡3090微调llama2-70B模型

时间:2023-12-08 23:55:07浏览次数:55  
标签:-- auto llama2 3090 train steps stage3 70B size

写在前面

很多问题尚未弄清,还在进一步调整

目前已知

我用8卡的3090

采用deepspeed ZeRO3进行运行,下面是deepspeed3的配置

 1 {
 2     "fp16": {
 3         "enabled": "auto",
 4         "loss_scale": 0,
 5         "loss_scale_window": 1000,
 6         "initial_scale_power": 16,
 7         "hysteresis": 2,
 8         "min_loss_scale": 1
 9     },
10 
11     "optimizer": {
12         "type": "AdamW",
13         "params": {
14             "lr": "auto",
15             "betas": "auto",
16             "eps": "auto",
17             "weight_decay": "auto"
18         }
19     },
20 
21     "scheduler": {
22         "type": "WarmupLR",
23         "params": {
24             "warmup_min_lr": "auto",
25             "warmup_max_lr": "auto",
26             "warmup_num_steps": "auto"
27         }
28     },
29 
30     "zero_optimization": {
31         "stage": 3,
32         "overlap_comm": true,
33         "contiguous_gradients": true,
34         "sub_group_size": 1e9,
35         "reduce_bucket_size": "auto",
36         "stage3_prefetch_bucket_size": "auto",
37         "stage3_param_persistence_threshold": "auto",
38         "stage3_max_live_parameters": 1e9,
39         "stage3_max_reuse_distance": 1e9,
40         "stage3_gather_16bit_weights_on_model_save": true
41     },
42 
43     "gradient_accumulation_steps": "auto",
44     "gradient_clipping": "auto",
45     "steps_per_print": 2000,
46     "train_batch_size": "auto",
47     "train_micro_batch_size_per_gpu": "auto",
48     "wall_clock_breakdown": false
49 }

这是运行命令代码

已知per_device_batch_size必须调大

deepspeed --num_gpus=8 src/train_bash.py \
    --stage sft \
    --model_name_or_path /hy-tmp/tigerbot-70b-chat-v4-4k \
    --do_train True \
    --finetuning_type lora \
    --template tigerbot \
    --dataset_dir data \
    --dataset self_cognition_golden \
    --cutoff_len 1024 \
    --learning_rate 0.01 \
    --num_train_epochs 1.0 \
    --per_device_train_batch_size 4 \
    --gradient_accumulation_steps 1 \
    --lr_scheduler_type cosine \
    --logging_steps 1 \
    --save_steps 100 \
    --lora_rank 256 \
    --lora_dropout 0.1 \
    --lora_target q_proj,v_proj \
    --output_dir saves \
    --fp16 True \
    --plot_loss True \
    --deepspeed deepspeed.json

 

这是运行代码

 

标签:--,auto,llama2,3090,train,steps,stage3,70B,size
From: https://www.cnblogs.com/alphainf/p/17889332.html

相关文章

  • medical custom dataset for fine-tuning llama2
    datapreparationweusehuggingfaceshibin6624/medical tofine-tuningllama2,pleasenotethatthisdatasetisconsistofenandcndata,herewejustuseendata.datasetstructure nowwedownloadandloaddataset,thensavethemintotrain.csv,valida......
  • 快速上手llama2.c
    title:快速上手llama2.cbanner_img:https://github.com/karpathy/llama2.c/blob/master/assets/llama_cute.jpgdate:2023-7-2516:19:00tags:-踩坑快速上手llama2.cllama2.c一个完整的解决方案,可以使用PyTorch从头开始训练的Llama2LLM(LightweightLanguageModel)模型......
  • 快速上手llama2.c(更新版)
    title:快速上手llama2.c(更新版)banner_img:https://github.com/karpathy/llama2.c/blob/master/assets/llama_cute.jpgdate:2023-7-2816:31:00tags:-踩坑快速上手llama2.c(更新版)在上一次我同时在我的博客和知乎发布了快速上手llama2.c之后,我一个小透明也收获了不......
  • 全新Self-RAG框架亮相,自适应检索增强助力超越ChatGPT与Llama2,提升事实性与引用准确性
    全新Self-RAG框架亮相,自适应检索增强助力超越ChatGPT与Llama2,提升事实性与引用准确性1.基本思想大型语言模型(LLMs)具有出色的能力,但由于完全依赖其内部的参数化知识,它们经常产生包含事实错误的回答,尤其在长尾知识中。为了解决这一问题,之前的研究人员提出了检索增强生成(RAG),它通......
  • 波士顿大学「鸭嘴兽-70B」登顶Hugging Face大模型排行榜!高效数据集+独特LoRA微调是关
    HuggingFace上的开源大模型排名榜又更新了,这次荣登榜一的是:鸭嘴兽(Platypus2-70B)!和现在抱脸开源榜单上大部分的模型一样,鸭嘴兽是来自波士顿大学的研究人员基于Llama2微调而来。同时,鸭嘴兽的进步就像之前所有的开源大模型那样:在提升性能的同时,使用更少的计算资源和数据。一个13B的......
  • 通义千问, 文心一言, ChatGLM, GPT-4, Llama2, DevOps 能力评测
    引言“克隆dev环境到test环境,等所有服务运行正常之后,把访问地址告诉我”,“检查所有项目,告诉我有哪些服务不正常,给出异常原因和修复建议”,在过去的工程师生涯中,也曾幻想过能够通过这样的自然语言指令来完成运维任务,如今AI助手Appilot利用LLM蕴藏的神奇力量,将这一切变成了......
  • 通义千问, 文心一言, ChatGLM, GPT-4, Llama2, DevOps 能力评测
    引言“克隆dev环境到test环境,等所有服务运行正常之后,把访问地址告诉我”,“检查所有项目,告诉我有哪些服务不正常,给出异常原因和修复建议”,在过去的工程师生涯中,也曾幻想过能够通过这样的自然语言指令来完成运维任务,如今AI助手Appilot利用LLM蕴藏的神奇力量,将这一切变成......
  • 使用 Appilot 部署 Llama2,会聊天就行!
    Walrus是一款基于平台工程理念的应用管理平台,致力于解决应用交付领域的深切痛点。借助Walrus将云原生的能力和最佳实践扩展到非容器化环境,并支持任意应用形态统一编排部署,降低使用基础设施的复杂度,为研发和运维团队提供易用、一致的应用管理和部署体验,进而构建无缝协作的软件交......
  • 大幅提升大模型的通用智能体能力!清华最新研究,让Llama2直逼GPT-4?
     作者|智商掉了一地、ZenMoore智能体(agent)是一种能够感知环境、做出决策并采取行动的实体。传统的智能体在专业领域表现出色,但在适应性和泛化方面通常表现欠缺。最近,随着ChatGPT的爆火出圈,最初设计用于语言任务的大型语言模型(LLMs)微调后在指令遵循、推理、规划甚至工具利......
  • 推特爆火!超越ChatGPT和Llama2,新一代检索增强方法Self-RAG来了原创
    作者|ZenMoore前言大型语言模型(LLMs)具有出色的能力,但由于完全依赖其内部的参数化知识,它们经常产生包含事实错误的回答,尤其在长尾知识中。为了解决这一问题,之前的研究人员提出了检索增强生成(RAG),它通过检索相关知识来增强LMs的效果,尤其在需要大量知识的任务,如问答中,表现出色。但RAG......