deepspeed

2024-09-07Distributed Training: DeepSpeed ZeRO 1/2/3 + Accelerate, Megatron-LM
1IntroductionGithub:https://github.com/microsoft/DeepSpeedZeRO:MemoryOptimizationsTowardTrainingTrillionParameterModelsZeRO-Offload:DemocratizingBillion-ScaleModelTrainingZeRO-Infinity:BreakingtheGPUMemoryWallforExtremeScaleDee
2024-08-05BMTrain类Megatron+DeepSpeed原理学习
这一章节虽然是BMTrain，不是目前常用的Megatron+DeepSpeed，但是对于了解原理，也是很有帮助。BMTrain数据并行一般数据并行上图，把数据切为3份，每张显卡处理一部分数据，每张显卡利用得到的数据进行前向传播和反向传播，得到各自的梯度，为了让模型学到这份数据的所有知识，就需要
2024-07-297.28-跑deepspeed
完整代码：https://github.com/chenyinlin1/deepspeed_practice_example官方文档：https://www.deepspeed.ai/getting-started/Deepspeed安装：1、创建虚拟环境deepspeed:condacreate-ndeepspeedpython=3.82、cd/public/software/apps/DeepLearning/whl安装对应版本的torch,t
2024-07-28LLM大模型：deepspeed实战和原理解析
多年前搞大数据，因为单节点无力存储和计算PB级别的数据，所以hadoop这种分布式存储和计算框架是标配！如今搞大模型，仍然需要对大量样本数据做计算，因为涉及矩阵运算，单机单卡运算效率太低，也涉及到分布式计算了，大模型时代的分布式pre-train和Inference框架就有现成的—deepspeed！
2024-07-23DeepSpeed x MiniGPT4Qwen
#关于DeepSpeed的尝试知乎博客地址：https://zhuanlan.zhihu.com/p/673359684##参考Repo：https://github.com/microsoft/DeepSpeedExampleshttps://github.com/microsoft/DeepSpeedExamples/blob/master/training/HelloDeepSpeed/train_bert_ds.py，代码拷贝到了本项目的：htt
2024-07-17deepspeed训练模型提示：cpu_adam.so: cannot open shared object file: No such file or directory
背景本人在安装deepspeed后遇到了这个报错，明眼人一看就是缺库，但是搜索到的解决方案(凌漪_,2023)说是设置一个环境变量，实在是治标不治本，而且对本人来说连标都治不了。其他的博客尚未看到解决此问题的。分析这个so文件理论上应该在安装deepspeed的过程中就自动编译好了，但是
2024-07-08处理报错deepspeed使用trainer object.__init__() takes exactly one argument (the instance to initialize)
项目场景：在kaggle上结合deepspeed使用trainer问题描述报错TypeError:object.init()takesexactlyoneargument(theinstancetoinitialize)具体如下：File/opt/conda/lib/python3.10/site-packages/transformers/training_args.py:1934,inTrainingArguments.__
2024-06-30（五）DeepSpeed Chat: 一键式RLHF训练，让你的类ChatGPT千亿大模型提速省钱15倍
DeepSpeedChat:一键式RLHF训练，让你的类ChatGPT千亿大模型提速省钱15倍如需引用DeepSpeedChat，请引用我们的arxivreport:@article{yao2023dschat,title={{DeepSpeed-Chat:Easy,FastandAffordableRLHFTrainingofChatGPT-likeModelsatAllScales}},autho
2024-04-18deepspeed 训练多机多卡报错 ncclSystemError Last error
最近在搞分布式训练大模型，踩了两个晚上的坑今天终于爬出来了我们使用2台8*H100遇到过错误110.255.19.85:ncclSystemError:Systemcall(e.g.socket,malloc)orexternallibrarycallfailedordeviceerror.10.255.19.85:Lasterror:10.255.19.85:socketStartCo
2024-04-05Megatron-DeepSpeed-GPU-多机训练
Megatron-DeepSpeed-cuda-多机训练1.从ngc拉取pytorch:24.03-py3镜像2.安装nvidia-docker、创建容器3.安装Megatron-DeepSpeed环境4.安装openmpi和ssh服务5.拷贝公钥6.安装pdsh7.升级protobuf8.准备数据集9.创建配置文件10.开始测试本文演示了Megatron-DeepSpeed-GPU-
2024-04-04deepspeed学习-多机all_reduce
deepspeed学习-多机all_reduce一.安装nvidia-docker二.构建容器1.创建容器2.更新apt源3.安装依赖4.安装cuda12.1(编译deepspeed需要)5.设置ssh端口和密码(为避免跟hostsshd冲突,修改了容器里sshd端口)6.运行sshd服务7.安装pytorch8.测试nccl9.安装deepspeed10.退出容器
2024-03-20AIStation制作DeepSpeed镜像
如何在AIStation训练平台中制作DeepSpeed镜像需要注意：以下操作都是在普通账户操作的，管理员无法操作1、导入NGC镜像1.1到NGC官网连接https://catalog.ngc.nvidia.com/orgs/nvidia/containers/pytorch/tags，根据需求torch及cuda版本，选择对应的NGC镜像地址，并复制，如选择希望导入21.1
2024-02-02基于Deepspeed实现LLaMA-13B或70B模型的微调
写在前面事实证明，在部分情况下，依然有开启deepspeed的必要性这是上一篇文章，讲述使用双卡/8卡3090微调llama2-70B/13B模型-AlphaInf-博客园(cnblogs.com)但这一篇文章，存在下面的几个问题：如果训练的数据的seq_len过长，那么很有可能出现OOM，无法训练长的数据如果需要调的参数
2024-01-01DeepSpeed 学习 [2]: 从 0 开始 DeepSpeed 实战
目录DDP初探MinimumDDPExampleMULTIGPUTRAININGWITHDDP(SingletoMulti)Install初始化TrainingModelCheckpointingDeepSpeedConfiguration单机多卡最简单的Example实战Reference书接上文对ZeRO进行了详细的分析，但是talkischeap，今天开始我会陆续更新一些DeepSp
2023-12-20DeepSpeed分布式训练
一、DeepSpeed总纲官方文档：DeepSpeed官方英文文档cpoy下来的原版DeepSpeed模型的训练是使用DeeSpeed引擎完成的DeepSpeed引擎可以包装任何torch.nn.module类型的模型二、训练1、通过deepspeed.initialize初始化#deepspeed.initialize确保分布式数据并行或混合精度
2023-12-12【LLMOps】Accelerate & DeepSpeed多卡使用
介绍目前大模型微调主要方案是LLaMA-Factory LLaMA-Factory中，提供了两种多卡框架：Accelerate、DeepSpeedAccelerate依赖accelerate==0.24.1transformers==4.34.1datasets==2.14.7tiktoken==0.5.1peft==0.6.2trl==0.7.1这里只列出可能冲突版本注意使用最新版本0.24.1，尝
2023-11-26在Megatron-Deepspeed项目中如何下载和预处理Wikipedia数据集
更详细的查看https://github.com/marsggbo/Megatron-DeepSpeed/blob/main/tutorials/gpt2_wikipedia.md下载Wikipedia压缩数据集（enwiki-latest-pages-articles.xml.bz2）再使用wikiextractor工具将数据集解压缩pipinstallwikiextractorpython-mwikiextractor.WikiExt
2023-10-26DeepSpeed：大模型训练框架 | 京东云技术团队
背景：目前，大模型的发展已经非常火热，关于大模型的训练、微调也是各个公司重点关注方向。但是大模型训练的痛点是模型参数过大，动辄上百亿，如果单靠单个GPU来完成训练基本不可能。所以需要多卡或者分布式训练来完成这项工作。一、分布式训练1.1目前主流的大模型分布式训练主要包括两种：
2023-08-28deepspeed流水线并行
docs/_tutorials/pipeline.mdhttps://gitee.com/qzl66/DeepSpeed/blob/master/docs/_tutorials/pipeline.md 1、重构管道模型 ExpressingPipelineModels 流水线并行要求模型被表示为一系列层。在前向传播中，每一层输入为上一层的输出。其实管道并行模型是不需要指定forw
2023-08-03开源大模型训练框架 colossal AI chat 、 DeepSpeed chat
Colossal-AI是一个专注于大规模模型训练的深度学习系统，Colossal-AI基于PyTorch开发，旨在支持完整的高性能分布式训练生态。Colossal-AI已在GitHub上开源。在Colossal-AI中，我们支持了不同的分布式加速方式，包括张量并行、流水线并行、零冗余数据并行、异构计算等。
2023-06-29【AI 充电】揭秘大语言模型实践：分布式推理的工程化落地才是关键！
分布式推理成为大模型落地的首选方案随着3月15日OpenAI重磅发布了GPT4，其在司法考试、程序编程上的惊艳表现，将大家对大模型的热情推向了顶点，人们纷纷讨论是否我们已经进入到通用人工智能的时代。与此同时，基于大语言模型的应用也如雨后春笋出现在大家面前，其在协同办公、客服
2023-06-24deepspeed ZeRO-Inference 可在1-GPU上推理～100B的大模型
原理：
2023-04-19DeepSpeed Chat: 一键式RLHF训练，让你的类ChatGPT千亿大模型提速省钱15倍
DeepSpeedChat:一键式RLHF训练，让你的类ChatGPT千亿大模型提速省钱15倍1.概述近日来，ChatGPT及类似模型引发了人工智能（AI）领域的一场风潮。这场风潮对数字世界产生了革命性影响。ChatGPT类模型具有惊人的泛用性，能够执行归纳、编程、翻译等任务，其结果与人类专家相当甚至更优。为
2023-04-13微软开源DeepSpeed
人手一个ChatGPT的梦想，就要实现了？刚刚，微软开源了一个可以在模型训练中加入完整RLHF流程的系统框架——DeepSpeedChat。也就是说，各种规模的高质量类ChatGPT模型，现在都唾手可得了！项目地址：https://github.com/microsoft/DeepSpeed一键解锁千亿级ChatGPT，轻松省钱15
2023-04-06大语言模型快速推理: 在 Habana Gaudi2 上推理 BLOOMZ
本文将展示如何在Habana®Gaudi®2上使用