分布式训练Distributed training

时间：2024-01-27 18:12:07浏览次数：26

标签：training 训练 AI 模型 Distributed 硬件内存数据传输分布式

motivation

为什么需要分布式训练？

随着模型规模和参数量的增大，对硬件的要求也变大（算力、内存）。

现实困境是单一设备有内存墙（模型需要的运算量提高很快→需要研发AI硬件（提高硬件的峰值算力）→简化或者删除其他部分（例如内存的分层架构））

最新模型训练的瓶颈（特别是对 NLP 和推荐系统相关模型）：通信带宽瓶颈（芯片内部、芯片间还有 AI 硬件之间的通信）。

Transformer 类模型大小平均每两年翻240倍，而AI 硬件上的内存大小仅以每两年翻2倍的速率增长。

训练 AI 模型时候所需要的内存一般比模型参数量还要多几倍的原因：训练时候需要保存中间层的输出激活值，通常需要增加3到4倍的内存占用。

容量和数据传输的速度大大落后于硬件的计算能力。

内存墙问题不仅与内存容量大小相关，也包括内存的传输带宽，且涉及到多个级别的内存数据传输。

例如，在计算逻辑单元和片上内存之间，或在计算逻辑单元和主存之间，或跨不同插槽上的不同处理器之间的数据传输。AI 硬件之间会遇到通信瓶颈，甚至比片上数据搬运更慢、效率更低。

terms

SOTA: state of the art 特定任务中目前表现最好的方法或模型

构建model的motivation是：超越现有的baseline/benchmark

benchmark: 当前目标最高的一个指标，如precision，recall等可量化的指标

baseline: 需要一套方法

标签：training,训练,AI,模型,Distributed,硬件,内存,数据传输,分布式
From： https://www.cnblogs.com/asandstar/p/17991751

深入理解ZooKeeper分布式锁
第1章：引言分布式系统，简单来说，就是由多台计算机通过网络相连，共同完成任务的系统。想象一下，咱们平时上网浏览网页、看视频，背后其实都是一大堆服务器在协同工作。这些服务器之间需要协调一致，保证数据的一致性和完整性，这就是分布式系统的挑战之一。在这种环境下，锁就显得尤为重要了......
分布式文件系统
1、分布式文件系统是由多态主机模拟出来的一个文件系统，文件是分散存储在不同的主机上2、分布式文件系统有很多种：1)、GFSGFS（GoogleFileSystem）是Google公司为满足公司需求而开发的基于Linux的可扩展的分布式文件系统，用于大型的、分布式的、对大数据进行访问和应用，成本低，应用于廉价......
京东广告算法架构体系建设--在线模型系统分布式异构计算演变 | 京东零售广告技术团队
一、现状介绍算法策略在广告行业中起着重要的作用，它可以帮助广告主和广告平台更好地理解用户行为和兴趣，从而优化广告投放策略，提高广告点击率和转化率。模型系统作为承载算法策略的载体，目前承载搜索、推荐、首焦、站外等众多广告业务和全链路的深度学习建模，是广告算法算法创新......
基于 ELK 分布式日志系统搭建
0、前景采用ELK搭建一套分布式日志系统架构图1、ElastsiSearch官网地址Elasticsearch8.12.0|Elastic1.1、安装下载安装包wgethttps://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-8.12.0-linux-x86_64.tar.gztar-zxvfelasticsearch-8.12.0-......
SpringBoot中集成XXL-JOB分布式任务调度平台,轻量级、低侵入实现定时任务
场景XXL-JOBhttps://www.xuxueli.com/xxl-jobXXL-JOB是一个分布式任务调度平台，其核心设计目标是开发迅速、学习简单、轻量级、易扩展。特性：1、简单：支持通过Web页面对任务进行CRUD操作，操作简单，一分钟上手；2、动态：支持动态修改任务状态、启动/停止任务，以及终止运行中任务，即时生......
支撑核心系统分布式改造，GaussDB为江南农商银行筑稳根基
本文分享自华为云社区《支撑核心系统分布式改造，GaussDB为江南农商银行筑稳根基》，作者：华为云头条。在移动互联网快速普及的当下，金融机构能否提供便捷、智能、个性化的金融服务，成为关乎业务开展和企业成长的重要命题。高性能、高可用、高安全的数据库，则是金融服务背后的重要支撑。......
.NET集成IdGenerator生成分布式全局唯一ID
前言生成分布式唯一ID的方式有很多种如常见的有UUID、Snowflake（雪花算法）、数据库自增ID、Redis等等，今天我们来讲讲.NET集成IdGenerator生成分布式全局唯一ID。分布式ID是什么？分布式ID是一种在分布式系统中生成唯一标识符的方法，用于解决多个节点之间标识符重复或性能问题。分布......
《凤凰架构：构建可靠的大型分布式系统》PDF
内容简介这是一本从架构视角讲解如何构建大型分布式系统的著作，是超级畅销书《深入理解Java虚拟机》的作者周志明多年架构和研发经验的总结，得到了多位行业资深架构专家的联袂推荐。全书共16章，分为演进中的架构、架构师的视角、分布式的基石、不可变基础设施和技术方法论五部分。第一......
民生银行牛新庄:大数据及分布式技术在银行系统中实践应用
把底层所有技术打通，这些技术就像ATM数据，柜台有的数据是柜台的数据，所有数据打通，第一我可以节省很多的现钞，这些现钞可以拿出去放贷款，现在流动性这么紧张。第二，你可以节省很多的成本，大家想一想，如果说这样做的话，我每天不需要那么多押运车押运。我举这个例子，这是数据，过去为什么没做到?底......
分布式锁、幂等性问题
欢迎关注公众号（通过文章导读关注：【11来了】），及时收到AI前沿项目工具及新技术的推送！在我后台回复「资料」可领取编程高频电子书！在我后台回复「面试」可领取硬核面试笔记！前言最近在更新面试突击专栏，我把每一篇将字数都尽量控制在2000字以内，可能在文章里边写的没有那么细致，主要是......

分布式训练Distributed training

motivation

terms

相关文章

赞助商

阅读排行