首页 > 其他分享 >分布式训练Distributed training

分布式训练Distributed training

时间:2024-01-27 18:12:07浏览次数:24  
标签:training 训练 AI 模型 Distributed 硬件 内存 数据传输 分布式

motivation

为什么需要分布式训练?

随着模型规模和参数量的增大,对硬件的要求也变大(算力、内存)。

现实困境是单一设备有内存墙(模型需要的运算量提高很快→需要研发AI硬件(提高硬件的峰值算力)→简化或者删除其他部分(例如内存的分层架构))

最新模型训练的瓶颈(特别是对 NLP 和 推荐系统相关模型):通信带宽瓶颈(芯片内部、芯片间还有 AI 硬件之间的通信)。

Transformer 类模型大小平均每两年翻240倍,而AI 硬件上的内存大小仅以每两年翻2倍的速率增长。

训练 AI 模型时候所需要的内存一般比模型参数量还要多几倍的原因:训练时候需要保存中间层的输出激活值,通常需要增加3到4倍的内存占用。

容量和数据传输的速度大大落后于硬件的计算能力。

内存墙问题不仅与内存容量大小相关,也包括内存的传输带宽,且涉及到多个级别的内存数据传输

例如,在计算逻辑单元和片上内存之间,或在计算逻辑单元和主存之间,或跨不同插槽上的不同处理器之间的数据传输。AI 硬件之间会遇到通信瓶颈,甚至比片上数据搬运更慢、效率更低。

 

 

terms

SOTA: state of the art 特定任务中目前表现最好的方法或模型

构建model的motivation是:超越现有的baseline/benchmark

benchmark: 当前目标最高的一个指标,如precision,recall等可量化的指标

baseline: 需要一套方法

标签:training,训练,AI,模型,Distributed,硬件,内存,数据传输,分布式
From: https://www.cnblogs.com/asandstar/p/17991751

相关文章

  • 深入理解ZooKeeper分布式锁
    第1章:引言分布式系统,简单来说,就是由多台计算机通过网络相连,共同完成任务的系统。想象一下,咱们平时上网浏览网页、看视频,背后其实都是一大堆服务器在协同工作。这些服务器之间需要协调一致,保证数据的一致性和完整性,这就是分布式系统的挑战之一。在这种环境下,锁就显得尤为重要了......
  • 分布式文件系统
    1、分布式文件系统是由多态主机模拟出来的一个文件系统,文件是分散存储在不同的主机上2、分布式文件系统有很多种:1)、GFSGFS(GoogleFileSystem)是Google公司为满足公司需求而开发的基于Linux的可扩展的分布式文件系统,用于大型的、分布式的、对大数据进行访问和应用,成本低,应用于廉价......
  • 京东广告算法架构体系建设--在线模型系统分布式异构计算演变 | 京东零售广告技术团队
    一、现状介绍 算法策略在广告行业中起着重要的作用,它可以帮助广告主和广告平台更好地理解用户行为和兴趣,从而优化广告投放策略,提高广告点击率和转化率。模型系统作为承载算法策略的载体,目前承载搜索、推荐、首焦、站外等众多广告业务和全链路的深度学习建模,是广告算法算法创新......
  • 基于 ELK 分布式日志系统搭建
    0、前景采用ELK搭建一套分布式日志系统架构图1、ElastsiSearch官网地址Elasticsearch8.12.0|Elastic1.1、安装下载安装包wgethttps://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-8.12.0-linux-x86_64.tar.gztar-zxvfelasticsearch-8.12.0-......
  • SpringBoot中集成XXL-JOB分布式任务调度平台,轻量级、低侵入实现定时任务
    场景XXL-JOBhttps://www.xuxueli.com/xxl-jobXXL-JOB是一个分布式任务调度平台,其核心设计目标是开发迅速、学习简单、轻量级、易扩展。特性:1、简单:支持通过Web页面对任务进行CRUD操作,操作简单,一分钟上手;2、动态:支持动态修改任务状态、启动/停止任务,以及终止运行中任务,即时生......
  • 支撑核心系统分布式改造,GaussDB为江南农商银行筑稳根基
    本文分享自华为云社区《支撑核心系统分布式改造,GaussDB为江南农商银行筑稳根基》,作者:华为云头条。在移动互联网快速普及的当下,金融机构能否提供便捷、智能、个性化的金融服务,成为关乎业务开展和企业成长的重要命题。高性能、高可用、高安全的数据库,则是金融服务背后的重要支撑。......
  • .NET集成IdGenerator生成分布式全局唯一ID
    前言生成分布式唯一ID的方式有很多种如常见的有UUID、Snowflake(雪花算法)、数据库自增ID、Redis等等,今天我们来讲讲.NET集成IdGenerator生成分布式全局唯一ID。分布式ID是什么?分布式ID是一种在分布式系统中生成唯一标识符的方法,用于解决多个节点之间标识符重复或性能问题。分布......
  • 《凤凰架构:构建可靠的大型分布式系统》PDF
    内容简介这是一本从架构视角讲解如何构建大型分布式系统的著作,是超级畅销书《深入理解Java虚拟机》的作者周志明多年架构和研发经验的总结,得到了多位行业资深架构专家的联袂推荐。全书共16章,分为演进中的架构、架构师的视角、分布式的基石、不可变基础设施和技术方法论五部分。第一......
  • 民生银行牛新庄:大数据及分布式技术在银行系统中实践应用
    把底层所有技术打通,这些技术就像ATM数据,柜台有的数据是柜台的数据,所有数据打通,第一我可以节省很多的现钞,这些现钞可以拿出去放贷款,现在流动性这么紧张。第二,你可以节省很多的成本,大家想一想,如果说这样做的话,我每天不需要那么多押运车押运。我举这个例子,这是数据,过去为什么没做到?底......
  • 分布式锁、幂等性问题
    欢迎关注公众号(通过文章导读关注:【11来了】),及时收到AI前沿项目工具及新技术的推送!在我后台回复「资料」可领取编程高频电子书!在我后台回复「面试」可领取硬核面试笔记!前言最近在更新面试突击专栏,我把每一篇将字数都尽量控制在2000字以内,可能在文章里边写的没有那么细致,主要是......