首页 > 其他分享 >天翼云完成首个国产化万卡训练,MFU达到国内领先水平!

天翼云完成首个国产化万卡训练,MFU达到国内领先水平!

时间:2024-10-11 10:43:44浏览次数:12  
标签:训练 天翼云 模型 并行 故障 MFU 万卡

天翼云自研国内首个单集群万卡国产化全功能预训练云服务平台发布上线,并完成万卡规模Llama3.1-405B大模型训练。Llama3.1-405B作为4000亿参数的模型,在息壤训推服务平台的支持下经过多轮优化,MFU达到国内领先水平;另外,700亿参数模型Llama2-70B在万卡规模下完成训练,MFU也处于业界领先水平

万卡纳管、并行训练

大模型训练效率大幅提升

平台具备万卡纳管和并行训练能力,基于HPFS的PB级并行文件系统和CTCCL的RDMA高速卡间互联技术、基于Gang策略与拓扑感知的智算容器调度,以及慧聚自研分布式训练框架TeleFormers和平台,实现万卡资源纳管和万卡规模并行训练。

天翼云自研了AI框架Teleformers,对算子、通信、数据处理进行优化,以及并行策略的自适应调整,显著提升大模型训练的训练效率,在目前业内最大参数规模开源单体稠密模型Llama3.1-405B大模型训练测试中,性能表现达到国际同等水平。

算子优化方面:

针对昇腾芯片的特性,在网络结构层面对诸多高频算子进行了定制化改造,构建了高性能算子集。以matmul算子为例,天翼云利用昇腾芯片的计算亲和性,将算子输入padding到特定的维度,大幅提升执行效率,从而明显缩短了训练时间。

数据处理和流水线方面:

通过设置合理的数据分片策略和HPFS条带化优化,结合数据预取与数据下沉技术,大幅提升数据流的处理效率和稳定性;对预处理后的数据集进行了二次分片并提供就近缓存能力,减少GPU空闲时间。 

自适应并行策略:

基于对3D并行中各类计算单元的分析,天翼云设计了多种自适应的3D并行策略,依据模型规模和硬件资源的不同可以自动选择合适的并行策略,充分利用计算资源和显存资源,缩短模型训练中每轮的迭代时间。

多项技术突破,实现万卡训练故障

秒级定位、分钟级处理、分钟级恢复

天翼云息壤训练服务平台基于软硬件协同设计,提供全链路故障监控、基于主动感知的全链路故障监控和定位、CheckPoint秒级多级高速存储系统、容错优雅调度和模型编译缓存等系统,将万卡规模故障发现和解决问题缩短到业内前沿的分钟级,大幅提升有效训练时间。

自动断点续训系统:

建设丰富的故障库,基于此构建了多维故障感知系统,能够快速主动感知相关故障事件和潜在的故障风险,并通过精准的故障隔离和调度手段,快速隔离处理故障节点并重新调度新节点接手任务继续训练,实现无人干预式断点续训,有效减少GPU闲置时间。 

高速多级CheckPoint系统:

天翼云设计基于多级存储的高速CheckPoint系统,通过两阶段异步存储,实现高速写入内存,并最终异步写入远端系统;针对断点恢复场景,提供进程级故障原地快恢和远端快速恢复能力,最终实现对CheckPoint的秒级读写能力,大幅降低断点恢复时间、提升训练效率。

 

全链路检测工具链:

天翼云开发了全链路故障监控工具链,能够基于主动感知实现全链路的故障监控和定位。该工具链可以主动发现设备故障,并降低训练中断的频次,确保训练过程的连续性和稳定性。

天翼云国产化万卡智算中心训推服务平台的方案,适用于千亿/万亿级参数规模大语言模型训练,如Llama3、Qwen等超大规模语言模型,以及多模态模型开发、虚拟现实与元宇宙等。

标签:训练,天翼云,模型,并行,故障,MFU,万卡
From: https://www.cnblogs.com/developer-tianyiyun/p/18457946

相关文章

  • 引领行业数字变革,天翼云出席IDC年度盛典暨颁奖典礼!
    近日,2024IDC中国年度盛典暨颁奖典礼在上海隆重开幕。天翼云出席大会数字工业行业峰会及金融行业峰会,分享了天翼云的智算布局及在行业数字化转型方面的技术探索和实践成果。天翼云全面升级产品及生态矩阵,迈入智能云的新发展阶段。天翼云积极布局智算产业,提供丰富的智能资源供给,打......
  • 乘风破浪!天翼云为出海企业打造全球云服务解决方案!
    9月11日,2024IDC中国年度盛典暨颁奖典礼在上海拉开帷幕。天翼云国际业务事业部专家彭成参加“绿色生态·出海创新论坛”,以《乘风破浪国云出海——构建出海合作生态,助力全球客户上云》为题,分享天翼云在服务企业出海方面的优势及诸多实践。依托领先的技术产品和解决方案,天翼云正助......
  • 引领行业数字变革,天翼云出席IDC年度盛典暨颁奖典礼!
    近日,2024IDC中国年度盛典暨颁奖典礼在上海隆重开幕。天翼云出席大会数字工业行业峰会及金融行业峰会,分享了天翼云的智算布局及在行业数字化转型方面的技术探索和实践成果。天翼云全面升级产品及生态矩阵,迈入智能云的新发展阶段。天翼云积极布局智算产业,提供丰富的智能资源供......
  • 打造全栈云自主可控体系,天翼云构筑数字安全屏障!
    2024年国家网络安全宣传周期间,云计算服务安全闭门会在广州同期召开。会议围绕如何解决当前云计算建设、采购、管理、使用各环节存在的突出安全问题,更好地发挥云计算服务安全评估制度作用等重要议题开展交流。天翼云科技有限公司副总经理、首席网络安全官广小明受邀参会并发表......
  • GPU与国产芯片异构通信方案,异构万卡集群 初步调研
    视频分享在这:3.1异构万卡集群,GPU与国产计算卡芯片异构通信_哔哩哔哩_bilibili国内已经有三家,实现了异构集群,GPU与国产芯片异构通信方案,初步调用结果如下。异构集群的挑战异构芯片间的混训主要面临两大挑战,一是异构卡通信库差异,导致异构卡之间通信难,二是异构卡之间性能差异......
  • 绿色成就+1!天翼云在“新绿杯”斩获佳绩!
    近日,第二届“新绿杯”信息通信行业赋能碳达峰碳中和创新大赛公布获奖名单,天翼云申报的“中国电信存储资源盘活系统在广州云计算数据中心节能降碳的规模应用”在大赛中荣获三等奖,在绿色领域再获权威认可。HBlock盘活数百PB存储资源助力广州云机房绿色转型在低碳节能的全球背景下......
  • VLDB来啦!企业上云“搭子”天翼云TeleDB数据库有话说
    近日,VLDB2024(InternationalConferenceonVeryLargeDataBases)在广州隆重举行,全球数据库领域顶尖学者汇聚一堂,围绕数据库行业前沿议题展开探讨,带来一场跨越东西方、覆盖产学研的交流盛宴。作为数据库领域三大国际顶级学术会议之一,VLDB致力于展示和分享数据库领域的最新研究成......
  • “模”力十足!天翼云息壤一体化智算服务平台训推服务能力重磅升级!
    9月4日,“天翼云息壤——大模型训推一体化服务能力升级”线上发布会成功举办。会上,息壤平台训推服务能力重磅升级,新增闭源、多模态基座大模型以及数据集,支持万卡规模训练,训练稳定性再次提升,新增体验空间,为基础大模型训练、行业大模型训推提供一站式解决方案。天翼云多位专家与合作......
  • “模”力十足!天翼云息壤一体化智算服务平台训推服务能力重磅升级!
    9月4日,“天翼云息壤——大模型训推一体化服务能力升级”线上发布会成功举办。会上,息壤平台训推服务能力重磅升级,新增闭源、多模态基座大模型以及数据集,支持万卡规模训练,训练稳定性再次提升,新增体验空间,为基础大模型训练、行业大模型训推提供一站式解决方案。天翼云多位专家与合作伙......
  • 绿色成就+1!天翼云在“新绿杯”斩获佳绩!
    近日,第二届“新绿杯”信息通信行业赋能碳达峰碳中和创新大赛公布获奖名单,天翼云申报的“中国电信存储资源盘活系统在广州云计算数据中心节能降碳的规模应用”在大赛中荣获三等奖,在绿色领域再获权威认可。HBlock盘活数百PB存储资源助力广州云机房绿色转型在低碳节能的全球背景下,“耗......