首页 > 其他分享 >“模”力十足!天翼云息壤一体化智算服务平台训推服务能力重磅升级!

“模”力十足!天翼云息壤一体化智算服务平台训推服务能力重磅升级!

时间:2024-09-19 16:53:24浏览次数:13  
标签:平台 训练 天翼云 AI 模型 息壤 训推

9月4日,“天翼云息壤——大模型训推一体化服务能力升级”线上发布会成功举办。会上,息壤平台训推服务能力重磅升级,新增闭源、多模态基座大模型以及数据集支持万卡规模训练,训练稳定性再次提升,新增体验空间,为基础大模型训练、行业大模型训推提供一站式解决方案。天翼云多位专家与合作伙伴代表发表精彩演讲,共探人工智能大模型的发展趋势与挑战,并对平台升级后的能力与优势,以及在医疗领域的赋能实践进行了深度解读。

平台全新升级

提供稳定高效的大模型训推一体化服务

我国大模型已进入快速发展阶段,但大模型的研发与推广仍然面临一定的压力和挑战,呈现出“基础丰富,应用不足”的特点。一方面,大模型的训练和应用需要大量的高质量数据,当前我国数据资源有限且分散,导致模型训练效果并不理想;另一方面,模型的参数量和计算复杂度持续增加,对算力的需求以几何级数增长。行业亟需更加高效、集约化的智算平台的支撑,以驱动国产大模型高质量发展与产业化应用。

天翼云智算产品线总监张安发表示,升级后的平台专为应对大参数大模型、行业模型应用所带来的挑战而设计,它提供了一个全栈式的服务,旨在简化大模型从训练到部署的整个流程。平台新增了开闭源大模型、多模态大模型,供用户灵活选择,模型数量处于国内领先水平;新增上线专业的大模型数据集,用户可直接将数据用于大模型训练、推理任务中,实现了算法、算力、数据三要素的融合;新增体验中心,用户可直接在线互动体验;打造了全链路故障感知和恢复、全链路日志监控工具,突破断点续训等核心技术,使全链路监控训练更稳定。

“模”力十足!天翼云息壤一体化智算服务平台训推服务能力重磅升级!_人工智能

随着模型参数量从千亿迈向万亿,大模型对底层算力的诉求进一步升级,万卡甚至超万卡集群已经成为大模型产业发展的刚需,同时对训练稳定性要求极高。根据公开报道,Llama3.1-405B原生训练耗时持续54天,累计发生419次故障,平均每3小时产生一次。天翼云智算产品线专家范顺国介绍,天翼云训推服务平台是国内首个实现公有云国产化万卡训练的平台,能够为万亿参数级别大模型训练提供一体化方案。天翼云在北京万卡池完成了Llama3-405B(4000亿参数)大模型的训练,700亿参数模型Llama2-70B在万卡规模下顺利拉起并完成训练,MFU达到43%,在业界达到了领先水平。天翼云优化断点续训技术,在Llama2-70B模型训练中,实现秒级故障检测,分钟级定位并处理故障,分钟级训练恢复,这一性能已达到行业前沿水平。

“模”力十足!天翼云息壤一体化智算服务平台训推服务能力重磅升级!_链路_02

此外,基于平台能力,天翼云联合伙伴上线了魔乐(Modelers)开发者社区,通过整合优质中文AI资源、提供极致易用的工具链,以及国产化算力使能,端到端支持AI应用开发全流程,助力孵化国产原生模型。

三种交付形态+两大应用场景

助力企业加速AI应用落地

AI技术加速融入各行各业,大模型的应用前景也愈加广阔。天翼云息壤一体化智算服务平台从行业及客户需求出发,在技术与能力的不断迭代升级中使能企业制胜AI时代。

天翼云智算产品线专家夏曼雪对平台功能进行了详细演示。平台支持公有云、混合云和轻量化三种交付形态。其中,公有云版本即开即用、计费灵活,支持按卡时计费、包周期计费;混合云版本支持千卡规模的私有化项目交付;轻量化版本支持天翼云A100云主机、H800/A100/A800/A10裸金属服务器、物理机等硬件形态交付部署,灵活便捷。

“模”力十足!天翼云息壤一体化智算服务平台训推服务能力重磅升级!_人工智能_03

场景应用方面,平台主要面向两类客户场景。一是具备深厚行业知识、拥有自主数据的行业客户,如政务、金融机构、汽车、媒体、旅游等行业。依托零代码平台和丰富的开闭源大模型,客户无需掌握算法编程即可完成模型的调优和API调用,从而加速大模型从概念到落地的进程。二是拥有很强的算法能力,但在智算集群的管理运维方面经验不足的大模型厂商。平台为这类用户提供专业的开发和运维工具,实现大规模分布式训练和断点续训能力,在保障稳定性的同时,通过构建AI加速引擎助力用户提升算力利用率。

目前,天翼云已服务多个客户的训推场景,助力行业大模型训推更便捷、更高效、更稳定安全。中国中医科学院中医药信息研究所(简称“中医药信息研究所”)所长特聘助理朱彦分享了与天翼云合作开展中医药大模型的探究与实践,通过与天翼云合作,中医药信息研究所获得了更加稳定和高效的计算支持。借助天翼云大模型学习机,搭建低代码服务平台,中医药信息研究所高效完成了文献和临床数据的治理工作,包括自动抽取、标准化等任务。此外,在中医垂类大模型的微调、应用发布方面,平台将提供算法支持和模型优化工具,帮助客户充分挖掘中医药数据的内在价值。双方合作与探索,不仅进一步加速了中医大模型的研究和应用,以及中医药的现代化进程,也将为全球健康事业的发展做出重要贡献。

“模”力十足!天翼云息壤一体化智算服务平台训推服务能力重磅升级!_数据_04

伴随以大模型为核心的人工智能技术的快速发展,各行各业正经历着一场前所未有的智能化转型浪潮。作为云服务国家队,天翼云将持续聚焦人工智能场景进行技术创新,积极加码布局智算基础设施,赋能企业跑出“AI加速度”,携手合作伙伴共同推动经济社会智能化水平迈向新高度。

标签:平台,训练,天翼云,AI,模型,息壤,训推
From: https://blog.51cto.com/u_15444077/12057862

相关文章

  • 绿色成就+1!天翼云在“新绿杯”斩获佳绩!
    近日,第二届“新绿杯”信息通信行业赋能碳达峰碳中和创新大赛公布获奖名单,天翼云申报的“中国电信存储资源盘活系统在广州云计算数据中心节能降碳的规模应用”在大赛中荣获三等奖,在绿色领域再获权威认可。HBlock盘活数百PB存储资源助力广州云机房绿色转型在低碳节能的全球背景下,“耗......
  • VLDB来啦!企业上云“搭子”天翼云TeleDB数据库有话说
    近日,VLDB2024(InternationalConferenceonVeryLargeDataBases)在广州隆重举行,全球数据库领域顶尖学者汇聚一堂,围绕数据库行业前沿议题展开探讨,带来一场跨越东西方、覆盖产学研的交流盛宴。作为数据库领域三大国际顶级学术会议之一,VLDB致力于展示和分享数据库领域的最新研究成果......
  • 天翼云、联通云、移动云,你如何看三大运营商的云?
    从最近三大运营商2024年中期财报来看,天翼云收入552亿元、移动云收入504亿元、联通云收入317亿元,一字排开,彰显出运营商在云计算领域雄厚的发展实力,也再次说明了,拥有好的渠道体系与资源,公有云及相关业务的开拓必然会成果显赫的。不过,对于任何一朵云来说,云计算事业的辉煌成就,离不开拥......
  • 半年高达552亿元,锁定云第一,中国电信天翼云紧追不舍
    刚才我注意到中国电信公布2024年中期业绩,报告期内,中国电信实现营业收入为人民币2660亿元,同比增长2.8%,其中服务收入为人民币2462亿元,同比增长4.3%;净利润为人民币218亿元,同比增长8.2%。其中亮点,2024年上半年,天翼云保持快速增长,收入达到了552亿元,同比增长20.4%,占服务收入比升至22.4%,市......
  • SSD-KD:天翼云&清华出品,最新无原始数据的蒸馏研究 | CVPR'24
    无数据知识蒸馏能够利用大型教师网络所学到的知识,来增强较小型学生网络的训练,而无需访问原始训练数据,从而避免在实际应用中的隐私、安全和专有风险。在这方面的研究中,现有的方法通常遵循一种反演蒸馏的范式,在预训练教师网络指导下实时训练生成对抗网络来合成一个大规模的样本集用......
  • 天翼云存储SpinTires问题解析:d3dx9_43.dll文件丢失应对指南
    在使用天翼云存储或运行SpinTires等游戏时,有时会遇到系统提示“d3dx9_43.dll文件丢失”的错误。这个问题通常是由于DirectX组件中的d3dx9_43.dll文件未正确安装、损坏或丢失所导致的。以下是一些应对指南,帮助您解决这一问题:一、了解d3dx9_43.dll文件的重要性d3dx9_43.dll是D......
  • 如何使用clouddrive 在QNAP 威联通中挂载阿里云盘、天翼云盘、115网盘等
    hello大家好,我是你们的新伙伴,稳重的大王~创作立场:原创不易,拒绝搬运~》》日常求粉~QNAP威联通自带的hybridmount以及HBS3,虽然可以做到挂载、同步网盘数据,但是支持的国内网盘有限,本文给大家介绍一款非常好用的软件——clouddrive文章后面贴上app安装包下载地址,下载下来之后,......
  • 《算力服务产业图谱(2024年)》发布,天翼云两款产品重磅入选!
    算力作为数字时代的关键基础设施,已成为培育和发展新质生产力的重要引擎。近年来,国家对算力的重视程度不断提升,工业和信息化部、中央网信办等六部门联合印发《算力基础设施高质量发展行动计划》,指出要构建一体化算力服务体系,打造集成多方算力资源和开发平台的算力服务,鼓励各地为中......
  • 《算力服务产业图谱(2024年)》发布,天翼云两款产品重磅入选!
    算力作为数字时代的关键基础设施,已成为培育和发展新质生产力的重要引擎。近年来,国家对算力的重视程度不断提升,工业和信息化部、中央网信办等六部门联合印发《算力基础设施高质量发展行动计划》,指出要构建一体化算力服务体系,打造集成多方算力资源和开发平台的算力服务,鼓励各地为中小......
  • 安全、高效!天翼云HPFS助企业一臂之力!
    近年来,随着各行业数智转型逐步深入以及人工智能大模型的蓬勃发展,气象分析、大模型训练、自动驾驶、石油勘探、EDA仿真、基因分析等高性能计算(HPC)场景和智算场景(AI)不仅对算力需求激增,也产生了图片、视频等大规模非结构性数据,企业在实践中面临着数据量大、存储性能不足等问题,导致训......