首页 > 其他分享 >迎接智算新挑战,天翼云亮相全球架构师峰会!

迎接智算新挑战,天翼云亮相全球架构师峰会!

时间:2024-06-20 15:09:58浏览次数:12  
标签:天翼云 超大规模 集群 架构师 智算 算力 黄坚

近日,ArchSummit全球架构师峰会在深圳隆重开幕,本次大会以“智能进阶. 架构重塑”为主题,探讨AI浪潮下,企业架构如何适应大模型和云原生的时代趋势,寻找既有应用成果又有成本效益的解决方案。国内外100余名顶尖专家齐聚一堂,围绕AI、大模型、云原生等话题展开深度交流。天翼云云网产品事业部研发专家黄坚受邀参会,并在“智算平台建设与应用实践”专题会上发表主题演讲,分享了天翼云在超大规模智算集群运维及管理方面的创新思路和实践经验。

 

天翼云云网产品事业部研发专家 黄坚

大模型时代

超大规模智算集群运维面临新挑战

随着大模型风潮来袭,加快建设超大规模智算集群,已成为增强多元算力供给的重要措施。与传统云原生大规模场景相比,超大规模智算集群的管理复杂度和难度更高。黄坚表示,当前,在充分发挥超大规模智算集群的算力方面,整个行业还面临着诸多挑战:

首先,智算业务与底层算力高耦合。在基于transformer衍生出来的智算生态中,要求最大化使用底层算力,这就要求从业者既要懂算法,又要懂算力,同时需要具备结合算法算力的工程化思维,从算子优化、算子融合、并行计算等多个方向提升算力的使用效率。

其次,硬件无明确异常指标,定位难度大。虽然通过监控可以覆盖一些明显的软硬件问题,但更多类似于光模块故障等问题,需要综合光衰、温度、功耗等多个维度,并结合业务异常,才能实现准确定位。

再次,日常管理复杂度高。超大规模智算集群规模大、数量多,如何实现百万量级元器件的系统化、模块化、周期化管理,并与业务方进行有效协同,是运维的难点。

作为云服务国家队,天翼云加强核心技术自主研发,积极探索超大规模智算集群运维之道,不断升级产品和生态矩阵,为AI开发者提供“供得上、用得起、用得好”的智算服务。

实践与创新并举

国云底座赋能智算云生态建设

在平台层面

天翼云全新升级一体化计算加速平台“云骁”,“云骁”具备超大规模集群管理、运营和算力加速能力,可提供通智超一体化服务,集“异构计算+高速存储+无损网络+算力加速+高效运营”五大能力于一体,让智算更快、更稳。

在算力层面

天翼云加速推进多层次智算算力布局,打造万卡级超大规模智算中心,满足快速增长的智算算力需求。目前,天翼云上海临港国产万卡算力池已正式启用,这不仅是国内首/个投入正式运营的国产单池万卡液冷算力集群,也是业内领先的全国产化云智一体公共智算中心,创新性采用网络中置、算力分层的“魔方”型组网,实现了单一集群内万卡高速互联,满足万亿级参数大模型训练所需的多机多卡并行、高吞吐无损通信等需求。

未来,天翼云将持续坚持科技创新,深耕云智一体,不断夯实国云智算底座,为数字经济发展与数字中国建设注入澎湃动能。

 

标签:天翼云,超大规模,集群,架构师,智算,算力,黄坚
From: https://www.cnblogs.com/developer-tianyiyun/p/18258711

相关文章

  • 热҈热҈热҈!天翼云开出解暑“凉方”!
    近期高温天气来势汹汹中央气象台连续6天发布高温预警让人直呼“热化了”!面对高温怎么办?天翼云以科技为擎助力各行各业应对高温“烤”验!智能“云”监管,提升工地“安全感”建筑业作为一个传统、密集型行业,承担着城市和基础设施建设的重要任务。每当炎夏酷暑,为了保障工程进度......
  • 开源数据库生态遇新变数,天翼云TeleDB提供企业数据管理更优解!
    近日,知名开源大规模并行处理(MPP)数据库Greenplum的源代码在其官方GitHub页面突然消失,引发了用户和开发者的广泛关注,PostgreSQL生态系统或将产生新变数。开源软件在面对商业化和盈利需求时的举措,将对行业产生巨大影响:开源信任的挑战:频繁的开源协议变更可能会导致企业和开发者......
  • 五连冠!天翼云稳居中国专属云服务市场榜首!
    近日,国际数据公司IDC发布的《中国专属云服务市场(2023下半年)跟踪》报告显示,2023下半年,专属云服务整体市场规模同比增长18.0%。中国电信天翼云以21.8%的市场份额,蝉联中国专属云服务市场第一。天翼云连续五次登顶,以实力持续领跑中国专属云服务市场。  IDC报告指出,2023下半年,中国......
  • 云行 | 龙云展翼 智绘未来,天翼云助力黑龙江打造数智产业新高地!
    5月17日,以“龙云展翼智绘未来”为主题的天翼云中国行·黑龙江站活动成功举办。黑龙江省通信管理局有关领导,合作伙伴企业代表等嘉宾出席会议,共探数智化发展新思路、新举措,扬帆黑龙江经济转型发展的新蓝海。会上举行了“数字龙江 智算领航”云网融合智能算力发布仪式、“宽带上云......
  • 国云注智,聚力向新!天翼云打造五位一体智算云能力体系!
    5月25日,第七届数字中国建设峰会期间,以“国云注智 聚力向新”为主题的2024智算云生态大会·智算云论坛在福州召开。天翼云全面升级产品及生态矩阵,打造“算力·平台·数据·模型·应用”五位一体的智算云能力体系。会上举行“开源大模型社区发布暨生态繁荣计划启动”、“息壤区域算......
  • 1-系统架构师备考规划
    系统架构师1.考试科目和形式1.信息系统综合  机试,75道单选题,总分75分,时间150分支,45分以上合格2.系统架构设计案例机试,3道问答题,1道必选+4选2 3.系统机构设计论文机试,1道论文题 4选1  科目2和科目3一起考,共计210分钟。三门课......
  • 逆袭之路:成为一名成功的前端架构师
    在当今数字化时代,前端开发已经成为了IT行业中备受瞩目的一个领域。随着互联网的不断发展和普及,前端开发的重要性也日益凸显,而前端架构师更是在这个领域中扮演着至关重要的角色。然而,要想成为一名成功的前端架构师,并非易事。下面将探讨一条逆袭之路,助你成为一名优秀的前端架......
  • 走进京东“卓越研效架构师”首期研习营圆满收官
    五月的北京,春深半夏,花开满城。由全国云计算技术行业产教融合共同体牵头,携手工业和信息化部电子第五研究所、E³CI软件研发效能度量工作委员会以及京东云共同主办的“走进京东——卓越研效架构师”研习营,于5月17-18日和24-26日在北京京东总部成功举行。此次活动,汇聚了业界多家知名......
  • 软考高级架构师/分析师论文【论基于架构的软件设计方法/ABSD】
    一、摘要  2020年4月,某互联网公司开始了基础架构管理平台项目的实施,该项目主要为基础架构团队提供基础设施、中间件、负载均衡、任务管理等功能,我作为该项目的架构师,主要负责架构设计、架构评估等工作。本文以该项目为例,主要论述基于架构的软件设计方法在该项目中的具体......
  • 登上国际舞台!天翼云P4 EIP网关流量管理创新方案亮相CCGrid 2024!
    5月8日,第24届IEEE/ACM集群、云和互联网计算国际研讨会(CCGrid2024)在美国费城隆重举行。来自中国、美国、印度、法国等国家的学术及产业界代表齐聚一堂,围绕云计算相关议题进行深入探讨和交流,并带来最前沿的技术展示。天翼云云网产品事业部弹性网络产品线总监侯叶飞出席大会硬件系......