首页 > 其他分享 >华为云亮相KubeCon EU 2024,以持续开源创新开启智能时代

华为云亮相KubeCon EU 2024,以持续开源创新开启智能时代

时间:2024-03-26 15:34:24浏览次数:18  
标签:原生 AI 2024 华为 集群 开发者 KubeCon EU GPU

本文分享自华为云社区《华为云亮相KubeCon EU 2024,以持续开源创新开启智能时代》,作者: 华为云头条。

近日,在巴黎举办的云原生顶级峰会KubeCon EU 2024上 ,华为云首席架构师顾炯炯在“Cloud Native x AI:以持续开源创新开启智能时代”的主题演讲中指出,云原生和AI技术的融合,是推动产业深刻变革的关键所在。华为云将持续进行开源创新,与开发者共启智能时代。

cke_147.png

华为云首席架构师顾炯炯发表演讲

AI对于云原生范式提出关键挑战

在过去的几年里,云原生彻底改变了传统的IT系统,催化了互联网和政府服务等领域的数字飞跃。云原生范式带来的新的可能性,例如闪电般的快速销售和基于微服务治理的敏捷应用DevOps,已经深入人心。同时,人工智能的快速发展和广泛采用,包括大规模模型,已经成为行业智能的跳动心脏。

根据Epoch 2023年的调研数据,基础模型所需的计算能力每18个月就会增长10倍,是摩尔定理揭示的通用计算能力增长率的5倍。AI带来的新摩尔定律和大规模AI模型的主导地位对云原生范式提出了挑战,顾炯炯总结了其中关键的4点:首先,低GPU/NPU平均利用率导致AI训练和推理的高成本。其次,大模型训练集群频繁的失败率限制了训练效率。第三,大规模模型的复杂配置导致AI开发门槛高。第四,大规模的AI推理部署面临着不可预测的最终用户访问延迟和数据隐私问题的风险。

华为云AI创新为开发者迎接挑战提供思路

随着AI模型变得越来越大,对计算能力的需求也呈指数级增长。这种需求不仅给云原生技术带来了挑战,也为业界提供了创新机遇。顾炯炯分享了一些华为云在AI创新方面的故事,为开发者解决这些挑战提供了参考。

在云原生边缘计算平台KubeEdge的基础上,华为云实现了一个云原生多机器人调度管理平台。用户可以通过自然语言命令在云端输入任务指令,由系统协调边缘的多个机器人共同协作完成复杂任务。为了克服自然语言命令理解、大量机器人高效调度管理以及跨类型机器人访问管理的三个挑战,该系统采用了云端、边缘节点和机器人三个部分的架构,通过大模型执行自然语言命令,并进行流量预测、任务分配和路由规划。这一架构显著提高了机器人平台的灵活性,管理效率提升25%,系统部署周期缩短30%,新机器人的部署时间从月级缩短到天级。

中国某顶级内容分享社区,每月活跃用户超过1亿。它的核心服务之一是主页上的推荐功能。推荐模型有近1000亿个参数。训练集群有数千个计算节点。一个训练作业需要数百个参数服务器和worker。因此,该社区对最优拓扑调度、高性能、高吞吐量有着强烈的需求。开源项目Volcano可以更好地支持在Kubernetes上运行的AI/ML工作负载,并提供了一系列作业管理和高级调度策略。Volcano项目引入了拓扑感知调度、装箱、SLA感知调度等算法,帮助社区将整体训练性能提升了20%,运维复杂度也大大降低。

Serverless AI引领云原生发展趋势

如何高效、稳定地运行AI应用,同时降低运营成本,成为摆在众多企业和开发者面前的一大挑战。为此,华为云总结了云原生AI平台的关键要求,提出了一种全新的云原生AI平台理念——Serverless AI。

顾炯炯提到,从开发者的视角来看,Serverless AI致力于智能地推荐并行策略,让复杂的训练和推理任务变得轻而易举。它提供自适应的GPU/NPU自动扩展功能,能够根据工作负载的实时变化动态调整资源分配,确保任务的高效执行。同时,Serverless AI还维护着一个无故障的GPU/NPU集群,让开发者无需担心硬件故障带来的中断风险。更值得一提的是,该平台保持与主流AI框架的兼容性,让开发者能够无缝集成现有的AI工具和模型。

对于云服务提供商而言,Serverless AI同样具有深远的意义。它不仅能够提高GPU/NPU的利用率,使训练、推理和开发混合工作负载得以高效运行,还能通过优化能效实现绿色计算,降低能耗成本。此外,Serverless AI平台还能实现跨多个租户的空间和时间GPU/NPU共享,提高资源的复用率。最重要的是,它为训练和推理任务提供了有保证的QoS和SLA,确保了服务质量和稳定性。

分论坛上,华为云技术专家提到,Kubernetes 上运行 AI/ML 工作负载的使用量不断增加,许多公司在分布于数据中心和各种 GPU 类型的多个 Kubernetes 集群上构建云原生 AI 平台。 使用Karmada和Volcano,可轻松实现多集群的GPU工作负载智能调度、集群故障转移支持,在保障集群内和跨集群的两级调度一致性和效率,并平衡系统整体资源的利用率和不同优先级工作负载的 QoS,以应对大规模、异构的 GPU 环境管理中面临的挑战。

Karmada为多云和混合云场景中的多集群应用管理提供即时可用的自动化管理,越来越多的用户在生产环境中使用Karmada构建灵活高效的解决方案。Karmada已于2023年正式升级为CNCF孵化项目,期待与更多伙伴与开发者们共建繁荣社区。

针对AI分布式训练和大数据场景,Volcano Gang Scheduling解决了分布式训练任务中的无休止等待和死锁问题, 任务拓扑和IO感知的调度,将分布式训练的传输延迟降至最低,性能提升31%,minResources解决了高并发场景下Spark driver和executor之间的资源竞争问题,合理规划了并行度,性能提升39.9%。

“云原生技术的敏捷性和异构AI计算平台的创新性,将是提升AI生产力的关键。” 顾炯炯谈到,未来,华为云将持续致力于开源创新,与业界同仁、伙伴共同开启智能时代的新篇章。

 

点击关注,第一时间了解华为云新鲜技术~

标签:原生,AI,2024,华为,集群,开发者,KubeCon,EU,GPU
From: https://www.cnblogs.com/huaweiyun/p/18096780

相关文章

  • 2024超声波清洗机避坑(省钱)攻略!超声波清洗机哪个牌子好?怎么洗眼镜才干净?怎么选超声波清
    大家犹豫要不要购买超声波清洗机,无非就是在于害怕超声波清洗机是智商税,不然就是已经买了超声波清洗机了,但是很不幸踩雷了……!如果你有这方面的焦虑的话,那么这篇文章不妨一看!关于现在风头正盛的超声波洗眼镜机我也用过不下二十多款了,真的可以很负责任的告诉大家,价格贵、参数高......
  • 2024年3月26日-UE5-给触发加条件
    通过蓝图,给触发加条件之前设置的是球门有接触,球门就会发光,所以角色接触到球门也会发光,现在要实现角色接触不发光,只有子弹发光 在蓝图预览里,把触发区域选上,如图所示位置,这样就可以看到蓝图中动作的流程走向 然后给触发区域加一个筛选条件在盒体触发的otheractor里,添加一......
  • 论文解读:Convolutional Neural Network-based Place Recognition-2014
    关注微信公众号:XRobotSpace关注微信公众号:依法编程发表期刊/会议:ACRA发表时间:2014参考引用:Z.Chen,O.Lam,A.Jacobson,M.Milford,Convolutionalneuralnetwork-basedplacerecognition,in:2014AustralasianConferenceonRoboticsandAutomation(......
  • 2024年甘肃省职业院校技能大赛高职学生组“软件测试“赛项竞赛卷A-自动化测试解析答案
    任务二:自动化测试需要更多ERP资源或培训可私信博主或参考以下专栏!传送链接:全国职业院校技能大赛-软件测试大赛备赛参考资料一、任务要求题目1:按照以下步骤在PyCharm中进行自动化测试脚本编写并执行。1、设置智能时间等待3秒并将浏览器窗口最大化;2、引入By方法......
  • 2024.03.25【补】【版面编排】排版四大原则!!
    排版最重要也是最基础的四大原则:1.对齐:我们的大脑总是会去寻找一条看不见的横线或者竖线,利用网格系统,将元素适当对齐就能创作出舒适好看的版面把杂乱的内容根据线条对齐,混乱感也会随之消失,取而代之的是秩序感和舒适感,这样还能创造出让读者舒适的视觉动线2.对比:当所有的信息......
  • 华为OD机试 - 2024真题目录
    真题目录专栏介绍100分题目录200分题目录专栏介绍专栏中的所有博客均有详细的题目描述、输入、输出、测试使用、备注等描述,有算法源码可直接使用,计划每道题目的源码有Python、C++、C、javascript等,持续更新最新题目、不同语言的解答方法,目前Python源码居多。100分......
  • 云原生周刊:Kubernetes v1.30 一瞥 | 2024.3.25
    开源项目推荐RetinaRetina是一个与云无关的开源Kubernetes网络可观测平台,它提供了一个用于监控应用程序运行状况、网络运行状况和安全性的集中中心。它为集群网络管理员、集群安全管理员和DevOps工程师提供可操作的见解,帮助他们了解DevOps、SecOps和合规性用例。Retina......
  • 2024.03.24【补】【字体设计】有些品牌,看见字体就认出来了
    生活当中我们能见到许多的标志设计,也有很多标志是通过文字来进行设计的(如下图)只要有了这些标志的存在,你最起码也知道了这是一个什么品牌但大部分时候,甚至是某些品牌都只会在一些地方只放上自己的标志。但在元素冗杂的信息中单单放入logo元素,很难说人们能不能感知到这个品......
  • 【2024-03-25】兄弟共进
    20:00船得有航向,人生得有所追求。连蚂蚁,看来是在盲动,其实,也各有所奔。人,如果光为自己奔,那就算不上什么“万物之灵”了。总得对群体有所贡献。                                          ......
  • 2024年App分发渠道整理
    一、有一定门槛的分发渠道,难度较大比如小米、华为、Realme、oppo等手机厂商应用商店,将App上传会有严谨的审核标准,可能需要专人来维系与应用商店的联系,还需要备案app;其次是系统商应用商店,比如Google、Apple、Win等官方应用商店,应该是业内分发难度最大的;最后是第三方应用商店,比如......