首页 > 其他分享 >GPU设备化到服务化:高质量AI算力基础设施的关键

GPU设备化到服务化:高质量AI算力基础设施的关键

时间:2024-09-09 10:53:41浏览次数:23  
标签:服务化 AI 化到 GPU OrionX 算力 资源

1 引言

随着人工智能技术的飞速发展,AI算力基础设施已成为支撑AI创新的关键。然而,当前的AI算力基础设施建设及管理面临着诸多挑战。

目前常见的异构GPU集群部署和形态为图1-1的孤岛式集群部署+烟囱式算力使用。

GPU设备化到服务化:高质量AI算力基础设施的关键_GPU

图1-1 传统异构GPU集群形态

孤岛式异构集群,即每个厂商的异构智算资源单独组集群。GPU算力供给侧通常会基于多个厂商的多类 AI服务器进行建设,不同厂商不同AI芯片架构的服务器资源互相独立,生态隔离,形成算力孤岛,给运维带来很大挑战。

烟囱式算力使用,即应用只能独占且静态的使用本服务器的GPU算力。通过直通物理或者虚拟设备的方式提供虚拟化/容器化的应用,应用算力可获取性和算力的扩缩容依赖于本服务器算力的可用性。

这种烟囱式的使用方式带来如下几个关键挑战:

❌ 资源管理和使用效率低下:算力和显存资源为独占模式,不支持资源动态调整,运维效果不理想。

❌ 故障隔离挑战:无法在卡亚健康状态下,提前规避故障,任务无法快速从故障中隔离。

❌ 单节点算力使用受限:无法跨节点调用算力,服务器选型时的CPU和GPU配比难,如果配比不合理,可能会出现一方资源重载,而另一方资源轻载的情况,从而导致昂贵的算力被浪费。

显然在当下GPU算力昂贵、且算力需求激增的背景下,这种烟囱式的算力使用方式无法满足高质量算力基础设施的要求。高质量算力基础设施应该具有图1-2的关键因素:

GPU设备化到服务化:高质量AI算力基础设施的关键_AI_02

图1-2 高质量算力基础设施关键因素

本文将探讨如何通过GPU资源服务化分配,打造高质量、灵活且高效的基础设施。

2 资源设备化

资源设备化指的是以物理设备或者虚拟设备形式存在的资源,比如服务器、存储设备、网络设备,GPU等。当通过设备提供给应用使用的时候,是一种独占式的静态分配

设备化使用资源存在一些缺点,例如:

❌ 资源利用率低:在设备化使用的情况下,单个设备通常只能分配给单一用户或任务使用,无法实现资源复用。这可能导致资源利用率不高,特别是在资源不被充分利用的情况下。

❌ 缺乏灵活性:在资源分配和任务调度上缺乏灵活性,难以快速适应变化的计算需求。

❌ 可扩展性受限:资源的扩展性可能受到物理硬件数量和空间的限制。

❌ 环境依赖性强:设备化资源的使用通常受限于特定的物理环境。

❌ 使用运维门槛高:对于使用人员来讲,使用设备化资源可能需要专业的硬件操作和维护技能。

对于GPU资源来说,传统GPU直通使用方式,以及目前一些主流互联网厂商和云厂商提供的GPU虚拟化方案都是设备化分配的范畴,如图2-1所示:

GPU设备化到服务化:高质量AI算力基础设施的关键_服务化_03

图2-1 GPU算力设备化分配

这种分配方式下,GPU资源或者切分的GPU资源被作为一个设备静态配置到虚机或者容器内部,应用存活期间独占该设备;直至应用销毁,才会释放该设备。

可见,传统孤岛式集群+烟囱式算力使用的根源在于底层资源分配逻辑是设备化的分配。因此,为了打造高质量AI算力基础设施,底层资源分配方式的改变是必不可少的。

3 资源服务化

资源分配的另外一种方式便是资源服务化,它是指将物理资源抽象化,通过软件和服务的形式提供给用户,它具有如下优点:

✔ 资源使用率提高:应用根据实际需求取用资源,可随时获取或释放资源,实现资源的弹性伸缩,利用率大幅提升。

✔ 灵活性高:灵活的资源调度策略使应用可以快速获得所需资源,搭配高级的超分超售能力,使得有限的资源支撑更多业务。

✔ 可扩展性强:服务化资源可以快速扩展或缩减,以适应业务需求的变化。

✔ 环境依赖小:服务化资源可以提供更广泛的访问性和更好的地理位置无关性。用户无需关心背后的物理设备,只需按需使用服务即可。

✔ 运维自动化:资源自动分配,自动回收,无需人工干预。业务方可聚焦在业务逻辑,省心省力。

✔ 成本效益高:用户根据实际使用的服务付费,一方面可以精细化运营算力资源,另一方面可以降低用户的总体拥有成本(TCO)。

GPU设备化到服务化:高质量AI算力基础设施的关键_服务化_04

图3-1 GPU算力服务化分配

这种方式下,GPU资源被作为算力服务动态分配给虚机或者容器,可以实现任务级别的算力即取即用,同时可以实现GPU资源不变的情况下,服务更多用户或应用。

GPU服务化能够从容应对传统异构智算集群的管理挑战:

▪ 针对不同服务类型,调度相应的算力资源,并且支持异构GPU的同集群纳管。

▪ 将资源提供方和使用方解耦,解决烟囱式的算力使用瓶颈。

▪ 资源实现按需取用,即取即用,闲置算力被充分利用,提升GPU使用率。

4 GPU服务化的最佳实践 – OrionX

趋动科技的OrionX解决方案,以其GPU池化层的创新技术,引领了软件定义GPU算力的新纪元。这一技术不仅实现了服务化的算力分配,更助力客户在AI算力基础设施的形态转型上迈出了坚实的步伐。

GPU设备化到服务化:高质量AI算力基础设施的关键_GPU_05

图4-1 软件定义异构算力集群形态

在图4-1 OrionX赋能的新型基础设施形态中,我们能够见证以下变革:

▪ 资源统一管理:OrionX将异构AI算力资源纳入统一的集群管理之中,通过其平台对外提供不同生态的算力服务,实现了资源的高效整合与优化配置。

▪ 智能算力调度:OrionX为应用提供了智能化、精准化的算力服务调度,确保了全流程的资源自动分配与自动回收。这种按需取用的算力服务模式,实现了资源的即时可用性,同时提供了更加灵活的资源使用方式。

▪ 应用与算力解耦:OrionX的算力池化技术实现了应用与算力的解耦合,使得应用部署更加灵活,不再受限于宿主机的算力类型,极大地提升了资源的利用效率和应用的可移植性。

OrionX可以为AI算力基础设施的支撑能力带来极大提升:

✔ 开放性:OrionX保持了CUDA生态系统的开放性,避免了对特定技术的依赖。它打破了传统服务器算力的局限,从而显著增加了潜在可用的算力资源。

✔ 融合性:OrionX提供多样化的算力供应,能够满足不同应用对算力的差异化需求。无论是多厂商产品、不同精度要求,还是多样化的算力水平,包括物理卡和虚拟卡,OrionX都能提供相应的支持。

✔ 绿色性:通过智能调度和服务端的热迁移技术,OrionX实现了资源使用的精细化管理,减少了不必要的能源消耗。这使得暂时不需要的服务器能够及时下电,进一步提高了能源效率。

✔ 管理性:OrionX不仅加强了常规的运维管理,还提供了更多主动干预任务的能力,使得运维更加高效和智能。

✔ 敏捷性:OrionX将算力的使用模式从传统的设备独占式转变为服务化的动态使用,有效减少了算力的闲置时间,提高了资源的利用率。

✔ 普惠性:基于服务化的算力供应,OrionX通过超分超售和任务队列等机制,最大限度地利用了所有可用的算力资源,从而显著降低了算力成本,使得高性能计算更加普及和经济。

5 结语

在当今快速发展的AI技术领域,趋动科技的OrionX AI算力池化解决方案提供了一种全新的视角和方法。

OrionX专注于GPU服务化,通过创新的技术和灵活的服务模式,为用户提供了一种高效、可扩展且成本效益高的解决方案,它以其独特的GPU服务化理念,为用户提供了一个打造高质量算力基础设施的新选择,也为整个行业树立了一个高标准。通过OrionX,趋动科技正在引领GPU服务化的潮流,助力用户构建强大的计算平台。

参考资料:

1. 算力基础设施高质量发展行动计划 - 中国政府网

https://www.gov.cn/zhengce/zhengceku/202310/P020231009520949915888.pdf

2. 《中国算力产业高质量发展白皮书》

https://www.cidc.org.cn/news/20230309/818449559544922112.html

3. 揭秘GPU技术新趋势:从虚拟化到池化

https://blog.csdn.net/njbaige/article/details/139455360

4. GPU虚拟化的实现方案:从设备模拟到完全GPU虚拟化

https://developer.baidu.com/art

标签:服务化,AI,化到,GPU,OrionX,算力,资源
From: https://blog.51cto.com/u_16958038/11959411

相关文章

  • LivePortrait: 让静态图像“活”起来、更好地控制图片/视频中人物的表情,新增动物模式,
     引言随着AI技术的飞速发展,图像生成与编辑的门槛不断降低,尤其在人像视频生成领域取得了令人瞩目的成就。快手可灵大模型团队开源的LivePortrait框架,以其出色的性能与创新的设计,引领了AI生成的新浪潮。LivePortrait不仅能够将静态图像转换为动态视频,还能精确控制面......
  • OpenAI Gym ProcGen - Getting Action Meanings
    题意:OpenAIGymProcGen-获取动作含义问题背景:IntheOpenAIProcGengym,Iamnotgettingaway togetthemeaningsoftheactionvalues,Icanseethatthereare15actionsforthecoinrunenvironmentusing env.action_space.n.IhavetriedboththeG......
  • 一文掌握Containerd配置Harbor私有仓库
    一文掌握Containerd配置Harbor私有仓库目录1概念1.1什么是Containerd1.2什么是Harbor1.3什么是ctr和crictl2配置Containerd使用Harbor作为私有仓库将Harbor相关证书上传到Kubernetes的节点上更新Containerd配置重启Containerd服务验证配置是否成功2.4.1使用......
  • 深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
    深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析1.语音合成任务简介1.1.语音与文本对比语音来说,NLP技术在深度学习中更为普及。在介绍语音合成任务前,我们先来了解语音这一模态的特点,并将其与文本模态对比。文本模态语音模态表现方式......
  • 论文怎么写?巧用知网和WanFangAi一小时搞定初稿!!!
    搜集大量文献是基础!!先做好整体框架,整体框架肯定也是借鉴很多文献搞好的,然后框架搞好,就逐个击破,各个小标题去看相应文献!一定多看多找,看得多了,灵感乍现。我的论文基本都是这样完成的,都是自己手敲,后期重复率特别低。可以分为两个阶段定题目,这个方向就很广泛了,就是专业相关的......
  • AI赋能司法,助力法院高效办工
    传统的法院裁决流程中,法官往往需要花费大量时间在法律法规的检索和判例参考上,且文书生成工作耗时费力,容易出现人工误判。法院智能助手利用AI大模型和RAG知识库技术,帮助法官快速检索相关法律法规和历史判例,自动生成初步裁决文书,并提供法律风险预警。系统支持私有化部署和多终端应......
  • [C++ Daily] 确保类复制了所有应该复制的成员
    确保类复制了所有应该复制的成员结果:源代码:#include<iostream>#include<string>#include<vector>/***copy操作应该包含对象内的所有成员变量及所有父类的成员变量,*此种可以通过调用对应的拷贝构造与拷贝赋值操作完成*////@briefsimpleterminalprint......