首页 > 其他分享 >GPU设备化到服务化:高质量AI算力基础设施的关键

GPU设备化到服务化:高质量AI算力基础设施的关键

时间:2024-09-09 10:53:41浏览次数:13  
标签:服务化 AI 化到 GPU OrionX 算力 资源

1 引言

随着人工智能技术的飞速发展,AI算力基础设施已成为支撑AI创新的关键。然而,当前的AI算力基础设施建设及管理面临着诸多挑战。

目前常见的异构GPU集群部署和形态为图1-1的孤岛式集群部署+烟囱式算力使用。

GPU设备化到服务化:高质量AI算力基础设施的关键_GPU

图1-1 传统异构GPU集群形态

孤岛式异构集群,即每个厂商的异构智算资源单独组集群。GPU算力供给侧通常会基于多个厂商的多类 AI服务器进行建设,不同厂商不同AI芯片架构的服务器资源互相独立,生态隔离,形成算力孤岛,给运维带来很大挑战。

烟囱式算力使用,即应用只能独占且静态的使用本服务器的GPU算力。通过直通物理或者虚拟设备的方式提供虚拟化/容器化的应用,应用算力可获取性和算力的扩缩容依赖于本服务器算力的可用性。

这种烟囱式的使用方式带来如下几个关键挑战:

❌ 资源管理和使用效率低下:算力和显存资源为独占模式,不支持资源动态调整,运维效果不理想。

❌ 故障隔离挑战:无法在卡亚健康状态下,提前规避故障,任务无法快速从故障中隔离。

❌ 单节点算力使用受限:无法跨节点调用算力,服务器选型时的CPU和GPU配比难,如果配比不合理,可能会出现一方资源重载,而另一方资源轻载的情况,从而导致昂贵的算力被浪费。

显然在当下GPU算力昂贵、且算力需求激增的背景下,这种烟囱式的算力使用方式无法满足高质量算力基础设施的要求。高质量算力基础设施应该具有图1-2的关键因素:

GPU设备化到服务化:高质量AI算力基础设施的关键_AI_02

图1-2 高质量算力基础设施关键因素

本文将探讨如何通过GPU资源服务化分配,打造高质量、灵活且高效的基础设施。

2 资源设备化

资源设备化指的是以物理设备或者虚拟设备形式存在的资源,比如服务器、存储设备、网络设备,GPU等。当通过设备提供给应用使用的时候,是一种独占式的静态分配

设备化使用资源存在一些缺点,例如:

❌ 资源利用率低:在设备化使用的情况下,单个设备通常只能分配给单一用户或任务使用,无法实现资源复用。这可能导致资源利用率不高,特别是在资源不被充分利用的情况下。

❌ 缺乏灵活性:在资源分配和任务调度上缺乏灵活性,难以快速适应变化的计算需求。

❌ 可扩展性受限:资源的扩展性可能受到物理硬件数量和空间的限制。

❌ 环境依赖性强:设备化资源的使用通常受限于特定的物理环境。

❌ 使用运维门槛高:对于使用人员来讲,使用设备化资源可能需要专业的硬件操作和维护技能。

对于GPU资源来说,传统GPU直通使用方式,以及目前一些主流互联网厂商和云厂商提供的GPU虚拟化方案都是设备化分配的范畴,如图2-1所示:

GPU设备化到服务化:高质量AI算力基础设施的关键_服务化_03

图2-1 GPU算力设备化分配

这种分配方式下,GPU资源或者切分的GPU资源被作为一个设备静态配置到虚机或者容器内部,应用存活期间独占该设备;直至应用销毁,才会释放该设备。

可见,传统孤岛式集群+烟囱式算力使用的根源在于底层资源分配逻辑是设备化的分配。因此,为了打造高质量AI算力基础设施,底层资源分配方式的改变是必不可少的。

3 资源服务化

资源分配的另外一种方式便是资源服务化,它是指将物理资源抽象化,通过软件和服务的形式提供给用户,它具有如下优点:

✔ 资源使用率提高:应用根据实际需求取用资源,可随时获取或释放资源,实现资源的弹性伸缩,利用率大幅提升。

✔ 灵活性高:灵活的资源调度策略使应用可以快速获得所需资源,搭配高级的超分超售能力,使得有限的资源支撑更多业务。

✔ 可扩展性强:服务化资源可以快速扩展或缩减,以适应业务需求的变化。

✔ 环境依赖小:服务化资源可以提供更广泛的访问性和更好的地理位置无关性。用户无需关心背后的物理设备,只需按需使用服务即可。

✔ 运维自动化:资源自动分配,自动回收,无需人工干预。业务方可聚焦在业务逻辑,省心省力。

✔ 成本效益高:用户根据实际使用的服务付费,一方面可以精细化运营算力资源,另一方面可以降低用户的总体拥有成本(TCO)。

GPU设备化到服务化:高质量AI算力基础设施的关键_服务化_04

图3-1 GPU算力服务化分配

这种方式下,GPU资源被作为算力服务动态分配给虚机或者容器,可以实现任务级别的算力即取即用,同时可以实现GPU资源不变的情况下,服务更多用户或应用。

GPU服务化能够从容应对传统异构智算集群的管理挑战:

▪ 针对不同服务类型,调度相应的算力资源,并且支持异构GPU的同集群纳管。

▪ 将资源提供方和使用方解耦,解决烟囱式的算力使用瓶颈。

▪ 资源实现按需取用,即取即用,闲置算力被充分利用,提升GPU使用率。

4 GPU服务化的最佳实践 – OrionX

趋动科技的OrionX解决方案,以其GPU池化层的创新技术,引领了软件定义GPU算力的新纪元。这一技术不仅实现了服务化的算力分配,更助力客户在AI算力基础设施的形态转型上迈出了坚实的步伐。

GPU设备化到服务化:高质量AI算力基础设施的关键_GPU_05

图4-1 软件定义异构算力集群形态

在图4-1 OrionX赋能的新型基础设施形态中,我们能够见证以下变革:

▪ 资源统一管理:OrionX将异构AI算力资源纳入统一的集群管理之中,通过其平台对外提供不同生态的算力服务,实现了资源的高效整合与优化配置。

▪ 智能算力调度:OrionX为应用提供了智能化、精准化的算力服务调度,确保了全流程的资源自动分配与自动回收。这种按需取用的算力服务模式,实现了资源的即时可用性,同时提供了更加灵活的资源使用方式。

▪ 应用与算力解耦:OrionX的算力池化技术实现了应用与算力的解耦合,使得应用部署更加灵活,不再受限于宿主机的算力类型,极大地提升了资源的利用效率和应用的可移植性。

OrionX可以为AI算力基础设施的支撑能力带来极大提升:

✔ 开放性:OrionX保持了CUDA生态系统的开放性,避免了对特定技术的依赖。它打破了传统服务器算力的局限,从而显著增加了潜在可用的算力资源。

✔ 融合性:OrionX提供多样化的算力供应,能够满足不同应用对算力的差异化需求。无论是多厂商产品、不同精度要求,还是多样化的算力水平,包括物理卡和虚拟卡,OrionX都能提供相应的支持。

✔ 绿色性:通过智能调度和服务端的热迁移技术,OrionX实现了资源使用的精细化管理,减少了不必要的能源消耗。这使得暂时不需要的服务器能够及时下电,进一步提高了能源效率。

✔ 管理性:OrionX不仅加强了常规的运维管理,还提供了更多主动干预任务的能力,使得运维更加高效和智能。

✔ 敏捷性:OrionX将算力的使用模式从传统的设备独占式转变为服务化的动态使用,有效减少了算力的闲置时间,提高了资源的利用率。

✔ 普惠性:基于服务化的算力供应,OrionX通过超分超售和任务队列等机制,最大限度地利用了所有可用的算力资源,从而显著降低了算力成本,使得高性能计算更加普及和经济。

5 结语

在当今快速发展的AI技术领域,趋动科技的OrionX AI算力池化解决方案提供了一种全新的视角和方法。

OrionX专注于GPU服务化,通过创新的技术和灵活的服务模式,为用户提供了一种高效、可扩展且成本效益高的解决方案,它以其独特的GPU服务化理念,为用户提供了一个打造高质量算力基础设施的新选择,也为整个行业树立了一个高标准。通过OrionX,趋动科技正在引领GPU服务化的潮流,助力用户构建强大的计算平台。

参考资料:

1. 算力基础设施高质量发展行动计划 - 中国政府网

https://www.gov.cn/zhengce/zhengceku/202310/P020231009520949915888.pdf

2. 《中国算力产业高质量发展白皮书》

https://www.cidc.org.cn/news/20230309/818449559544922112.html

3. 揭秘GPU技术新趋势:从虚拟化到池化

https://blog.csdn.net/njbaige/article/details/139455360

4. GPU虚拟化的实现方案:从设备模拟到完全GPU虚拟化

https://developer.baidu.com/art

标签:服务化,AI,化到,GPU,OrionX,算力,资源
From: https://blog.51cto.com/u_16958038/11959411

相关文章

  • LivePortrait: 让静态图像“活”起来、更好地控制图片/视频中人物的表情,新增动物模式,
     引言随着AI技术的飞速发展,图像生成与编辑的门槛不断降低,尤其在人像视频生成领域取得了令人瞩目的成就。快手可灵大模型团队开源的LivePortrait框架,以其出色的性能与创新的设计,引领了AI生成的新浪潮。LivePortrait不仅能够将静态图像转换为动态视频,还能精确控制面......
  • Vidful.ai:免费在线AI视频生成器
    免费在线AI视频生成器Vidful.ai,无需下载或复杂操作,轻松将文字和图片转换为高质量、电影级视频!网址:https://vidful.ai/为什么选择Vidful.ai?免费在线平台:无需下载、注册或使用复杂的软件,随时随地轻松生成高质量视频。电影级画质:由块手KlingAI和LumaAIDreamMachine提供技术......
  • OpenAI Gym ProcGen - Getting Action Meanings
    题意:OpenAIGymProcGen-获取动作含义问题背景:IntheOpenAIProcGengym,Iamnotgettingaway togetthemeaningsoftheactionvalues,Icanseethatthereare15actionsforthecoinrunenvironmentusing env.action_space.n.IhavetriedboththeG......
  • 一文掌握Containerd配置Harbor私有仓库
    一文掌握Containerd配置Harbor私有仓库目录1概念1.1什么是Containerd1.2什么是Harbor1.3什么是ctr和crictl2配置Containerd使用Harbor作为私有仓库将Harbor相关证书上传到Kubernetes的节点上更新Containerd配置重启Containerd服务验证配置是否成功2.4.1使用......
  • 深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
    深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析1.语音合成任务简介1.1.语音与文本对比语音来说,NLP技术在深度学习中更为普及。在介绍语音合成任务前,我们先来了解语音这一模态的特点,并将其与文本模态对比。文本模态语音模态表现方式......
  • 论文怎么写?巧用知网和WanFangAi一小时搞定初稿!!!
    搜集大量文献是基础!!先做好整体框架,整体框架肯定也是借鉴很多文献搞好的,然后框架搞好,就逐个击破,各个小标题去看相应文献!一定多看多找,看得多了,灵感乍现。我的论文基本都是这样完成的,都是自己手敲,后期重复率特别低。可以分为两个阶段定题目,这个方向就很广泛了,就是专业相关的......
  • 文献综述怎么写?巧用知网+小渡Ai生成高质量文献综述
    ......
  • AI赋能司法,助力法院高效办工
    传统的法院裁决流程中,法官往往需要花费大量时间在法律法规的检索和判例参考上,且文书生成工作耗时费力,容易出现人工误判。法院智能助手利用AI大模型和RAG知识库技术,帮助法官快速检索相关法律法规和历史判例,自动生成初步裁决文书,并提供法律风险预警。系统支持私有化部署和多终端应......
  • [C++ Daily] 确保类复制了所有应该复制的成员
    确保类复制了所有应该复制的成员结果:源代码:#include<iostream>#include<string>#include<vector>/***copy操作应该包含对象内的所有成员变量及所有父类的成员变量,*此种可以通过调用对应的拷贝构造与拷贝赋值操作完成*////@briefsimpleterminalprint......
  • HACKTHEBOX——Brainfuck
    靶机详情靶机地址:10.10.10.17攻击地址:10.10.16.3端口服务扫描首先依旧要确定攻击主机能否Ping通靶机使用nmap或者其他工具扫描目标开放了哪些端口与服务渗透过程从上图可以看到目标开放了135、139、445端口,开放了Smb服务,这个服务有个大名鼎鼎的漏洞就是永恒之......