首页 > 系统相关 >趋动科技 OrionX on VMware 打造 AI 就绪平台

趋动科技 OrionX on VMware 打造 AI 就绪平台

时间:2024-08-30 14:28:12浏览次数:12  
标签:Tanzu AI 趋动 GPU OrionX 算力 VMware

随着科技进步和产业变革的加速演进,人工智能(AI)已经成为兵家必争之地。今年以来伴随着ChatGPT带来的鲶鱼效应,人工智能成为科技产业创新的焦点,其应用范围越来越广泛,并将持续发展。科技产业龙头正加大在人工智能领域的军备竞赛。算法、数据、算力作为人工智能领域的三要素,也同时受到了业内关注。在政府、学术机构、企业等各个层面,AI都受到高度重视,其在学术研究、技术创新、人才教育等方面的发展都呈现全新发展态势。作为AI市场中的重要组成,以GPU技术为主的AI加速市场也得到了快速的发展,与此同时,由于GPU硬件价格昂贵,传统使用GPU算力的独占式使用方式缺乏灵活性和经济性,云原生技术的发展又催生了快速交付细粒度切分GPU算力的需求,所以市场上急需经济高效GPU算力池化方案。

VMware作为虚拟化与云原生技术的领导者,针对不同使用场景有对应的GPU资源技术方案。

趋动科技 OrionX on VMware 打造 AI 就绪平台_池化

趋动科技作为GPU池化技术领导者,自主研发的OrionX AI算力资源池化软件可以为企业用户构建数据中心级AI算力资源池和AI开发平台。OrionX将AI应用与物理算力资源解耦,并通过高效的通讯机制,使得AI应用、CUDA应用可以运行在云或者数据中心内任何一个物理机、Container或者VM内而无需挂载物理GPU。OrionX GPU池化软件的收益多多:

  • 兼容已有的AI应用和CUDA应用,使其仍然具有使用GPU加速的性能。
  • 为AI应用和CUDA应用在云和数据中心的部署提供了很大的灵活度,无需受GPU服务器位置、资源型号和数量的约束。
  • OrionX vGPU资源随AI应用和CUDA应用启动时分配,随应用程序退出时自动释放,减少GPU空闲时间,提高GPU的利用率。
  • 通过对GPU资源池的管理和优化,提高整个云和数据中心GPU的利用率和吞吐率。
  • 通过统一管理GPU,减轻GPU的管理复杂度和运维成本。

VMware此次联合趋动科技验证了在VMware Cloud Foundation(后面缩写为VCF)平台上提供GPU池化算力方案的能力,目的是更加灵活地为AI训练提供GPU算力,助力AI场景快速落地。

本次经过联合方案验证,主要是将OrionX与VMware VCF with Tanzu 结合部署,主要架构如下:


趋动科技 OrionX on VMware 打造 AI 就绪平台_GPU_02

在整个方案验证中,VMware Tanzu Kubernetes Grid(后面缩写为 Tanzu TKG)提供了Kubernetes 运行环境,VMware Cloud Foundation 为Tanzu TKG 提供了底层IaaS平台,其中vSphere自动化置备Tanzu TKG节点虚拟机, vSAN为Kubernetes提供持久化存储服务, NSX为提供云内网络连接,NSX Advanced Load Balancer为Kubernetes提供负载均衡和应用发布服务。Harbor为整个台提供镜像仓储管理服务。OrionX提供GPU池化能力。Nvidia GPU通过直通模式透传给Tanzu TKG 的工作节点。

在本次方案验证中,我们主要涉及到以下场景:

  • GPU资源按需分配功能
  • GPU资源远程调用功能
  • 多用户GPU资源切分功能
  • 多用户GPU资源动态分配功能
  • 用户GPU资源独享功能
  • GPU加速任务等待功能
  • GPU加速任务优先级功能
  • GPU资源池切换功能
  • 本地和远程调用性能对比


方案验证中一些关键截图

Tanzu TKG 工作节点直通Nvidia T4 GPU卡:

趋动科技 OrionX on VMware 打造 AI 就绪平台_AI技术_03

趋动科技 OrionX on VMware 打造 AI 就绪平台_GPU_04

Tanzu TKG 部署OrionX 运行截图:

趋动科技 OrionX on VMware 打造 AI 就绪平台_池化_05

OrionX 管理界面:

趋动科技 OrionX on VMware 打造 AI 就绪平台_池化_06

GPU分配及队列管理:

趋动科技 OrionX on VMware 打造 AI 就绪平台_AI技术_07

GPU 资源预留:

趋动科技 OrionX on VMware 打造 AI 就绪平台_池化_08

AI任务优先级排列:

趋动科技 OrionX on VMware 打造 AI 就绪平台_AI技术_09

OrionX 可灵活切换GPU卡是否打开虚拟化,而无需重启设备:

趋动科技 OrionX on VMware 打造 AI 就绪平台_池化_10

经过本地调用与远程调用性能对比,性能损耗约3%左右,损耗极低

趋动科技 OrionX on VMware 打造 AI 就绪平台_池化_11

经过本次的方案验证,得到如下一些结论

  • OrionX AI算力池化方案可以在VCF with Tanzu平台上正常稳定运行。
  • OrionX 对GPU池化能力灵活,可以灵活切分、预留、排队、控制任务优先级。
  • 本次VCF测试环境基于25G网络,在本地和远程调用,性能差异小,结果符合预期。

OrionX+ VCF with Tanzu为用户在AI学习场景提供了更加全面的解决方案,让企业内的 AI 用户共享数据中心内所有服务器上的 GPU 算力。AI 开发人员不必再关心底层资源状况,专注于更有价值的业务层面,让AI 开发变得更加高效和便捷。

更灵活:从基础计算、存储、网络、Kubernetes集群到GPU资源,都可以灵活置备,支持不同AI场景。

更高效:全面提升基础架构和GPU资源利用率,发挥最大效能。

更安全:细粒度用户管理,实现资源隔离,安全微分段,保障数据安全。

更便捷:熟悉的基础架构管理,图形化UI,AI任务管理更简单。

VMware vSphere with Tanzu及VCF with Tanzu等产品与趋动OrionX产品的兼容和适配,将更好地支撑企业级客户AI应用的快速发展。

原文作者:卢洋、刘博
文章来源:趋动科技 OrionX on VMware 打造 AI 就绪平台 - VMware 中文博客 https://blogs.vmware.com/china/

标签:Tanzu,AI,趋动,GPU,OrionX,算力,VMware
From: https://blog.51cto.com/u_16958038/11875751

相关文章

  • [AI] 通用智能 - Agent
    08/24过去两年,行业迎来巨变。游戏规则不一样了,需要博客整理下思路。除了下面的提到的几个技能点,Kubenates需要精进正好结合近期的实际项目。[Full-stack]一切皆在云上-AWS   数字人LivePortraint的出现,在工程的设计与实现上颠覆了许多。[GenerativeAI]Avatar......
  • WildCard虚拟卡绑定openAI付款方式
    绑定流程官网:WildCard|一分钟注册,轻松订阅海外软件服务1、使用手机号+验证码注册、可以使用zfb快捷认证2、填写身份信息后,然后根据流程验证即可。3、选择卡片使用期限,填入邀请码【FQBZFT91】可立减$2。4、打开openAI开发者平台:https://platform.openai.com/docs/over......
  • 1-0.AI工具
    1-0.AI工具一.我知道或使用过的AI大模型平台1.OpenAI平台:OpenAIGPT特点:提供先进的自然语言处理能力,支持对话生成、文本总结、翻译等。包括GPT-3、GPT-4等版本。2.GoogleAI平台:GoogleCloudAI特点:提供全面的AI和机器学习服务,包括AutoML、自然语言处理、图像分......
  • 探索科技的边界:如何利用AI技术优化你的工作流程?
    在当今快速发展的技术世界中,人工智能(AI)已经从一个遥不可及的概念,变成了我们日常生活中不可或缺的一部分。无论是智能手机、社交媒体平台,还是家庭自动化系统,都离不开AI的驱动。然而,你是否想过,AI技术可以如何帮助你优化工作流程,提高生产力呢?首先,我们需要了解什么是人工智能。简单来说......
  • 适合小型企业运营的10大AI工具
    人工智能是当今最热门、最受关注的科技分支。各种规模和行业的公司都在开发这些系统,使用它们或两者兼而有之。某种形式的商业就绪AI已经存在多年,机器学习驱动的高级分析作为这一运动的早期先锋。因此,值得问一下为什么那些可能错过了那一波的公司现在却跃跃欲试。答案可以归结......
  • Spring security的SecurityConfig配置时 userDetailsService报错如何解决?
    文章目录报错信息原因解决方案1.实现`UserDetailsService`接口修改`IUsersService`接口和实现类2.修改`SecurityConfig`3.其他注意事项报错信息‘userDetailsService(T)’in‘org.springframework.security.config.annotation.authentication.builders......
  • AIGC时代,仅用合成数据训练模型到底行不行?来一探究竟 | CVPR 2024
    首个针对使用合成数据训练的模型在不同稳健性指标上进行详细分析的研究,展示了如SynCLIP和SynCLR等合成克隆模型,其性能在可接受的范围内接近于在真实图像上训练的对应模型。这一结论适用于所有稳健性指标,除了常见的图像损坏和OOD(域外分布)检测。另一方面,监督模型SynViT-B在除形状偏......
  • ai智能视频监控工厂
    ai智能视频监控工厂借助人工智能技术、智能检测/鉴别、声光报警器,可以很大程度地达到ai智能视频监控工厂安全性监控。ai智慧工厂适用人工智能技术的视频监看方法已经快速提升。Ai视频监控系统可以主动挑选根据人工智能技术的视频系统软件来监控交通堵塞,并应用人工智能来提升视频的......
  • AI论文写作工具排行榜前10收藏,让写论文不再头疼!
    你是不是正为写论文头疼?熬夜改稿,找参考文献,这些麻烦事让人焦头烂额!想不想按个按钮就出来篇论文?现在AI论文生成器能帮你做到这点,让你一键生成万字论文范文,帮你轻松解决论文写作难题。无论是毕业论文、期末论文、课程论文、开题报告,还是成教专升本的论文,甚至毕业设计,它都能轻......
  • 【效率工具】推荐几款好用的idea中的AI助手插件
    1.Tabnine特点:Tabnine提供智能代码补全功能,基于深度学习的模型来预测和补全代码块。它可以根据你当前代码的上下文,智能推荐代码、函数、类、变量名等。支持多种语言,包括Java、Python、JavaScript等,特别适合Java开发者。Tabnine可以在本地运行,保护代码隐私。优势:提高......