首页 > 其他分享 >服务600+客户的3D生成AIGC公司如何实现GPU成本降低70%?

服务600+客户的3D生成AIGC公司如何实现GPU成本降低70%?

时间:2024-12-23 11:52:19浏览次数:4  
标签:600 AI Omi AIGC Amazon 实例 Karpenter 70% EKS

原文链接:https://aws.amazon.com/cn/solutions/case-studies/omi-eks-case-study/
编译:CloudPilot AI

总部位于巴黎的视觉生成初创公司 Omi 提供基于人工智能的 3D 图像渲染解决方案,帮助品牌生成高质量的产品视觉内容。Omi 始终将性能效率和成本优化放在首位。早在生成式 AI 兴起之前,该公司便利用 Amazon Elastic Kubernetes Service (Amazon EKS) 开发了其 3D 渲染解决方案。

为了进一步优化性能、速度和成本,Omi 借助 Karpenter 来自动匹配适合的计算资源,以处理基于 Kubernetes 的 GPU 工作负载。通过这项改进,Omi 不仅将基础设施成本降低了 70%,还将照片渲染时间从 5 分钟缩短至 1.5 分钟,提升了可扩展性,同时优化了员工的工作效率。

利用 Amazon EKS 优化 Omi 的 AI 图像建模

Omi 成立于 2020 年,旨在满足一项核心业务需求:以更少的时间和更低的成本制作高质量的视觉内容。 Omi 利用 AI 提供 3D 图像和视频建模服务,打破了传统的生产限制,大幅降低了制作成本,并通过 3D 技术与生成式 AI 实现了高效便捷的定制内容生产,覆盖了所有营销渠道。

目前,Omi 的业务遍布全球 17 个国家,服务超过 600 位客户和 1,000 个品牌,每日活跃用户超过 5,000 人,用户主要为电子商务、社交媒体和广告渠道制作内容。通过 Omi 的解决方案,客户在营销视觉内容的制作上显著减少了时间和成本。

从一开始,Omi 就致力于打造一款快速高效的解决方案,用于生成社交媒体照片、3D 动态图像以及视频,并适配电商网站和其他渠道的使用需求。

最初,Omi 在本地完成内容创建,并通过远程服务器实现照片级逼真的渲染。然而,随着对快速、低成本服务需求的增长,公司不得不将生成式 AI 功能集成到其解决方案中。这一集成对计算和 GPU 资源提出了巨大的要求,同时需要 Omi 采用新的方法来管理可扩展性,并在控制成本的同时保持高可用性。

Omi 的联合创始人 Paul Borensztein 表示:“对我们来说,构建能够提供卓越性能的基础设施非常重要,但我们也必须确保成本不会过高。”

最初,Omi 的基础设施团队有 60%–70% 的时间被用于优化 GPU 的扩展速度和成本管理。公司面临诸多 IT 运维挑战,例如由于 Docker 镜像过大导致的容器启动时间缓慢,以及涉及多种自动扩展组和实例类型的扩展复杂性。

传统的集群自动扩展器(Cluster AutoScaler)在管理生成式 AI 工作负载的可用区和实例类型时表现乏力,导致无法及时满足计算需求,进而让客户等待时间变长。

为了解决这些问题,Omi 采用了 Karpenter,这是一款开源的 Kubernetes 节点自动扩缩容工具,通过弹性伸缩 Kubernetes 集群,平衡应用程序的可用性、性能和成本。Omi 的高级后端开发工程师兼 SRE 工程师 Elliot Maincourt 表示:“使用 Karpenter 后,我们显著缩短了实例启动时间,这帮助我们的应用程序将照片的平均渲染时间从 5 分钟减少到 1.5 分钟,这无疑是一个巨大的提升。”

引入 Karpenter,降低 70% 成本并缩短渲染时间

在过去管理 Kubernetes 集群时,Omi 团队曾遇到不少挑战。为此,他们决定采用 Amazon EKS,这是一项托管服务,可用于启动、运行和扩展 Kubernetes 集群。为了进一步优化基础设施并解决运维难题,Omi 引入了 Karpenter,这款工具能够快速、自动适应应用负载和资源需求的变化,并智能选择跨可用区的低成本实例。

CloudPilot AI (www.cloudpilot.ai)在 Karpenter 的基础上对节点选择功能进行智能化升级。在选取实例的过程中,除了价格因素外,还将网络带宽、磁盘 I/O、芯片类型等因素纳入考虑范围内,通过智能算法选出兼顾成本和性能的实例类型,以减少资源浪费,增强应用稳定性。

另一个降低成本的手段是充分利用 Spot 实例,因为这一实例类型的价格为 On-demand 实例的 1-2折。此外,CloudPilot AI 采用自研的 AI 算法,能提前精准预测 Spot 实例中断时刻。将默认2分钟的中断通知延长至2小时,同时在检测到 Spot 实例即将中断之后,帮助用户安全、高效、自动地完成 Spot Fallback,为运维团队减负,保障应用平稳运行。

Borensztein 表示:“Amazon EKS 和 Karpenter 在处理我们工作负载的扩展方面表现非常出色,有时 GPU 实例能在几分钟内从 1 个扩展到 250 多个,同时仍然有效控制了成本。”

Omi 的解决方案可以快速扩展至 1,000 个 GPU 实例,并且包括 CPU 实例在内,能够在 Amazon EKS 上同时运行超过 1,500 台机器。(参见下方图 1 和图 2)

图1 总体集群负载

图2 Ratio/On-Demand Ratio

通过结合使用 Karpenter 的节点生命周期管理和成本优化实例,Omi 成功将整体成本降低了 70%。 Omi 利用 Karpenter 管理其 Amazon EKS 节点组,** 在 24 小时内扩展至 3,500 多个 Pod。** 这种快速扩展能力帮助 Omi 满足了客户的需求。Borensztein 表示:“在 AWS 上使用 Karpenter,我们在不到两个月的时间内就取得了巨大改进,包括在部署和调优方面。”

此外,为了更高效地服务客户,Omi 采用了 Bottlerocket,这是一款由 AWS 专门为运行容器设计的基于 Linux 的开源操作系统。Omi 利用 Bottlerocket 的不可变操作系统(Immutable OS)从外部数据存储中预取容器镜像,然后再在只读操作系统上启动 Kubernetes Pod。

通过借助 AWS 提升解决方案性能,Omi 希望进一步加速客户体验。Omi 的集群在峰值状态下可以支持超过 1,000 个节点的运行。 这些改进不仅帮助 Omi 构建了一个强大的解决方案,还减少了团队的维护时间。Maincourt 表示:“现在我们可以专注于业务扩展,而不是花时间管理基础设施。我对我们在 Amazon EKS 上的集群非常信任,它们从未出过问题,尽管我们对它们的要求非常高。”

Omi 的客户也从这些改进中受益匪浅。随着基于单个产品的灵活定价模式的引入,客户现在可以为单个产品执行大规模渲染任务,数量可达数千甚至数万次。 Borensztein 表示:“通过这些年来我们在优化方面的努力,包括在这个重大项目中使用 AWS,我们为客户提供了极大的灵活性,他们几乎可以无限制地扩展渲染需求。”

加速拓展新市场

在不到两个月的时间内,Omi 通过使用 Karpenter 和 Amazon EKS 实现了显著的改进,这些解决方案让公司能够将精力集中在业务扩展上,而非基础设施管理。如今,Omi 在提升渲染能力和重新评估基础设施需求上花费的时间显著减少。

Omi 的业务增长在英国和整个欧洲加速推进。公司继续利用 AWS 优化其解决方案,并计划将服务扩展到包括美国在内的新市场。在内容创作蓬勃发展的市场中,Omi 的解决方案汇聚了生成式 AI 和 3D 两大趋势的优势,具有强大的市场竞争力。

Maincourt 表示:“使用 Karpenter 和 Amazon EKS 的最大好处在于,我们显著减少了客户的渲染时间。同时,我们还将成本降低了 70%,这也是一个重要的商业目标。”

标签:600,AI,Omi,AIGC,Amazon,实例,Karpenter,70%,EKS
From: https://www.cnblogs.com/cloudpilot-ai/p/18623671/omi-karpenter

相关文章

  • 【AIGC】ComfyUI 入门教程:SDXL 工作流和 ComfyUI 整合包
    ComfyUI是StableDiffusion的一个基于节点组装绘图流程的图形用户界面(GUI)。通过将不同的节点连接在一起,你可以在ComfyUI中构建图像生成工作流。一个完整的工作流看起来像下面这样:1、SDXL工作流StableDiffusionXL模型是在StableDiffusion1.5、StableDiffusio......
  • 信息学奥赛一本通:1170:计算2的N次方
    【题目描述】任意给定一个正整数N(N<=100),计算2的n次方的值。【输入】输入一个正整数N。【输出】输出2的N次方的值。【输入样例】5【输出样例】32【参考程序一】(1)数据的接收方法和存贮方法       数据的接收和存贮:当输入的数很长时,可采用字符......
  • 基于Java的班级管理系统的设计与实现 毕业设计-附源码60085
    摘要班级管理是学校管理的重要组成部分,传统的班级管理方式存在效率低下、信息不及时等问题。为了解决这些问题,本文设计并实现了一个基于 Java 的班级管理系统。 本论文旨在设计并实现一个基于 Java 的班级管理系统,以提高班级管理的效率和准确性。该系统采用了SSM框架......
  • AIGC时代算法工程师的面试秘籍(第二十八式2024.12.2-12.15) |【三年面试五年模拟】
    写在前面【三年面试五年模拟】旨在整理&挖掘AI算法工程师在实习/校招/社招时所需的干货知识点与面试经验,力求让读者在获得心仪offer的同时,增强技术基本面。欢迎大家关注Rocky的公众号:WeThinkIn欢迎大家关注Rocky的知乎:RockyDingAIGC算法工程师面试面经秘籍分享:WeThi......
  • 【stable diffusion原理】一文带你解读AIGC的基础StableDiffusion!
    前言StableDiffusion是一种基于扩散模型的生成式人工智能技术,由StabilityAI等团队开发。它能够根据输入的文本描述生成高质量的图像。StableDiffusion采用了潜在扩散模型(LatentDiffusionModels,LDMs),通过在潜在空间中进行操作,提高了计算效率和生成图像的质量。Sta......
  • 基于钜泉计量AD的电表应用专题推荐(ATT7053D、HT7136、HT7627S-E
    关于电力仪表上应用专题介绍,钜泉电能计量、PA驱动、Flash存储HiTrend(钜泉)电能计量芯片单相计量ADC:ATT7053D,ATT7053C,HT7017,HT7017C三相计量ADC:HT7036、HT7038、ATT7022E、HT7136、HT7132、HT7032-L单相计量SOC:HT5019、HT5017,HT5025、HT5029,HT5033,HT5035,HT5037R46物联网表IC......
  • AIGC魔性表情包制作步骤,1.文字转图片,2.图片转视频,3.视频剪辑、配乐
    AIGC魔性视频,萌趣表情包AIGC(AIGeneratedContent)魔性表情包的制作可以是一个有趣且创意的过程,它涉及到将文本信息转化为视觉内容,并最终形成一个能够表达情感或增添交流趣味的表情包视频。1.文字转图片选择工具和技术栈:即梦AI通义万相2.图片转视频选择工具和......
  • 【AIGC】ChatGPT 结构化 Prompt 的高级应用
    博客主页:[小ᶻ☡꙳ᵃⁱᵍᶜ꙳]本文专栏:AIGC|ChatGPT文章目录......
  • 【外设篇】STMG4芯片-Hal库-I2C通信AS5600编码器(基础工程)
    引言:AS5600为绝对值编码器,其接口有I2C和ADC两种,为配合FOC的10KHZ运行速率,博主使用I2C的DMA模式+高速波特率1MHZ或ADC模拟的方式读取电机电角度,并讲明绝对值编码器在PMSM电机里如何让电角度对齐正确角度,最后用STM32Cubemx和keil5实习代码。1.I2C的HAL库函数及ADC的HAL库函数......
  • 当前AIGC研究回顾—CV类
    AI技术本质是数据驱动(Data-Driven),模型能有效学习庞大数据,需要与数据规模相匹配的可学习参数规模(也要有对应的算力)因此,技术可分为两条主线:数据数据如果在模型外,主要就是数据集,更多是质量和标注的问题,即预处理数据如果在模型内,则主要操作的是潜空间(LatentSpace),......