首页 > 其他分享 >面对 Nvidia 的主导地位:非大型科技公司的敏捷机器学习开发策略(在供应和成本挑战中)

面对 Nvidia 的主导地位:非大型科技公司的敏捷机器学习开发策略(在供应和成本挑战中)

时间:2024-03-19 14:00:02浏览次数:23  
标签:伟达 人工智能 模型 主导地位 硬件 开发 Nvidia 敏捷

在这里插入图片描述

在真正的大玩家中建立游戏业务从来都不是一件容易的事。 2023 年,在真正令人费解的突破的推动下,人工智能领域的竞争达到了前所未有的高度。 OpenAI 的发布 GPT-4, 整合 与 Bing 聊天 GPT, 谷歌推出 诗人,以及Meta备受争议的“开源” 骆驼2 发布。听起来像是一长串大人物的名单,对吧?尽管听起来令人兴奋,但大多数创新都在于资金流向,而规模较小的科技公司必须经历的竞争日益激烈。

在科技行业不断发展的格局中,英伟达继续巩固其作为人工智能基础设施关键参与者的地位。期间 8月份财务报告电话会议NVIDIA 总裁黄仁勋强调了对 Nvidia 处理器不断飙升的需求。这一说法得到了来自以下机构的确认的支持 Nvidia 第三季度业绩 r 演示收入数据,这揭示了令人印象深刻的同比业绩记录,这一点早在 11 月份就已显现出来。与此同时,Gartner 的预测表明未来四年芯片支出将大幅增加。目前,英伟达的软件堆栈和处理器无与伦比,这让业界不确定何时会出现可靠的竞争对手。

来自的最新报告 彭博 和 “金融时报” OpenAI 首席执行官 Sam Altman 与中东投资者就启动芯片生产进行谈判,旨在减少 AI 行业对 Nvidia 芯片的依赖。挑战市值近 1.5 万亿美元的英伟达,奥特曼可能会付出以下代价: 5万亿美元和7万亿美元 并需要几年的时间。

尽管如此,解决商业机器学习模型的成本效益是公司现在必须做的事情。对于大型科技领域之外的企业来说,开发具有成本效益的机器学习模型不仅仅是一个业务流程,更是一项至关重要的生存策略。本文探讨了四种务实的策略,使各种规模的企业能够在无需大量研发投资的情况下开发自己的模型,并保持灵活性以避免供应商锁定。

英伟达为何称霸人工智能市场

长话短说,Nvidia 通过高性能 GPU 与其专有模型训练软件堆栈(广受好评的 CUDA 工具包)之间的协同作用,创建了理想的模型训练工作流程。

CUDA(于 2007 年推出)是一个全面的并行计算工具包和 API,用于优化利用 Nvidia GPU 处理器。它如此受欢迎的主要原因是其无与伦比的加速复杂数学计算的能力,这对于深度学习至关重要。此外,它还为深度神经网络提供了 cuDNN 等丰富的生态系统,从而提高了性能和易用性。它对于开发人员来说至关重要,因为它与主要深度学习框架无缝集成,可实现快速模型开发和迭代。

事实证明,如此强大的软件堆栈与高效硬件的结合是占领市场的关键。尽管有些人认为英伟达的主导地位可能只是暂时现象,但在当前形势下很难做出这样的预测。

英伟达主导地位的沉重代价

Nvidia 在机器学习开发领域占据上风引发了诸多担忧,不仅是在 伦理 不仅如此,研发预算差距不断扩大,这也是小企业进入市场变得更加困难的原因之一,更不用说初创企业了。再加上由于风险较高而导致投资者兴趣下降,以及收购大量研发的任务(就像英伟达的那些)投资变得完全不可能,创造了一个非常非常不公平的竞争环境。

然而,这种对英伟达硬件的严重依赖给供应链一致性带来了更大的压力,并带来了中断和供应商锁定的风险,从而降低了市场灵活性并提高了市场进入壁垒。

“一些公司正在汇集现金,以确保他们不会让用户陷入困境。随着公司试图削减 GPU 需求,“优化”和“更小模型尺寸”等工程术语在各地都很流行,今年投资者已在初创公司上投入了数亿美元,这些公司的软件可以帮助公司利用 GPU 来维持生计。”

非大型科技公司可以适应英伟达的主导地位的策略:

1.开始探索AMD的RocM
AMD 一直在积极缩小与 NVIDIA 的 AI 开发差距,这一壮举是通过其对 Rocm 的持续支持而实现的。 PyTorch 的主要库 在过去的一年。这一持续的努力提高了兼容性和性能,突出表现在 MI300芯片组,AMD最新发布。 MI300 在大型语言模型 (LLM) 推理任务中表现出强大的性能,特别是在 LLama-70b 等模型上表现出色。这一成功凸显了 AMD 在处理能力和效率方面取得的重大进步。
2.寻找其他硬件替代品
除了AMD的进步之外, 谷歌推出张量处理单元(TPU),专门设计用于加速机器学习工作负载的专用硬件,为训练大规模人工智能模型提供了强大的替代方案。

除了这些行业巨头之外,Graphcore 和 Cerebras 等规模较小但有影响力的企业也为人工智能硬件领域做出了显着的贡献。 Graphcore 的智能处理单元 (IPU) 专为提高 AI 计算效率而定制,因其在高性能任务中的潜力而受到关注,如下所示: 推特的实验。另一方面,大脑是 凭借先进芯片突破界限,强调人工智能应用程序的可扩展性和原始计算能力。

这些公司的集体努力标志着人工智能硬件生态系统正在向更加多样化的方向转变。这种多元化提供了减少对 NVIDIA 依赖的可行策略,为开发人员和研究人员提供了更广泛的 AI 开发平台。

3.开始投资性能优化
除了探索硬件替代方案之外,优化软件被证明是减轻英伟达主导地位影响的关键因素。通过利用高效的算法、减少不必要的计算并实施并行处理技术,非大型科技公司可以最大限度地提高现有硬件上的机器学习模型的性能,从而提供一种实用的方法来弥补差距,而无需仅仅依赖昂贵的硬件升级。

Deci Ai 的 AutoNAC 技术就体现了这种方法。这项创新已证明能够将模型推理加速 3-10 倍,这一点得到了广泛认可的证实 MLPerf 基准测试。通过展示这些进步,很明显软件优化可以显着提高机器学习开发的效率,为减轻 Nvidia 在该领域的主导地位的影响提供了一种可行的替代方案。

4.开始与其他组织合作创建去中心化集群
这种协作方法可以包括共享研究成果、共同投资替代硬件选项以及通过开源项目促进新机器学习技术的开发。通过分散推理和利用分布式计算资源,非大型科技公司可以创造公平的竞争环境,并在机器学习开发行业中创造更具竞争力的格局。

如今,共享计算资源的战略正在整个科技行业蓬勃发展。 Google Kubernetes Engine (GKE) 通过支持集群多租户、实现高效的资源利用以及与第三方服务的集成来证明了这一点。 Petals 等社区主导的举措进一步证明了这一趋势,Petals 提供了用于运行 AI 模型的分布式网络,无需大量投资即可实现高性能计算。此外,Together.ai 等平台提供对各种开源模型的无服务器访问,从而简化开发并促进协作。考虑此类平台可以让您获得计算资源和协作开发机会,从而帮助优化您的开发流程并降低成本,无论组织规模如何。

结论

在全球范围内,上述战略的必要性变得显而易见。当一个实体主导市场时,就会扼杀发展并阻碍合理定价的建立。

非大型科技公司可以通过探索 AMD 的 RocM 等替代方案来对抗 Nvidia 的主导地位,通过高效算法和并行处理投资于性能优化,并促进与其他组织的合作以创建去中心化集群。这促进了人工智能硬件和开发行业更加多元化和竞争的格局,让较小的参与者在人工智能开发的未来拥有发言权。

这些策略旨在减少对英伟达价格和供应的依赖,从而增强投资吸引力,最大限度地降低硬件竞争中业务发展放缓的风险,并促进整个行业的有机增长。在这里还是给大家推荐一个跟程序员有关的技术学习网站--------IThero,有想要的课程可以留言。

标签:伟达,人工智能,模型,主导地位,硬件,开发,Nvidia,敏捷
From: https://blog.csdn.net/weixin_46083783/article/details/136840402

相关文章

  • 【NVIDIA JETSON AGX XAVIER】与个人笔记本(win11)建立TCP-IP连接相互传输数据(含源码)
    文章目录前言一、个人笔记本(win11)传输数据到XAVIER(多次传输)1.服务器端代码(个人笔记本win11)2.客户端代码(NVIDIAJETSONAGXXAVIER)二、两端相互传输(以另一种形式解决上一篇博客的问题)1.服务器端代码(个人笔记本win11)2.客户端代码(NVIDIAJETSONAGXXAVIER)三、传输数据中......
  • 【已解决】报错 NVIDIA-SMI has failed because it couldn‘t communicate with the N
    在重装系统ubuntu20.4.6之后,运行程序的时候无法启动nvidia显卡,然后输入nvidia-smi报错hasfailedbecauseitcouldn‘tcommunicatewiththeNVIDIAdriver,在网上查看许多解决方案也没有解决,其中这篇文章(https://www.zhihu.com/question/474222642)写的较为详细,但是我试过依旧无......
  • Leangoo领歌免费敏捷工具项目“版本发布”功能上线
    ​ Leangoo领歌是款永久免费的专业的敏捷开发管理工具,提供端到端敏捷研发管理解决方案,涵盖敏捷需求管理、任务协同、进展跟踪、统计度量等。Leangoo领歌上手快、实施成本低,可帮助企业快速落地敏捷,提质增效、缩短周期、加速创新。Leangoo领歌区别于传统项目管理软件,项目的需求、......
  • NVIDIA安装CUDA在安装阶段提示NVIDIA安装程序失败
    1.首先在NVIDIA官网上下载相应的CUDA版本https://developer.nvidia.com/cuda-toolkit-archive安装过程出现上述报错!2.解决方法。下载完成直接双击,默认选择路径3.点击同意并继续4.选择自定义模式5.在选择组件的时候,将CUDA中的NsightVSE和VisualStudioIntegration取消......
  • 了解 NVIDIA 的数据中心 GPU 系列
    长话短说NVIDIA拥有数十个GPU,可以为不同大小的ML模型提供服务。但了解这些不同卡的性能和成本(更不用说保持名称正确)是一个挑战。每个GPU的名称是一个字母数字标识符,传达有关其架构和规格的信息。本指南可帮助您浏览NVIDIA数据中心GPU系列并将其映射到您的模型服务需......
  • 解决nvidia-smi报错:NVIDIA-SMI has failed because it couldn‘t communicate with th
    昨天一切正常,今天ubuntu启动突然卡住了,一直停在黑屏光标界面。在网上看到原因可能和nvidia驱动有关。输入nvidia-smi报出题目中的错误。一般这种错误都是在刚安装nvidia驱动后第一次启动可能出现,见我这篇文章。不过这次是突然出现的,不是安装驱动后出现的,所以不是安装nvidia驱......
  • Use Wayland with proprietary NVIDIA drivers
    Waylanddoesnotplaywellwithproprietarydrivers.CurrentlythebiggestissueisthatNVIDIAdoescurrentlynotsupportXwaylandproperly,soappsthatrequireitgetsoftwarerendering.Thisincludesmostgames,whicharethemostcommonusecasefor......
  • LLM研究之-NVIDIA的CUDA
    一、什么是NVIDIA的CUDACUDA(ComputeUnifiedDeviceArchitecture)是由NVIDIA公司开发的一个并行计算平台和应用程序编程接口(API),它允许软件开发者和软件工程师使用NVIDIA的图形处理单元(GPU)来进行通用计算。简而言之,CUDA让开发者能够利用NVIDIA的GPU进行高效能的计算工作,这通常被称......
  • Tacotron2(NVIDIA版)训练笔记
    https://blog.csdn.net/qq_44951010/article/details/124828260 Tacotron2项目地址:https://github.com/NVIDIA/tacotron2Tacotron2中文训练笔记:https://blog.csdn.net/qq_44951010/article/details/124830538从科大讯飞爬取音频数据:https://blog.csdn.net/qq_44951010/article/......
  • 国产AI训练卡,对标美国NVIDIA公司的A100,华为昇腾Atlas 300T A2(Ascend 910B4)高性能GPU/N
    ChinahassuccessfullyachievedthelocalizationofAIchips,breakingthroughthetechnologicalrestrictionsimposedbytheU.S.governmentandrealizingindependentdesignandproductionofdomesticAIchips.Huawei'sAscend910modelAIchiphass......