首页 > 其他分享 >谷歌、AMD、英特尔加入挑战,英伟达AI解决方案还能继续“遥遥领先”吗?

谷歌、AMD、英特尔加入挑战,英伟达AI解决方案还能继续“遥遥领先”吗?

时间:2023-10-26 10:07:36浏览次数:60  
标签:伟达 AI 英特尔 他们 AMD 供应链 GPU


谷歌、AMD、英特尔加入挑战,英伟达AI解决方案还能继续“遥遥领先”吗?_人工智能


 编译 | 谢年年

要问世界范围内人工智能解决方案谁最“遥遥领先”?

那肯定是英伟达!

谷歌、AMD、英特尔加入挑战,英伟达AI解决方案还能继续“遥遥领先”吗?_英伟达_02

然鹅这一情况很有可能会发生变动。

谷歌正在构建自己的人工智能基础设施!

除了谷歌,在软件方面,Meta的PyTorch 2.0和OpenAI Triton同样发展迅速。

AMD的GPUs、英特尔的Gaudi、Meta的MTIA以及微软的Athena,它们的软件栈都处于不同的成熟阶段。虽然软件之间的差距仍然存在,但这个差距已经不像过去那么大了。

在接下来的几个月里,AMD的MI300和英特尔的Gaudi 3都将推出技术上优于英伟达H100的硬件。也许有一天,英伟达的遥遥领先地位将不复存在。

  大模型研究测试传送门

GPT-4传送门(免墙,可直接测试,遇浏览器警告点高级/继续访问即可):Hello, GPT4!

除了谷歌、AMD和英特尔,英伟达还需要警惕其他小型公司的竞争。这些公司虽然在硬件设计上落后,但他们背后的巨头公司会提供补贴。亚马逊即将推出他们的Trainium2和Inferentia3,微软也将很快推出Athena。

科技巨头们一直试图取代英伟达的位置,在这个市场分一杯羹。

英伟达早在几年前就预见了这种可能性,并启动了一项雄心勃勃且风险重重的多元化战略,尤其是他们在未来几年即将推出的H200、B100和“X100”GPU的硬件规划以及每年更新AI GPU的策略都具有重大意义。

下面这张图是英伟达未来发展计划的路线图:

谷歌、AMD、英特尔加入挑战,英伟达AI解决方案还能继续“遥遥领先”吗?_人工智能_03

由于来自谷歌、亚马逊、微软、AMD和英特尔的竞争压力,英伟达加快了B100和“X100”的计划。为了实现研发加速,AMD很有可能完全取消了他们的MI350X计划。

英伟达的目标不仅是超越传统的竞争对手如英特尔和AMD,更是希望能与科技巨头如谷歌、微软、亚马逊、Meta和苹果并驾齐驱。

接下来,让我们一起来看看英伟达在供应链的掌握情况和其他商业策略部署情况。

牢牢把握供应链

英伟达值得佩服的一点是,他们过去曾多次表明,即使在资源短缺期间也可以保证产品供应。

英伟达通过承诺不撤销的订单,甚至预付款项,确保了大量的供应来源。他们已经承诺购买了价值111.5亿美元的产品,承担了产能和库存的义务。此外,英伟达还签署了额外的38.1亿美元预付供应协议。

自英伟达创立初期,黄仁勋就积极推动供应链的发展,以实现英伟达的大规模增长目标。他曾经回忆起自己与台积电创始人张忠谋的早期会面。

1997年,我和莫里斯见面的时候,英伟达那年的收入达到了2700万美元,我们有100个员工。可能你们不会相信,莫里斯以前经常亲自打销售电话,甚至上门拜访客户。我会向他解释英伟达的业务,包括我们芯片的大小需求,以及它每年都会变得越来越大。他会定期回访英伟达,让我重复解释这些情况,以确保我真的需要那么多晶圆。次年,我们开始与台积电合作。英伟达的收入,我记得是1.27亿美元,从那时起,我们的年增长率近乎100%,一直持续到现在。实际上,过去10年我们的复合年增长率超过了70%。——黄仁勋与张忠谋的对话节选

谷歌、AMD、英特尔加入挑战,英伟达AI解决方案还能继续“遥遥领先”吗?_基础设施_04

▲英伟达纪念张忠谋退休的漫画

当时,张忠谋难以相信英伟达需要如此多的晶圆。然而,黄仁勋坚定地持续下去,并抓住了当时游戏行业的巨大增长机会。英伟达在供应方面的大胆策略取得了巨大的成功,这通常都能为他们带来好结果。当然,他们不得不定期对价值数十亿美元的库存进行清理,但他们在过度订购的事务中仍然获得了积极的收益。

如果一种方法有效,为何要改变呢?

这次,英伟达已经把握了大部分如SK海力士、三星和美光HBM等GPU上游组件的供应。他们HBM供应商下了大量订单,导致整个市场货源供应紧张。

英伟达已经购买了台积电CoWoS的大部分供应。不仅如此,他们还进一步调查并购买了Amkor的产能。

英伟达充分利用了其HGX板或服务器所需的众多下游组件,包括定时器、DSP、光学器件等。对于对英伟达需求犹豫的供应商,英伟达通常会采取软硬兼施的策略。

一方面,供应商可以从英伟达那里获得看似无法想象的大订单;另一方面,他们也可能面临被英伟达从现有供应链中淘汰的风险。只有当供应商对英伟达至关重要,且无法被替代或找到多个来源时,英伟达才会提出不撤销订单的承诺。

所有供应商都认为自己在人工智能领域取得了胜利,部分原因是英伟达向他们大量订购产品。他们都以为自己占据了大部分业务,但实际上,他们是为英伟达的飞速发展提供巨大动力。

商业策略——潜在的反竞争

大家都知道,英伟达正利用对GPU的巨大需求,进行客户的追加销售和交叉销售。供应链中的许多消息源透露,英伟达会根据多渠道采购计划,制造自家的AI芯片的计划,以及购买英伟达的DGX、NIC、交换机和/或光学产品等多种因素,优先分配给某些公司。

像CoreWeave、Equinix、Oracle、AppliedDigital、Lambda Labs、Omniva、Foundry、Crusoe Cloud和Cirrascale这样的基础设施提供商,将优先享有大量的资源分配权。

英伟达的捆绑策略实施得非常成功。尽管他们之前只是一家规模较小的光学收发器供应商,但他们在一个季度内将业务扩大了两倍。他们预计在未来一年内,出货量将超过10亿美元。这个增长速度远超过他们的GPU或网络硅业务。

这些策略经过深思熟虑。例如,如果你想在Nvidia系统上实现可靠的3.2T RDMA/RoCE网络连接,唯一的方法就是使用Nvidia的NIC。因为英特尔、AMD和博通的竞争力不足,他们的技术仍然停留在200G。

幸运的是,英伟达成功地管理了供应链,使得他们的400G InfiniBand NIC的交货周期显著短于400G以太网NIC。请注意,这两款NIC(ConnectX-7)的硅和板设计是完全一样的。这主要归功于英伟达对SKU的配置,而非真正的供应链瓶颈。这种情况迫使公司选择购买英伟达更昂贵的InfiniBand交换机,而不是标准的以太网交换机。

除此之外,英伟达正在推动L40S的销售,以帮助原始设备制造商获得更多的H100配额。这些制造商面临着需要购买更多L40S的压力,以便得到更多的H100配额。这种策略与英伟达在PC领域的做法相同,即笔记本电脑制造商和AIB合作伙伴必须购买更多的中低端GPU(G106/G107),才能获得更稀有、利润更高的高端和旗舰GPU(G102/G104)的配额。

许多台湾供应链的人被告知,L40S的FLOPS更高,因此比A100更优秀。

这些GPU并不适合LLM推理。它们的内存带宽不到A100的一半,且没有NVLink。这就意味着,除了非常小的模型外,想要在这些GPU上以良好的总体拥有成本(TCO)运行LLM几乎是不可能的。大批量会导致每秒每用户的令牌数量不可接受,这使得理论上的FLOPS在LLM实践中变得毫无意义。

原始设备制造商(OEM)正面临着支持英伟达的MGX模块化服务器设计平台的压力。这个平台大大简化了服务器设计的复杂性,但同时也使其商品化,引发了更多的竞争,导致OEM的利润率下降。像戴尔(Dell)、惠普(HPE)和联想(Lenovo)这样的公司对MGX持有抵制态度。

然而,台湾的低成本公司,如SuperMicro、广达(Quanta)、华硕(Asus)、千兆(Gigabyte)、和硕(Pegatron)和ASRock,正急于填补这一空白,将“企业人工智能”低成本商品化。

有趣的是,这些参与L40S和MGX炒作游戏的原始设备制造商也可以更好地分配英伟达的主流GPU产品。

总结

在人工智能基础设施板块,谷歌、AMD、英特尔、亚马逊等巨头不甘落后,而英伟达也采取了多元化战略,誓要牢牢守住目前的地位。

未来的市场将会产生怎样的变化呢?我们拭目以待!

谷歌、AMD、英特尔加入挑战,英伟达AI解决方案还能继续“遥遥领先”吗?_人工智能_05

标签:伟达,AI,英特尔,他们,AMD,供应链,GPU
From: https://blog.51cto.com/xixiaoyao/8030031

相关文章

  • AIGC扫盲和应用场景探究
     什么是AIGC?AIGC(ArtificialIntelligenceGeneratedContent)是指利用人工智能技术生成内容的能力。火爆的虚拟数字人,就是AIGC的典型代表,它可以通过学习大量数据和知识,生成与人类创作相似甚至超越人类水平的文本、图像、音频、视频等内容。AIGC是人工智能领域发展的新里程碑,能够加......
  • 配置raid10
    fdisk-l列出磁盘分区表lsblk列出所有可用块设备的信息yuminstallmdadm-y安装raid命令mdadm-Cv/dev/md0-ayes-n4-l10/dev/sde/dev/sdf/dev/sdg/dev/sdh通过命令,把这4个硬盘创建为raid10组fdisk-l/dev/md0列出md0磁盘分区mkfs.xfs/dev/md0格式化文件......
  • AGC304Ex Constrained Topological Sort 题解
    AT一个直接的想法是拓扑排序时从小到大标号:每次在入度为\(0\)的点中找到\(l_{u}\lei\)且\(r_{u}\)最小的\(u\),令\(p_{u}=i\)问题是如果\(r_{u}\)很大,那么\(u\)被标号的优先级很低,会连累\(u\)的后继中\(r\)较小的点做法是倒着拓扑一遍,令\(r_{u}\leftarrow\m......
  • 学习一下Java的ArrayList和contains函数和扩容机制
    起因在Leetcode上做题写了两种暴力解法,但是执行效率上不太一样。时间上差很远,内存虽然差不多但是前者击败30%,后者击败94%。这两种解法区别是用一条ArrayList还是两条来存数据,所以contains虽然执行次数一样但是检测的长度上不一样,而且ArrayList的扩容次数也不一样,所以学习一下。......
  • ERROR: Failed to Setup IP tables: Unable to enable SKIP DNAT rule
    1.报错信息#docker-composeup-dCreatingnetwork"2023-10-25-xcheck-net"withthedefaultdriverERROR:FailedtoSetupIPtables:UnabletoenableSKIPDNATrule:(iptablesfailed:iptables--wait-tnat-IDOCKER-ibr-7b14cc2d1da4-jRETURN:......
  • 【有奖体验】AIGC小说创作大赛开启!通义千问X函数计算部署AI助手
    一个AI助手到底能做什么?可以书写小说可以解析编写代码可以鼓舞心灵提供职业建议还有更多能力需要您自己去探索。接下来我们将花费5分钟,基于函数计算X通义千问部署一个AI助手,帮你撰写各类文案。领取函数计算试用额度首次开通函数计算,务必领取试用资源,首次开通用户......
  • Lora升级!ReLoRa!最新论文 High-Rank Training Through Low-Rank Updates
    关注公众号TechLead,分享AI与云服务技术的全维度知识。作者拥有10+年互联网服务架构、AI产品研发经验、团队管理经验,同济本复旦硕,复旦机器人智能实验室成员,阿里云认证的资深架构师,项目管理专业人士,上亿营收AI产品研发负责人。摘要尽管通过扩展导致具有数千亿参数的大型网络在统......
  • Lora升级!ReLoRa!最新论文 High-Rank Training Through Low-Rank Updates
    关注公众号TechLead,分享AI与云服务技术的全维度知识。作者拥有10+年互联网服务架构、AI产品研发经验、团队管理经验,同济本复旦硕,复旦机器人智能实验室成员,阿里云认证的资深架构师,项目管理专业人士,上亿营收AI产品研发负责人。摘要尽管通过扩展导致具有数千亿参数的大型网络在......
  • 智慧停车视频解决方案:如何让AI助力停车管理升级?
    一、项目背景停车场的管理区域由于面积比较大,进出车辆多,所以在保安方面决不能有任何的麻痹和松懈,继续采用过去保安方式已远远不能满足现代安全防范的需求。为满足停车场的安全和科学系统化管理的需要,以及为了对随时发生的情况进行全面、及时的了解和掌握,对意外情况能迅速做出正确判......
  • baidu网盘如何提高速度
    baidu网盘作为中国最受欢迎的云存储服务之一,为用户提供了便捷的文件存储和分享服务。然而,有时候我们可能会遇到传输速度慢的问题。这时候,我们可以通过设置代理服务器来提高传输速度。下面就详细介绍如何在baidu网盘中设置代理服务器。首先,我们需要打开baidu网盘的客户端。在客户端......