首页 > 其他分享 >英伟达即将压缩AI模型的成本

英伟达即将压缩AI模型的成本

时间:2025-01-14 10:10:07浏览次数:1  
标签:Digits 伟达 AI 压缩 Project 内存 模型

在CES上,英伟达展示了一些有趣的新产品,其中最亮眼的是黄仁勋的新皮夹克。我的意思是,看看那件夹克:这是技术发布会还是时尚秀?

你不觉得惊艳吗?

说实话,我有点惊讶为什么更多人没有提到这个。这是黄仁勋迄今为止最棒的皮夹克。

当然,还有其他东西,比如全新的RTX 50系列。令人惊讶的是,大多数相关报道对它们的评价都很正面。我特别喜欢在Linus Tech Tips视频中的这条评论:

“因为就像有人指出的那样,50系列相较于40系列确实性价比更高,但如果跟30系列比就不行了。我觉得英伟达清楚新GPU的需求正在下降。”

在发布会上,他们展示了《赛博朋克》以240帧/秒的速度在8K分辨率下运行。说真的?8K?有人真的在8K分辨率下玩游戏吗?况且《赛博朋克》是2020年发布的,难道就没有更好的游戏来展示50系列的性能吗?

我不觉得会有很多人愿意购买这些新显卡,老款显卡已经足够用了,因此价格可能会下降。而且许多改进都体现在软件上,尤其是DLSS技术,而他们故意将其限制在新的50系列上。

但我看了评论,有一个值得注意的批评:显存最高仅16GB。哦,除了5090,如果你愿意花两千美元买一张显卡。但对于普通人来说,显存上限就是16GB。有人指出,这并不算多。

特别是在采用统一内存(GPU和CPU共享内存)的机器上,这种系统效率更高,因为内存浪费更少。在这样的系统中,我的M1 Air和Steam Deck都只有16GB统一内存。Steam Deck的内存规格和一张售价一千美元却没有电脑的GPU一样。这真是让人难过。

为什么在内存上这么小气?嗯,部分原因是英伟达的定价过高。AMD的显卡在相同价格下有24GB显存,我真不明白为什么大家这么喜欢英伟达。我一直避开它们,因为我总是遇到Nvidia驱动的问题。

但我觉得英伟达削弱显存还有另一个原因:不让你用它运行大型LLM(大语言模型)。大型语言模型是最新AI模型的基础,需要消耗大量显存。英伟达宁愿你买两个产品,也不愿让一张显卡搞定所有事情。虽然我通常会抱怨,但他们专用的LLM机器确实令人印象深刻。让我们来看看Project Digits。

Project Digits是一台紧凑的Linux机器,预装了所有炫酷的英伟达AI软件。可以把它想象成加强版的Mac mini。他们甚至展示了这台机器的图片。

有趣的是,如果你放大图片,可以发现这是AI生成的。全球最有价值的公司用AI取代了某人的工作。这种想法也只有黄仁勋能爱。要在某人桌上放一台机器并拍张照片有多难?前几天我看到有人谈论他们的桌面配置,却发了一张随机AI生成的图片。你在干什么?如果你谈桌面配置,我期望看到桌面的真实照片,而不是一些AI胡搞的东西。唯一可能的原因是,你对自己的桌面配置不自信。那么我为什么要看你的文章?

言归正传,Project Digits配备了4TB NVMe存储、128GB统一内存和最新的Blackwell架构,售价3000美元。比GTX 5090贵不了多少。这也让人更加意识到5090性价比有多差。

另外,随便说说,如果你配置一台Mac mini,选择M4 Pro芯片、64GB内存和4TB存储,价格甚至比Project Digits还贵。

升级价格真是相当吓人,对吧?

英伟达声称Project Digits可以运行2000亿参数的模型,如果你连接两台设备,可以运行4050亿参数的模型。4050亿,这是个非常精确的数字。为什么用这个数字?因为这是最大Llama模型的参数规模。英伟达基本在说:“现在你可以在家里运行最新的Llama模型,而不需要为服务器支付高额费用。”

之前的成本是多少?这全是保密信息,但我们知道AWS的P5实例每小时收费98美元,相当于每天2354美元。而两台Project Digits的成本是6000美元。如果你买两台,3天就可以收回成本。

你可能认为P5是过度配置。不过我查了一些帖子:

也许不是。人们经常引用的价格显然比两台Project Digits更高。

可以肯定地说,Project Digits将彻底改变AI定价游戏。我预计公司会开始成批购买这些设备,显著降低运行AI模型的成本,尤其是像Llama这样的开源模型,因为任何人都可以下载并运行它。目前很多公司已经在使用它。

最初我对Llama的定价相当失望,因为它的价格并不比Anthropic、OpenAI和Google的模型更具竞争力。但这一情况可能会改变。

当Llama的价格下降时,我能看到整个行业跟随降价的可能性。一些模型的规模尚不明确,除了Gemini Flash 8B。我几乎可以肯定它只有80亿参数,意味着它可以在消费级GPU上运行。老实说,我有点失望Flash 8B的价格只是完整版Gemini Flash的一半。如果他们愿意,我相信价格还可以更低。没必要,因为Gemini Flash已经是最便宜的了。当然,我觉得AWS可能有个模型技术上更便宜,但那是AWS,它烂得像其他AWS垃圾一样。

我正在开发一个电子邮件应用,叫Project Tejido,它会用LLM扫描每封电子邮件。我做了一些粗略计算,觉得这会是个非常好的主意,因为运行成本非常低。然而,现在实际开发过程中,我发现自己对每封邮件所需的tokens估计错了……错了两个数量级。所以成本比预期高了许多。虽然这个项目仍然可行,但远没有我最初估计的那么划算。我期待LLM的价格能再降一点,希望能降低两个数量级。

不过,我不确定LLM的成本是否会再降两个数量级,因为这已经接近电力成本了。但降一个数量级?有可能。要大幅降低LLM的成本需要什么?竞争。最近我们还没有看到太多竞争。当然,有GPT-4o Mini和Claude 3.5 Haiku,但GPT-4o Mini已经很老了,Claude 3.5 Haiku实际上比Claude 3.0 Haiku更贵。他们声称这是因为性能更好。

问题就在这:低端模型竞争激烈,但高端‘前沿’模型却没有。我们需要前沿模型降价。而唯一的办法就是让算力变得极其便宜。英伟达的Project Digits正是这样做的,所以它将大幅压缩AI模型的价格。

更新:许多人提到内存速度问题。英伟达没有公布设备的内存带宽,但估算值在273GB/s到1TB/s之间。我不认为它能超过那些价格是它5倍的显卡,但我猜测它仍然足够快,可以运行像Llama 405b这样的LLM,而这正是黄仁勋提到的。因此,与目前类似规格的硬件相比,它仍将显著更便宜。

标签:Digits,伟达,AI,压缩,Project,内存,模型
From: https://www.cnblogs.com/jellyai/p/18670218

相关文章

  • 2025年35+程序员,是否有机会转型 AI 大模型应用开发?
    对于35岁以上的程序员来说,转型到AI大模型应用开发领域不仅是可能的,而且在很多方面还具有独特的优势。随着人工智能技术的发展,特别是大规模预训练模型(如GPT系列、LLaMA系列等)的应用日益广泛,AI行业迎来了新的发展机遇。对于希望在这个新领域寻找职业发展的成熟程序员而言,这是......
  • chainlit 2.0 发布了
    chainlit2.0就在最近已经发布了,支持了不少新特性,比如一些ui的重写,减少代码量,同时添加了对于sqlite的支持,还有不少bug的修复说明后边有空了尝试下新功能以及新版本,尤其是对于sqlite的支持,可以简化我们对于数据持久化配置的使用(以前必须依赖pg数据库,对于小型系统并不是很方......
  • 界面控件 DevExpress v24.2 新版亮点 - 自定义和扩展 AI 驱动的扩展
    DevExpress拥有.NET开发需要的所有平台控件,包含600多个UI控件、报表平台、DevExpressDashboardeXpressApp框架、适用于VisualStudio的CodeRush等一系列辅助工具。屡获大奖的软件开发平台DevExpress今年第一个重要版本v23.1正式发布,该版本拥有众多新产品和数十个具有高影响力......
  • R语言caret包实战:构建xgboost模型(xgbDART算法、使用的dropout思想)构建回归模型、通过m
    R语言caret包实战:构建xgboost模型(xgbDART算法、使用的dropout思想)构建回归模型、通过method参数指定算法名称、通过trainControl函数控制训练过程目录R语言使用caret包构建xgboost模型(xgbDART算法、使用的dropout思想)构建回归模型、通过method参数指定算法名称、通过trainCo......
  • Proj CJI Paper Reading: A False Sense of Safety: Unsafe Information Leakage in '
    Abstract本文:Tasks:DecompositionAttacks:getinformationleakageofLLMMethod:利用LLM(称为ADVLLM)+Fewshotsexample把一个恶意的问题分成许多小的问题,发送给VictimLLMs,再使用ADVLLM把这些问题的回答拼凑出来得到答案拆分原则是最大化与impermissibleinformat......
  • 使用OpenAI API进行文本生成的实践指南
    在AI技术日新月异的发展中,文本生成已经成为一项重要应用。通过使用OpenAI的API,开发者可以轻松地实现复杂的文本生成任务。在本文中,我们将深入探讨如何使用OpenAIAPI进行文本生成,从技术背景、核心原理到实际代码实现,并结合应用场景提供实践建议。技术背景介绍文本生成是自......
  • VScode搭建opencv环境c++,这个是我发的压缩包里面的
    通过网盘分享的文件:D.zip等2个文件链接:https://pan.baidu.com/s/1qiU3rgd4did84F83d3yKnQ提取码:npkg这里面的新建文件夹是软件,不用管D代表配置文件,里面的代码要改路径D里面有两个文件夹,一个是.vscode,里面的文件代码要改,后文会讲到一个是Debugger,这个不要管还有......
  • Python AI教程之十九:监督学习之决策树(10)超参调整
    如何在超参数调整中调整决策树决策树是机器学习中广泛用于分类和回归任务的强大模型。决策树的结构类似于决策流程图,有助于我们轻松解释和说明。然而,决策树的性能高度依赖于超参数,选择最佳超参数会显著影响模型的准确性、泛化能力和鲁棒性。在本文中,我们将探讨借助决策树调......
  • Pinokio v3.2.0 支持目前主流的大部分AI项目,操作极其简单
    这个工具全部都是免费的。我记得之前有个叫什么白的工具貌似还收费,这个基本上你听说过的AI开源项目它都有,而且还是一键安装。一个工具整合AI绘画、AI视频、AI语音,还有AI数字人的工具:AI绘画,又能AI对话、AI视频生成、AI语音生成,还能AI数字人支持Windows、Mac、Linux......
  • 从零开始的LangChain开发教程:快速上手指南
    快速上手LangChain:轻松构建LLM应用在构建基于语言模型(LLM)的应用时,LangChain提供了一套功能强大的工具集,帮助开发者快速实现从文本处理、对话生成到复杂的问答系统等各类任务。本文将从基础入门到复杂场景应用,带你快速掌握LangChain的核心能力。1.技术背景介绍LangChain......