过去的2024年AI大模型领域热搜不断,国内国外都是一样。
从OpenAI发布了GPT-4o,到月之暗面成为国内大模型赛道估值最高的“独角兽”引发股权资本争议;从推理型模型和视觉模型的新秀竞出,到市场竞争加剧致使“百模大战”逐渐退潮。
一年时间虽短,剧情跌宕起伏。
这里想着重提及的有两件事:一是斯坦福大学AI团队抄袭国内骄子面壁智能(有空另说),另一是深度求索(DeepSeek)年末岁初连发两弹,从V3到R1。今天有空就详细说说对第二件事的看法。
一、混沌乾元,哪吒出世
时间拨回2023年7月,中国量化私募公司“幻方量化”创始人梁文峰创立了深度求索(DeepSeek)。为什么这个私募公司可以做AI大模型呢,估计当时他们手头有足够的英伟达芯片。
毕竟在大模型的春秋战国时代,自从2022年底OpenAI的GPT横空出世,但凡有点儿资本实力的都想去挑战一下。未来蓝海,凭什么只有你游在最前面。
大模型是“智能大脑”,事实证明它不仅限于聊天对话,在优化程序、提高效率、创设方式、赋能场景方面频频出彩;大模型也是十足的“吞金兽”,模型训练需要强大算力支撑,而算力又靠GPU计算性能,这也就是英伟达老黄横行科技领域的资本。
君不见,万千板卡,说买就买;谈笑间,数亿美刀,沉落不现。
金元XX,这个词我熟悉啊!世纪初的互联网初潮,上一个十年的中国足球……
二、挑战权威,重磅核弹
当时的形势是,2022到2023年欧美陆续出台芯片法案,一方面扶持本国半导体和人工智能技术,另一方面限制向中国等地区高性能芯片出口。
怎么,你学习好还能补课就罢了,中学生还开始撕小学生的书本了。
小学生有自己的智慧,他们从来都不是只会模仿的人。
OpenAI创设的大模型训练范式“预训练-监督微调-奖励建模-强化学习”,可以简单理解为:大量样本填鸭-学习标准答案改进-人工干预打分-根据打分再优化。
DeepSeek决定不走这条路,一方面要烧太多钱,资本游戏玩不起。另一方面,有钱也不好买GPU显卡,美国第一轮限制英伟达推出了A800和H100替代品,第二轮这两款也受限,第三轮,还不知道有没有第四轮。
据斯坦福大学HAI研究院发布的《2024年人工智能指数报告》预估,OpenAI于2023年3月发布的GPT-4模型训练成本约在7800万美元,同年发布的谷歌Gemini Ultra的计算成本花费预估为1.91亿美元。据Meta官方信息,2024年7月面世的开源模型Llama3.1-405B,训练使用了1.6万块英伟达H100 GPU。超级富豪埃隆·马斯克同样曾在2024年7月宣布建立孟菲斯超级AI集群,使用10万个英伟达 H100 GPU。
DeepSeek的路线是从算法突破,找到算法与算力平衡的最优解,优化算法从而节省算力。
2024年12月26日,DeepSeek推出开源模型DeepSeek V3。其官网显示,在多项基准测试结果中,DeepSeek V3的成绩超过Meta公司的Llama3.1-405B等开源模型,而且与OpenAI的GPT-4o闭源模型的表现也不相上下。更为重要的是,DeepSeek方面披露,其训练成本仅为557.6万美元和2000块英伟达H800 GPU。
2025年1月20日,DeepSeek再次发布“王炸”——推理模型DeepSeek R1。也就是说,除了文本、图像、音频和视频等多种场景下使用的V3版本外,擅长复杂运算和逻辑推理进而可以应用于科学研究的R1落地,并且完全开源免费!
三、技术辙印,影响深远
DeepSeek发布成果可能要过一段时间才会爆棚,但从技术发展进程来说,我认为有三点值得铭记:
一是技术路线创新。DeepSeek从强化学习直接入手研究大模型训练,就好比让机器自己去学习一套学习方法,自己给出优劣分析,再自己调整优化。是不是很像当年的Alpha-Zero打败Alpha-Go。宏观上来讲,我觉得更像是大数据当年的理念,我不需要知道具体的海量数据,我更关注内部的趋势与逻辑。
二是成本大幅降低。烧钱只是探索进程的过程,但不是全部。“金元足球”没玩多久就活不下去了。社会哪个方面都有成本,选择算法去平衡算力,并不是说算法就更重要,也不是说没算力也能入场,这是一个两元相对论,DeepSeek这步棋走的很漂亮,AI界的“拼多多”不需要邀请、没有广告。
三是时代意义重大。三个层面来说,围堵中国和技术封锁被狠狠打脸,再搞下去我们还会有新亮点;因为免费开源,从文本图像视频等通用领域可能会爆发更多中小团队的应用场景试验成果;技术悲观论者可以偃旗息鼓一阵子,一段时间以来唱衰国人只跟从无创新的论调,其实可以看看90后00后的学子中还有那么多创新的佼佼者。
DeepSeek不代表国产AI的全部,甚至来说,大模型领域DeepSeek的云侧方案也未必是最终进化形式。但探索路上多种可能,每一步的奋斗的脚印都值得被纪念!
(原创,欢迎转发评论)
标签:伟达,R1,AI,DeepSeek,2024,V3,GPU,模型 From: https://blog.csdn.net/SE7EN_CHLOE/article/details/145298744