3.6万亿token、3400亿参数，谷歌大模型PaLM 2细节遭曝光

时间：2023-06-23 22:01:45浏览次数：54

谷歌内部文件又泄露了，这次是谷歌新一代大模型 PaLM 2 的训练细节：训练数据量是前代的近 5 倍、参数量是前代的三分之二左右。

上周四，在 2023 谷歌 I/O 大会上，谷歌 CEO 皮查伊宣布推出对标 GPT-4 的大模型 PaLM 2，并正式发布预览版本，改进了数学、代码、推理、多语言翻译和自然语言生成能力。

3.6万亿token、3400亿参数，谷歌大模型PaLM 2细节遭曝光_模态

PaLM 2 模型提供了不同尺寸规模的四个版本，从小到大依次为 Gecko、Otter、Bison 和 Unicorn，更易于针对各种用例进行部署。其中轻量级的 Gecko 模型可以在移动设备上运行，速度非常快，不联网也能在设备上运行出色的交互式应用程序。

不过会上，谷歌并没有给出有关 PaLM 2 的具体技术细节，只说明了它是构建在谷歌最新 JAX 和 TPU v4 之上。

3.6万亿token、3400亿参数，谷歌大模型PaLM 2细节遭曝光_模态_02

昨日，据外媒 CNBC 看到的内部文件称，PaLM 2 是在 3.6 万亿个 token 上训练。作为对比，上代 PaLM 接受了 7800 亿 token 的训练。

此外，谷歌之前表示 PaLM 2 比以前的 LLM 规模更小，这意味着在完成更复杂任务的同时变得更加高效。这一点也在内部文件中得到了验证，PaLM 2 的训练参数量为 3400 亿，远小于 PaLM 的 5400 亿。

3.6万亿token、3400亿参数，谷歌大模型PaLM 2细节遭曝光_人工智能_03

PaLM 2 的训练 token 和参数量与其他家的 LLM 相比如何呢？作为对比，Meta 在 2 月发布的 LLaMA 接受了 1.4 万亿 token 的训练。OpenAI 1750 亿参数的 GPT-3 是在 3000 亿 token 上训练的。

虽然谷歌一直渴望展示其 AI 技术的强大能力以及如何嵌入到搜索、电子邮件、文件处理和电子表格中，但也不愿公布其训练数据的大小或其他细节。其实这样做的不只谷歌一家，OpenAI 也缄口不言其最新多模态大模型 GPT-4 的细节。他们都表示不披露细节是源于业务的竞争属性。

不过，随着 AI 军备竞赛的持续升温，研究界越来越要求提高透明度。并且在前段时间泄露的一份谷歌内部文件中，谷歌内部研究人员表达了这样一种观点：虽然表面看起来 OpenAI 和谷歌在 AI 大模型上你追我赶，但真正的赢家未必会从这两家中产生，因为第三方力量「开源」正在悄然崛起。

目前，这份内部文件的真实性尚未得到验证，谷歌也并未对相关内容置评。

网友评论

在官宣 PaLM 2 之初，就有网友根据 Chinchilla 定律预测其参数量，ta 预测 PaLM 2 模型家族的参数结果为 80B / 90B / 100B 不等，和这次爆料的 340B 还是差距很大的。

3.6万亿token、3400亿参数，谷歌大模型PaLM 2细节遭曝光_模态_04

还有人对 PaLM 2 的训练成本进行了一波预测，根据历代大模型的发展来看，这位网友表示，打造 PaLM 2 需要耗资 1 亿美元。

3.6万亿token、3400亿参数，谷歌大模型PaLM 2细节遭曝光_机器学习_05

PaLM 2 参数都泄密了，可以试着推测 Bard 了，这位网友表示：

3.6万亿token、3400亿参数，谷歌大模型PaLM 2细节遭曝光_Bison_06

随着 PaLM 2 token 数的泄露，网友不禁疑问，在 AGI 到来之前，多少 token 才能迎来一次大转折？

3.6万亿token、3400亿参数，谷歌大模型PaLM 2细节遭曝光_模态_07

标签：文件,训练,模型,谷歌,3.6,3400,token,PaLM
From： https://blog.51cto.com/u_13046751/6539163

《 2023.6相对论吧吧务招募》回复
《2023.6相对论吧吧务招募》 https://tieba.baidu.com/p/8471521237 《我在理论物理吧发的多个楼层和回复被接连删除》 https://tieba.baidu.com/p/8035878949 。楼主看看，不用急着发表看法 ......
2023.6.21 鲜花
最近总是回忆起许多初中时的事情。记得当时和hyj做同桌的时候，经常被hyj，hrq和cym带着卷；经常下午cym会带一个零食，然后我们4个上课分着吃；还有在初三全班大部分人都pj1=的时候我们4个全部2=，很有趣很有趣。还记得当时老师准备重新安排座位的时候我竟然还满怀期待，后来......
vue+axios实现token无感刷新
原文出处：https://www.jb51.net/javascript/286094r4h.htm 通常，对于一些需要记录用户行为的系统，在进行网络请求的时候都会要求传递一下登录的token。不过，为了接口数据的安全，服务器的token一般不会设置太长，根据需要一般是1-7天的样子，token过期后就需要重新登录。不过，频繁的登录会......
登录、token相关，rsa加密
实例点击查看代码defrsa_encrypt(msg):"""RSA加密:parampub_key_str:公钥:parammsg:待加密信息:return:"""msg=msg.encode('utf-8')length=len(msg)default_length=117#公钥加密publ......
node生成token报错：secretOrPrivateKey has a minimum key size of 2048 bits for RS25
提要：在node生成token时利用用jsonwebtoken，利用非对称加密的生成token constjwt=require("jsonwebtoken"); constprivateKey=fs.readFileSync("./keys/private.key");constpublicKey=fs.readFileSync("./keys/public.key");consttok......
2023.6.21 每日一题
原题链接A:WunderFundRound2016(Div.1+Div.2combined)-FB:CodeforcesRound727(Div.2)-DB.PriceFixed-1600题目大意商店里有$n$个商品，价格为$2$，至少要买第$i$件商品$a_i$个，同时如果我们总共买了超过$b_i$件商品，那么第$i$件商品......
2023.6.20 每日一题
原题链接A:EducationalCodeforcesRound115(RatedforDiv.2)-EB:CodeforcesRound698(Div.2)-CA.Staircases-2100题目大意给定一个$n\timesm$的网格，每个格子为自由或者锁定，初始时所有格子均为自由的。定义满足如下条件的路径为楼梯：起点和终点均为......
fastadmin 的Http类请求外部接口携带 Authorization:Bearer token 参数问题
背景：最近在对接某个系统的支付接口时，接口请求时要求携带token，在请求头header中添加Authorization:Bearer。我使用的框架tp5搭建的fastadmin，里面封装了Http类出现问题：写法出错，虽然带了参数，但是对方接受不到参数，接口请求验证失败解决方法：正确的写法代码如下：$info=Ht......
【AGC】云数据库返回403client token authorization fail问题
【关键字】AGC、云数据库、403【问题描述】有开发者反馈在使用AGC云数据库，拿到access_token用户登录返回403clienttokenauthorizationfail的问题。具体如下所述：用接口：https://connect-drcn.dbankcloud.cn/agc/apigw/oauth2/v1/token拿到了access_token，但用这个token去登录时：htt......
2023.6.19 鲜花
记得还在zsjz的时候hak说过，我和她还有两次机会见面，一次是APIO，一次是NOI。结果想不到吧两次我都没机会去现场。记得去年这个时候整个世界对我来说都是崭新的。一年过去了，我现在还能回忆起当时一些具体的事情，但是，又能怎样呢。感觉去年的我实在太不珍惜了，现在我恨不得回到那时......

3.6万亿token、3400亿参数，谷歌大模型PaLM 2细节遭曝光

相关文章

赞助商

阅读排行