源神，启动！马斯克开源史上最大模型Grok，参数高达3140亿，可商用！

时间：2024-07-23 09:30:22浏览次数：10

马斯克真不愧是源神，自开源X的推荐算法以及特斯拉智能驾驶算法后，又说到做到，开源旗下大模型Grok！

代码和模型权重已上线GitHub。官方信息显示，此次开源的Grok-1是一个3140亿参数的混合专家模型，远超OpenAI GPT-3.5的1750亿。，就是说，这是当前开源模型中参数量最大的一个，遵照Apache 2.0协议开放模型权重和架构。

消息一出，Grok-1的GitHub仓库已揽获15K标星，并且还在库库猛涨。

GitHub地址：[github.com/xai-org/gro…]

目前Grok-1的源权重数据大小大约为300GB。

表情包们，第一时间被吃瓜群众们热传了起来。

而ChatGPT本Chat，也现身Grok评论区，开始了和马斯克新一天的斗嘴……

Grok-1介绍

此次开源，xAI发布了Grok-1的基本模型权重和网络架构。

具体来说是2023年10月预训练阶段的原始基础模型，没有针对任何特定应用（例如对话）进行微调。

Grok-1是一个混合专家（Mixture-of-Experts，MOE）大模型，这种MOE架构重点在于提高大模型的训练和推理效率，形象地理解，MOE就像把各个领域的“专家”集合到了一起，遇到任务派发给不同领域的专家，最后汇总结论，提升效率。决定每个专家做什么的是被称为“门控网络”的机制。

在GitHub页面上，官方特别强调了Grok模型的巨大规模（总共314B参数），这意味着运行Grok需要强大的GPU和内存支持。

此外，模型的权重文件以磁力链接的形式提供，文件大小接近300GB，这也是一个相当庞大的数字。

除了参数规模之外，Grok在工程架构上也颇具创新精神——它并没有选择常见的Python、PyTorch或Tensorflow，而是采用了Rust编程语言和新兴的深度学习框架JAX。

除了官方通告外，一些专家通过深入分析代码等方式揭示了更多关于Grok的技术细节。例如，斯坦福大学的Andrew Kean Gao就对Grok的技术细节进行了深入解释。

他指出，Grok采用了旋转的embedding方式，而非传统的固定位置embedding，旋转位置的embedding大小为6144，与输入embedding相同这种创新方法为Grok的性能和效率提供了新的可能性.

当然，还有更多的参数信息：

Transformer层数为64，每层都有一个解码器层，包含多头注意力块和密集块；

key value大小为128；多头注意力块中，有48 个头用于查询，8 个用于KV，KV 大小为 128；密集块（密集前馈块）扩展因子为8，隐藏层大小为32768。窗口长度为8192tokens，精度为bf16Tokenizer vocab大小为131072（2^17），与GPT-4接近；embedding大小为6144（48×128）；

除了Gao，还有英伟达AI科学家Ethan He（何宜晖）指出，在专家系统的处理方面，Grok也与另一知名开源MoE模型Mixtral不同，Grok对全部的8个专家都应用了softmax函数，然后从中选择top2专家，而Mixtral则是先选定专家再应用softmax函数。

而至于有没有更多细节，可能要看官方会不会发布进一步的消息了，另外，值得一提的是，Grok-1采用的是Apache 2.0 license，也就是说，支持商用。

如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

标签：Grok,AI,马斯克,模型,源神,学习,开源,embedding
From： https://blog.csdn.net/2401_84204207/article/details/140626201

如何使用ngrok url运行LangChain Ollama？
我运行了一个脚本来获取ngrokurl：importasyncio#SetLD_LIBRARY_PATHsothesystemNVIDIAlibraryos.environ.update({'LD_LIBRARY_PATH':'/usr/lib64-nvidia'})asyncdefrun_process(cmd):print('>>>starting',*cmd)p......
苹果可能与谷歌大模型合作，马斯克xAI下个月推出Grok-2，比尔·盖茨：Scaling Law快要走到尽
ChatGPT狂飙160天，世界已经不是之前的样子。更多资源欢迎关注1、苹果被曝Gemini模型今秋或融入苹果智能生态系统苹果知名爆料人马克·古尔曼（MarkGurman）最新透露，苹果公司将于今年秋季宣布与Alphabet旗下的谷歌的大模型Gemini建立合作关系，届时Gemini模型将有望接入苹......
英伟达赢麻了！马斯克xAI超级算力工厂曝光，10万块H100、数十亿美元
ChatGPT狂飙160天，世界已经不是之前的样子。新建了免费的人工智能中文站https://ai.weoknow.com新建了收费的人工智能中文站https://ai.hzytsoft.cn/更多资源欢迎关注英伟达：尽管建，用的还是我的芯片，最近几年，随着大语言模型的飞速发展与迭代，科技巨头们都竞相投入......
马斯克突击访华；谷歌 Python 基础团队全数被裁；丨 RTE 开发者日报 Vol.195
开发者朋友们大家好：这里是「RTE开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享RTE（RealTimeEngagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑......
马斯克的 xAI 融资 60 亿美元；英伟达收购两家 AI 创企丨 RTE 开发者日报 Vol.193
开发者朋友们大家好：这里是「RTE开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享RTE（RealTimeEngagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑......
爆火 AI 硬件遭差评，Ai Pin 上市即翻车；Grok 推出首个多模态模型丨 RTE 开发者日报 Vol.
开发者朋友们大家好：这里是「RTE开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享RTE（RealTimeEngagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑......
马斯克开源的 grok-1 底层 Transformer 模型论文《Attention is All You Need》
拓展阅读马斯克开源的grok-1底层Transformer模型论文《AttentionisAllYouNeed》马斯克开源的grok-1大模型底层Transformer模型到底是个啥？马斯克开源的grok-1大模型硬核源码第1弹马斯克开源的grok-1大模型硬核源码第2弹马斯克开源的grok-1大模型硬核源......
Grok开源来看看怎么用吧
人不走空 ......
下载马斯克Grok-1模型的实战代码
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行......
“源神”-马斯克，打脸OpenAI，如期开源Grok大模型
ChatGPT狂飙160天，世界已经不是之前的样子。新建了人工智能中文站https://ai.weoknow.com每天给大家更新可用的国内可用chatGPT资源发布在https://it.weoknow.com“源神”-马斯克就在刚刚，马斯克的xAI正式开源了Grok大模型的代码、权重和架构。该模型有3140亿参数，......

源神，启动！马斯克开源史上最大模型Grok，参数高达3140亿，可商用！

如何学习AI大模型？

相关文章

赞助商

阅读排行