首页 > 其他分享 >Llama 3.1 重磅发布,登顶开源大模型王座!

Llama 3.1 重磅发布,登顶开源大模型王座!

时间:2024-07-29 11:53:44浏览次数:7  
标签:王座 训练 模型 开源 405B Llama 3.1


 

7月23日,Meta正式发布迄今为止最强大的开源模型——Llama 3.1 405B,同时发布了全新升级的Llama 3.1 70B和8B模

Meta在正式发布里也附上了长达92页的论文《The Llama 3 Herd of Models》,揭示了Llama 3模型的技术和训练细

论文地址:

https://ai.meta.com/research/publications/the-llama-3-herd-of-models/。

模型信息模版本:共有8B、70B、405B三种版本。其中405B版本拥有4050亿参数,是目前最大的开源模型之一。上下文长度:扩展到128K上下文长度,能够处理更复杂的任务和对话。支持语言:支持8种语言,包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。模型架构:优化了的Transformer模型架构,微调后的版本使用SFT和RLHF来对齐可用性与安全偏好。训练数据:使用来自公开来源的超过15万亿个token数据进行了预训练,预训练数据的截止日期为2023年12月;微调数据包括公开可用的指令数据集,以及超过2500万个综合生成的示例。模型的关键参数

模型评估

根据Meta提供的基准测试数据,最受关注的4050亿参数的Llama 3.1 405B版本,从性能上已经可媲美GPT-4o和Claude 3.5

 

注:Human Evaluation主要用于评估模型在理解和生成代码、解决抽象逻辑问题方面的能力。Llama 3.1与GPT4等闭源模型比较
Llama 3.1与Mistral 7B Instruct等开源模型比较

 

Llama 3.1的发布,让顶尖的开源模型能真正与顶尖的闭源模型PK了!

 

Meta表示“到目前为止,开源大型语言模型在功能和性能方面大多落后于封闭式模型。现在,我们正迎来一个由开源引领的新时代。”

 

训练细节

  • Llama 3.1的训练使用了16000块NVIDIA H100
  • 为了保证训练稳定性,只用了Transformer模型架构进行调整,而不是现在流行的混合专家模型(MoE)架构。
达到如此训练规模的开源大模型,目前全世界仅此一家。对于开发者们关心的:大公司们在付出了巨大训练成本后,还会继续开源吗?在Llama 3.1发布的当下,扎克伯格再次强调:把开源进行到底

在 AI 发展的浪潮中,我们深知强大算力对于推动 AI 创新的关键作用。英智未来专注于提供高效、稳定、灵活的算力租赁服务,助力您的 AI 项目飞速发展。

无论您是科研机构、创新企业还是个人开发者,英智未来的算力租赁都能为您量身定制解决方案,让您无需为高昂的硬件投入和复杂的运维烦恼,轻松拥抱 AI 新时代!



标签:王座,训练,模型,开源,405B,Llama,3.1
From: https://www.cnblogs.com/ai2nv/p/18329764

相关文章

  • 本地运行Meta最新大模型:Llama3.1
    手把手教你本地运行Meta最新大模型:Llama3.1,可是它说自己是ChatGPT? 就在昨晚,Meta发布了可以与OpenAI掰手腕的最新开源大模型:Llama3.1。该模型共有三个版本:8B70B405B对于这次发布,Meta已经在超过150个涵盖广泛语言范围的基准数据集上评估了性能。此外,Meta还进行了广泛......
  • 解决LLaMA-Factory共享链接的创建问题--[To create a public link, set `share=True`
    问题引入LLaMA-Factory是一种简单有效的LLM微调工具。其所开发的由gradio驱动的webui更是提供了可视化微调,降低了微调大模型的门槛。然而,在使用llamafactory-cliwebui来创建可视化微调模块时,只能得到本地的网页链接:这种方法限制了webui模块在服务器或者autodl等租赁网站......
  • 智谱GLM Api接口适配langchain OpenAI llamaindex的openAI接口
    动机OpenAI充值比较麻烦,且访问不是那么方便。因此想用国内的api的去调试和测试一个任务。但是很多教程都是以openAI的接口为例子的,因此学习起来就不那么方便。本文参考了hugggingface中迁移OpenAI的博客,chatGLMcookbook关于接口的迁移文档,llamindexOpenAIlike的示例,终于调......
  • C Primer Plus 第三章的3.1程序运行不了,请问有没有大佬能教教我
    #include<stdio.h>intmain(void){floatweight;floatvalue;printf("Areyouworthyourweightinplatinum?\n");printf("Let'scheckitout.\n");printf("Pleaseenteryourweightinpounds:15.0......
  • 如何在Python 3.12+中正确使用泛型来提高代码质量?
    我正在尝试使用泛型来改进FastAPI应用程序中的类型注释。我有一个抽象存储库类,在其中使用泛型:fromabcimportABC,abstractmethodfromtypingimportListclassAbstractRepository[T](ABC):@abstractmethodasyncdefadd_one(self,data:dict)->T:......
  • llama-agentic-system
    文章目录一、关于llama-agentic-system二、LLama代理系统安装和设置指南1、创建Conda环境2、运行FP83、作为包安装4、测试安装5、下载检查点(或使用现有模型)6、配置推理服务器配置7、运行推理服务器8、配置代理系统9、为工具添加API密钥10、启动应用程序并与服务器交互11......
  • ollama push 自己的模型
    ollama模型运行之后会生成sshkey,我们首先需要在https://ollama.com/进行注册账户,然后添加自己的key,之后才能进行pushkey的位置默认一般会有一个~/.ollama/id_ed25519.pub,但是也可能会没有(比如调整了配置)还有一个是在/usr/share/ollama/.ollama/id_ed25519.pub为了确保pus......
  • 本地部署大模型?看这篇就够了,Ollama 部署和实战
    写在前面前几篇,分享的都是如何白嫖国内外各大厂商的免费大模型服务~有小伙伴问,如果我想在本地搞个大模型玩玩,有什么解决方案?Ollama,它来了,专为在本地机器便捷部署和运行大模型而设计。也许是目前最便捷的大模型部署和运行工具,配合OpenWebUI,人人都可以拥有大模型自由。......
  • 《梦醒蝶飞:释放Excel函数与公式的力量》23.1 学生主导的项目案例
     第23章:学生项目展示 23.1学生主导的项目案例在《梦醒蝶飞:释放Excel函数与公式的力量》中,第23章将展示学生主导的项目案例。这些案例展示了学生如何运用所学的Excel函数与公式,解决实际问题,展示他们的创造力和分析能力。案例1:学校活动管理系统背景:某学校希望建立一个活动......
  • ollama llama3.1 8b openbuddy 模型
    openbuddy对于llama3.18b模型进行了少量的中文训练实现了不错的中文理解处理,以下是使用社区提供的gguf格式,制作一个ollama新模型模型制作下载模型下载gguf文件,推荐使用加速工具Modelfile参考了llama3.1的FROM/home/models/openbuddy-llama3.1-8b-v22.1-......