首页 > 其他分享 >法国的Mistral AI大语言模型详解

法国的Mistral AI大语言模型详解

时间:2024-09-14 20:03:38浏览次数:1  
标签:AI 模型 Mistral 2024 详解 2023 Mixtral

Mistral AI

概述

Mistral AI 是一家法国人工智能(AI)公司,专注于开发开源大型语言模型。该公司成立于2023年4月,由前Meta平台和Google DeepMind的员工创立。Mistral AI在AI领域迅速崛起,成为全球领先的开源模型提供商之一。

历史背景

Mistral AI由Arthur Mensch、Guillaume Lample和Timothée Lacroix共同创办。三位创始人曾在École polytechnique学习时相识。Arthur Mensch曾在Google DeepMind工作,而Guillaume Lample和Timothée Lacroix则在Meta平台任职。Mistral这一名称来源于法国的一种强风,象征着其推动技术进步的愿景。

公司成立后,Mistral迅速获得了投资。2023年6月,Mistral完成了首次融资,筹集了1.05亿欧元(约合1.17亿美元),投资者包括Lightspeed Venture Partners、Eric Schmidt、Xavier Niel和JCDecaux。2023年9月27日,公司发布了其首个语言处理模型“Mistral 7B”,这是一个具有70亿参数的模型,使用了变换器(transformer)架构,并以Apache 2.0许可证公开发布。

发展历程

  • 2023年12月:Mistral AI发布了Mixtral 8x7B模型,该模型具有46.7亿个参数,并采用了专家混合架构。该模型在多个基准测试中超越了Meta的LLama 2 70B模型。
  • 2024年2月:Mistral宣布与微软建立合作伙伴关系,Mistral的丰富语言模型将通过微软的Azure云平台提供,同时推出了多语言对话助手“Le Chat”。
  • 2024年4月:Mistral发布了Mixtral 8x22B模型,该模型使用了一种类似于Mixtral 8x7B的架构,但每个专家具有22亿参数,总参数量达到141亿。

融资情况

  • 2023年10月:Mistral AI成功筹集了3.85亿欧元(约合4.28亿美元)。
  • 2024年6月:Mistral AI宣布完成新一轮融资,筹集了6亿欧元(约合6.45亿美元),公司的估值提升至58亿欧元(约合62亿美元)。此次融资由风险投资公司General Catalyst主导,现有投资者也参与其中。

模型介绍

开源模型

  • Mistral 7B:这是一个拥有70亿参数的语言模型,使用了变换器架构,并采用了分组查询注意力(Grouped-Query Attention, GQA)机制。该模型于2023年9月27日发布,并在多个基准测试中表现出色。
  • Mixtral 8x7B:发布于2023年12月,采用了稀疏专家混合架构,具有46.7亿个参数,单个标记使用12.9亿参数。该模型在性能测试中优于LLaMA 70B和GPT-3.5。
  • Mixtral 8x22B:发布于2024年4月,继承了Mixtral 8x7B的架构,但每个专家具有22亿参数,总参数量为141亿。
  • Mistral Large 2:发布于2024年7月,具有123亿参数,支持多种语言,并在编程相关任务中表现优异。
  • Codestral 22B:发布于2024年5月,专注于代码生成任务,支持80多种编程语言,超过MetaLlama3 70B模型。
  • Mathstral 7B:发布于2024年7月,专注于STEM学科,在数学基准测试中表现良好。
  • Codestral Mamba 7B:基于Mamba 2架构,专注于长输入生成任务。

 

原文参考:https://www.changshi.wiki/pedia/2JuuAG

标签:AI,模型,Mistral,2024,详解,2023,Mixtral
From: https://www.cnblogs.com/ansin/p/18414609/Mistral_AI_desc

相关文章

  • 马斯克xAI公司的Grok大语言模型详解
    Grok详细介绍Grok是由xAI开发的生成式人工智能聊天机器人,基于大型语言模型(LLM),由埃隆·马斯克发起。该聊天机器人以“具有幽默感”和直接访问X的能力为卖点。目前,Grok正处于测试阶段,仅对XPremium用户开放。背景埃隆·马斯克于2015年与SamAltman共同创立了AI研......
  • 解码3D数字人及AIGC产品,如何赋能医美行业全场景业务增长
    9月13日,第六届“医美小小聚”暨医美信息与服务创新发展大会在热烈的氛围中拉开帷幕。此次盛会汇聚了医美行业的顶尖精英与前瞻者,他们围绕“聚焦营销,合规增长,融合共创”的主题,深入剖析了行业的新趋势、新机遇与新挑战。在这场前瞻观点与前沿技术的碰撞中,魔珐科技凭借领先的3D数......
  • OpenAI的ChatGPT各个模型有什么区别?
    ChatGPT版本历史/区别特点对比以下是OpenAI 公司ChatGPT 各主要模型版本的详细描述,说明了每个版本中的显著变化:GPT-3.5发布日期:2022年11月描述:GPT-3.5是第一个用于ChatGPT的版本,基于GPT-3.5模型。此版本在准确性和理解能力上有所提升,但仍在GPT-3的基础......
  • vite tailwindcss@next omi
    pnpmi@tailwindcss/vite@[email protected]:{ "type":"module", "dependencies":{ "@tailwindcss/vite":"4.0.0-alpha.24", "omi":"^7.7.0", "tailwi......
  • Go runtime 调度器精讲(六):非 main goroutine 运行
    原创文章,欢迎转载,转载请注明出处,谢谢。0.前言在Goruntime调度器精讲(三):maingoroutine创建介绍了maingoroutine的创建,文中我们说maingoroutine和非maingoroutine有区别。当时卖了个关子并未往下讲,这一讲我们会继续介绍非maingoroutine(也就是go关键字创建的......
  • OpenAI o1模型:偏科的理科生
    LLM需要增强的地方大模型的三大基础能力:• 语言理解和表达能力:GPT-3已解决• 世界知识存储:GPT-4已经解决了不少• 逻辑推理能力:是最薄弱的环节,o1模型在这方面有明显的进步。原理o1模型增强逻辑推理能力的思路是:收到问题后,自动生成CoT,再生成答案。避免人类写基于于CoT的Prompt。......
  • 姿态逐渐“亲民” 2024年AI五大趋势备受期待
    随着技术的不断进步,人工智能(AI)已经从科幻小说中的概念变成了我们日常生活的一部分。2024年,AI技术的发展将更加注重与人类的互动和普及,其“亲民”姿态逐渐显现。以下是五大备受期待的AI趋势,它们将引领我们进入一个更加智能和便捷的未来。智能助理的普及与个性化随着自然语言......
  • Python的Scapy库详解
    目录前言一、Scapy简介二、基本功能1.构建数据包2.发送与接收数据包3.捕获数据包三、高级功能1.协议栈与数据包叠加2.网络扫描3.数据包注入与攻击模拟四、应用场景五、总结前言Python的Scapy库是一个强大且灵活的网络数据包处理库,常用于网络安全、渗透测......
  • 挂载 /mnt/disk2 改成 /home/shgbitai/dataworkspace 怎么修改
    你可以按照以下步骤将挂载点/mnt/disk2修改为/home/shgbitai/dataworkspace:1.创建新的挂载点首先,创建新的挂载目录/home/shgbitai/dataworkspace:sudomkdir-p/home/shgbitai/dataworkspace2.取消挂载旧的挂载点取消当前挂载到/mnt/disk2的分区:sudoumount......
  • 最新免费AI视频工具!生成6秒视频只需30秒!
    MiniMaxAI目前可免费使用MiniMaxVideo:AiTextToVideo目前版本的HailuoAI可以生成分辨率为1280x720、每秒25帧的六秒视频片段。该模型受限于片段短暂的持续时间,但MiniMax承诺将在未来更新中解决这个问题。HailuoAI的新版本已经在开发中,预计将提供更长的片段持续......