首页 > 其他分享 >本周当之无愧:小模型周

本周当之无愧:小模型周

时间:2024-07-21 11:54:20浏览次数:17  
标签:当之无愧 训练 AI 模型 本周 Mistral NVIDIA GPT

--->更多内容,请移步“鲁班秘笈”!!<---

在继Meta MobileLLM之后,本周迎来了小模型的挤堆发布。在本地设备上运行的小型语言模型脱胎于蒸馏或量化等技术来压缩大型模型,或者在大型数据集上从头开始训练。

Microsoft的Phi系列、阿里巴巴的Qwen2和Meta的 MobileLLM表明,如果经过深思熟虑的设计和训练,小型模型可以取得令人印象深刻的结果。但是,有关这些模型的数据管理和训练的大部分详细信息尚未公开。

Mistral NeMo

Mistral AI和NVIDIA联手推出了Mistral NeMo 12B,这款语言模型专为聊天机器人、多语言任务、编码和摘要等各种应用而设计。

利用Mistral AI在训练数据方面的累积知识和NVIDIA的硬件和软件生态系统,Mistral NeMo 12B提供了前所未有的准确性、灵活性和效率。

“我们很幸运能与NVIDIA团队合作,利用他们的顶级硬件和软件。得益于NVIDIA AI Enterprise的部署,我们共同开发了一种具有前所未有的准确性、灵活性、高效率和企业级支持和安全性的模型。

该模型的训练过程涉及DGX Cloud 的3,072个H100 80GB Tensor Core GPU,利用NVIDIA AI架构(包括加速计算、网络结构和软件)来提高训练效率。

该模型适用于全球多语言应用,它具有较大的上下文窗口,并且在英语、法语、德语、西班牙语、意大利语、葡萄牙语、中文、日语、韩语、阿拉伯语和印地语方面尤其强大。

Mistral NeMo 使用基于Tiktoken的新分词器Tekken,该分词器经过了 100多种语言的训练,比以前Mistral模型中使用的SentencePiece词器更有效地压缩自然语言文本和源代码。在压缩源代码(中文、意大利语、法语、德语、西班牙语和俄语)方面的效率提高了~30%。它在压缩韩语和阿拉伯语方面的效率也分别提高了2倍和3倍。与Llama 3分词器相比,Tekken 被证明更擅长压缩大约 85% 的所有语言的文本。

Mistral NeMo NIM设计用于安装在单个NVIDIA L40S、NVIDIA GeForce RTX 4090或NVIDIA RTX 4500 GPU的内存上,可提供高效率、低计算成本以及增强安全性和隐私性。

GPT-4o mini

OpenAI表示GPT-4o mini在涉及文本和视觉的推理任务上优于行业领先的小模型。随着小型 AI模型的改进,与GPT-4 Omni或Claude 3.5 Sonnet 等大型模型相比,它们的速度和成本效益越来越受到开发人员的欢迎。对于开发人员可能会反复调用AI模型来执行的大量简单任务,它们是一个有用的选项。

GPT-4o mini将取代GPT-3.5 Turbo,成为OpenAI提供的最小型号。该公司声称,根据Artificial Analysis的数据,其最新的AI模型在MMLU上得分为82%,MMLU是衡量推理的基准,而Gemini 1.5 Flash为79%,Claude 3 Haiku为75%。在MGSM上,GPT-4o mini得分为87%,而Flash为 78%,Haiku为 72%。

SmolLM

HuggingFace发布了SmolLM,这是一系列最先进的小型语言模型,有三种尺寸可供选择:135M、360M 和 1.7B 参数。这些模型建立在精心策划的高质量训练语料库之上,我们将其作为 SmolLM-Corpus 发布。Smollm 语料库包括:

  • Cosmopedia v2:由 Mixtral 生成的合成教科书和故事集

  • Python-Edu: 来自 The Stack 的教育性Python示例

  • FineWeb-Edu:来自FineWeb(220B Token)的样本

SmolLM 模型在各种基准测试中都优于其大小类别中的其他模型:

小模型的热度体现了人工智能社区对效率和可访问性的关注。较小模型在训练和运行时需要的训练资源更少,有助于减少人工智能硬件资源的依赖。随着企业越来越重视可持续实践,这一点可成为SLMs的一大卖点。

SLMs的普及也带来了一系列挑战,包括偏见、责任和道德使用等问题。尽管小型模型在效率和可访问性上具有优势,但它们在某些任务上可能无法与大型模型相媲美。未来,人工智能领域可能会呈现出多样化的模型尺寸和专业化,而不是单一的解决方案。关键在于找到模型大小、性能和特定应用需求之间的最佳平衡点。

标签:当之无愧,训练,AI,模型,本周,Mistral,NVIDIA,GPT
From: https://blog.csdn.net/Janexjy/article/details/140573787

相关文章

  • 基于python的非平稳时间序列模型
    前言平稳时间序列指的是宽平稳时间序列,就是指时间序列的均值、方差和协方差等一二阶矩存在但不随时间改变,表现为时间的常数。若三个条件有一个不成立,那么就称该序列为非平稳时间序列。包括确定性趋势时间序列和随机性趋势时间序列。要想把非平稳的时间序列转化为平稳的时......
  • 在感知器学习模型的 Python 实现中将数组传递给 numpy.dot()
    我正在尝试将单层感知器分类器的Python实现放在一起。我发现SebastianRaschka的《Python机器学习》一书中的示例非常有用,但我对他的实现的一小部分有疑问。这是代码:importnumpyasnpclassPerceptron(object):"""Perceptronclassifier.Parameters......
  • Day5 本周总结
    目录数组链表总结数组关于数组,本身结构上比较简单,所以题型上要思考的较多,思想上大多为减治策略,模拟等减而治之的思想,即将一个未知区间的数组亦步亦趋的转化为某些区间已知,某些区间未知的中间状态,最终转化为全部区间已知。(如二分查找的两种不同返回值情况)。技巧上,特定题型比如......
  • AI跟踪报道第48期-新加坡内哥谈技术-本周AI新闻:Open AI 和 Mistral的小型模型
       每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行!订阅:https:......
  • Chameleon:Meta推出的图文混合多模态开源模型
    目录引言一、Chameleon模型概述1、早期融合和基于token的混合模态模型1)早期融合的优势2)基于token的方法2、端到端训练二、技术挑战与解决方案1、优化稳定性问题2、扩展性问题3、架构创新4、训练技术5、稳定性和扩展性的优化6、混合模态数据的表示学习三、模型架构与优......
  • IOS七层模型对应的网络协议和物理设备
    以下是网络模型、对应的协议以及对应的物理设备的表格总结:网络模型层次主要功能对应协议对应物理设备物理层透明的传输比特流,确定机械及电气规范RS-232、V.35、RJ-45、FDDI等中继器、集线器、网线、调制解调器、网卡数据链路层将比特组装成帧和点到点的传递,物理地址寻址、......
  • 农学模型“扩容“,机器学习“把关“,测土配方数据异常无处遁形
    测土配方施肥是现代农业的一项关键技术,通过测试土壤养分含量,为作物量身定制施肥配方,能够显著提高肥料利用率,减少面源污染。但测土配方施肥需要分析海量土壤数据,而这些数据往往来源复杂、标准不一,异常值错误值在所难免,成为影响配方精准性和可靠性的"定时炸弹"。近日,北京市农林科......
  • 使用 GEKKO 的预测控制模型
    我正在对MPC进行建模,以将建筑物的温度保持在给定的时间间隔内,同时最大限度地减少能耗。我正在使用GEKKO来建模我的算法。我编写了以下代码。首先,我使用输入数据(干扰:外部温度和控制)和输出y(温度)来确定我的模型。然后,我构建了一个ARX模型(使用GEKKO中的arx函数。这是......
  • 如何保存这个 RNN 模型以及如何使用它来构建 api 进行翻译?
    我使用僧伽罗英语数据集并训练它来翻译僧伽罗英语java相关问题。它提供了良好的训练准确性,但问题是保存后无法加载并使用它来开发翻译API。我将此模型保存为h5格式并尝试加载它给出importosimportshutilimportsubprocessimportwarningsfrompathlibimportPathim......
  • 将三个经过训练的二元分类模型组合成 keras 中的单个多分类模型
    我有三个经过训练的二元分类模型,它们在输出层使用sigmoid激活进行训练。第一个模型返回从0到1的概率标量,以检查图像是否为数字零或不是。第二个模型返回从0到1的概率标量来检查图像是否是数字ONE或否。第三个模型返......