51c大模型~合集78

标签：SLMs 训练 Kinetix LLMs 51c 智能合集模型 78

我自己的原文哦~ https://blog.51cto.com/whaosoft/12642335

#LTX-Video

RTX 4090可跑、完全开源，最快视频生成模型问世，实测一言难尽

开源 AI 视频社区又一个重量级选手下场。

这个周末，押注开源人工智能视频的初创公司 Lightricks，有了重大动作。

该公司推出了最快的视频生成模型 LTX-Video，它是首个可以实时生成高质量视频的 DiT 视频生成模型。

在一块 Nvidia H100 上，LTX-Video 只需要 4 秒就能生成 5 秒时长的 24FPS 视频，分辨率 768x512，可以说视频生成速度比视频观看速度还要快。同时 LTX-Video 完全开源，包括代码库和模型权重。

LTX-Video共同作者和负责人。

「有史以来最快的文生视频模型诞生了。」

首先来看几个视频生成官方 Demo。

，时长00:04

，时长00:02

，时长00:05

目前，用户可以在 GitHub Hugging Face 上体验预览版 LTX Video。完整版发布之后将免费供个人和商业使用，并即将集成到 LTX Studio 中。

项目地址：https://github.com/Lightricks/LTX-Video

我们尝试生成了两个视频，比如「a dog chasing a boy who is skateboarding」。

，时长00:05

再比如「a girl with an umbrella standing on a bridge, and a handsome man walking towards her」。

，时长00:05

试用地址：https://huggingface.co/spaces/akhaliq/anychat

接着来了解一下 LTX-Video 的细节。

LTX Video 是一个文本到视频和图像到视频模型，能够以惊人的速度和精度实时创建动态视频。该模型可以在 RTX 4090 等消费级 GPU 上本地运行，无需专用设备即可以低成本地生成高质量视频。

另外，LTX Video 基于开发人员的反馈和真实世界用例构建，可以提供自然逼真的结果。该模型做了高级定制化设计，可以流畅地集成各种外部工具，从而轻松地增强工作流。

在生成过程中，LTX Video 最大程度减少了闪烁和伪影，创建出具有出色细节和清晰度的高保真视频。每一帧都在精心制作下呈现清晰锐利、栩栩如生，符合用户的视觉效果。

最后，LTX Video 实现了无缝的跨帧一致性，从角色到环境，可以保持连贯的视觉效果，将每个细节整合在一起。

未来，LTX-Video 还会有技术报告放出。

#Kinetix

智能体零样本解决未见过人类设计环境！全靠这个开放式物理RL环境空间

当物理推理能力进化后，通用强化学习智能体能在2D物理环境中执行多样化任务了。

在机器学习领域，开发一个在未见过领域表现出色的通用智能体一直是长期目标之一。一种观点认为，在大量离线文本和视频数据上训练的大型 transformer 最终可以实现这一目标。

不过，在离线强化学习（RL）设置中应用这些技术往往会将智能体能力限制在数据集内。另一种方法是使用在线 RL，其中智能体通过环境交互自己收集数据。

然而，除了一些明显的特例外，大多数 RL 环境都是一些狭窄且同质化的场景，限制了训练所得智能体的泛化能力。

近日，牛津大学的研究者提出了 Kinetix 框架，它可以表征 2D 物理环境中广阔的开放式空间，并用来训练通用智能体。

论文地址：https://arxiv.org/pdf/2410.23208
项目主页：https://kinetix-env.github.io/
论文标题：Kinetix: Investigating the Training of General Agents through Open-Ended Physics-Based Control Tasks

Kinetix 涵盖的范围足够广，可以表征机器人任务（如抓取和移动）、经典的 RL 环境（如 Cartpole、Acrobot 和 Lunar）、电子游戏（Pinball）和其他很多任务，如下图 1 所示。

此外，为了后端运行 Kinetix，研究者开发了一种硬件加速物理引擎 Jax2D，它能够高效地模拟训练智能体所需的数十亿次环境交互。他们表示，通过从可表征的 2D 物理问题空间中随机采样 Kinetix 环境，可以几乎无限地生成有意义的多样化训练任务。

研究者发现，在这些环境中训练的 RL 智能体表现出了对一般机械特性的理解，并能够零样本地解决未见过的手工环境。

他们进一步分析了在特定困难环境中微调该通用智能体能带来哪些好处，结果发现与白板智能体相比，这样做能够大大减少学习特定任务所需的样本数量。

同时，微调还带来了一些新能力，包括解决专门训练过的智能体无法取得进展的任务。

Kinetix 详解

Kinetix 是一个大型开放式 RL 环境，完全在 JAX 中实现。

Jax2D

为了支持 Kinetix，研究团队开发了基于脉冲的 2D 刚体物理引擎 ——Jax2D，完全用 JAX 编写，构成了 Kinetix 基准测试的基础。研究团队通过仅模拟几个基本组件来将 Jax2D 设计得尽可能具有表达能力。

为此，Jax2D 场景仅包含 4 个独特的实体：圆形、（凸）多边形、关节和推进器。从这些简单的构建块中，可以表征出多种多样的不同物理任务。

Jax2D 与 Brax 等其他基于 JAX 的物理模拟器的主要区别在于 Jax2D 场景几乎完全是动态指定的，这意味着每次模拟都会运行相同的底层计算图，使得能够通过 JAX vmap 操作并行处理不同任务，这是在多任务 RL 环境中利用硬件加速功能的关键组成部分。相比之下，Brax 几乎完全是静态指定的。

Kinetix：RL 环境规范

动作空间 Kinetix 支持多离散和连续动作空间。在多离散动作空间中，每个电机和推进器可以不活动，也可以在每个时间步以最大功率激活，电机可以向前或向后运行。

观察空间

使用符号观察，其中每个实体（形状、关节或推进器）由一系列物理属性值（包括位置、旋转和速度）定义。然后将观察定义为这些实体的集合，允许使用排列不变的网络架构，例如 transformer。这种观察空间使环境完全可观察，从而无需具有记忆的策略。还提供基于像素的观察和符号观察的选项，它可以简单地连接和展平实体信息。

奖励

为了实现通用智能体的目标，该研究选择了一个简单但具有高度表达力的奖励函数，该函数在所有环境中保持固定。每个场景必须包含一个绿色形状和一个蓝色形状 - 目标只是使这两个形状发生碰撞，此时该情节以 + 1 奖励结束。场景还可以包含红色形状，如果它们与绿色形状碰撞，将会以 -1 奖励终止该情节。如图 1 所示，这些简单且可解释的规则允许表示大量语义上不同的环境。

Kinetix 的表现力、多样性和速度使其成为研究开放性的理想环境，包括通用智能体、UED 和终身学习。为了使其对智能体训练和评估发挥最大作用，该研究提供了一个启发式环境生成器、一组手工设计的级别以及描述环境复杂性的环境分类法。

环境生成器 Kinetix 的优势在于它可以表示环境的多样性。然而，这个环境集包含许多退化的情况，如果简单地采样，它们可能会主导分布。因此，该研究提供了一个随机级别生成器，旨在最大程度地提高表达能力，同时最大限度地减少简并级别的数量。确保每个关卡都具有完全相同的绿色和蓝色形状，以及至少一个可控方面（电机或推进器）。

实验结果

研究者在程序生成的 Kinetix 关卡上进行训练，后者从静态定义分布中抽取。他们将来自该分布的采样关卡上的训练称为 DR。主要评估指标是在手动 holdout 关卡的解决率。智能体不会在这些关卡上训练，但它们确实存在于该训练分布的支持范围内。由于所有关卡都遵循相同的底层结构并完全可观察，因此理论上可以学习一种在分布内所有关卡上表现最佳的策略。

为了选择要训练的关卡，研究者使用了 SOTA UED 算法 SFL，它定期在随机生成的关卡上执行大量 rollout，然后选择具有高学习能力的子集，并在固定时间内对它进行训练，最后再次选择新的关卡。同时，研究者使用 PLR 和 ACCEL 进行了初步实验，但发现这些方法相较于 DR 没有任何改进。

架构

下图 2 是训练所用的基于 transforme r 的架构。可以看到，一个场景被分解为它的组成实体，然后通过网络传递。该网络由 L 层的自注意力和消息传递组成，K 个完全连接层紧随其后。

其中为了以置换不变的方式处理观察结果，研究者将每个实体表征为向量 v，其中包含物理属性，比如摩擦、质量和旋转。

零样本结果

在下图 3 中，研究者分别在 S、M 和 L 大小的环境中训练 SFL。在每种情况下，训练环境（随机）具有相应的大小，而研究者使用相应的 holdout 集来评估智能体的泛化能力。

可以看到，在每种情况下，智能体的性能都会在训练过程中提高，这表明它正在学习一种可以应用于未见过环境的通用策略。

接下来，研究者通过探索学得的通用智能体在受限目标遵循设置中的行为，仔细探究了它的零样本性能。具体来讲，他们创建的关卡在其中心具有单一形态（一组与电机连接并包含绿色形状的形状），目标（蓝色形状）固定在关卡顶部，并且位置 x 是随机的。

研究者测量了目标位置 x 与可控形态位置 x 之间的关联，如下图 4 所示。其中最佳智能体的行为表现为高相关性，因此会在对角线上表现出高发生率。他们还评估了在随机 M 关卡上训练 50 亿时间步的随机智能体和通用智能体。

正如预期的那样，随机智能体在可控形态和目标位置之间没有表现出相关性，而经过训练的智能体表现出了正相关性，表明它可以将操纵形态到目标位置。

微调结果

本节中，研究者探究了在使用给定有限样本数量来微调 holdout 任务时，通用智能体的性能。在下图 5 中，他们为 L holdout 集中的每个关卡训练了单独的专用智能体，并将它们与微调通用智能体进行比较。

研究者绘制了四个选定环境的学习曲线，以及整个 holdout 集的总体性能曲线。在其中三个关卡上，微调智能体的表现远远优于从头开始训练，尤其是对于 Mujoco-Hopper-Hard 和 Mujoco-Walker-Hard，微调智能体能够完全胜任这些关卡，而白板智能体无法始终如一地做到这一点。

#小模型SLM

研究大模型门槛太高？不妨看看小模型SLM，知识点都在这

本篇综述的作者团队包括宾州州立大学的博士研究生王发利，张智维，吴纵宇，张先仁，指导教师王苏杭副教授，以及来自伦斯勒理工学院的马耀副教授，亚马逊汤先锋、何奇，德克萨斯大学休斯顿健康科学中心黄明副教授团队。

摘要：大型语言模型（LLMs）在多种任务中表现出色，但由于庞大的参数和高计算需求，面临时间和计算成本挑战。因此，小型语言模型（SLMs）因低延迟、成本效益及易于定制等优势优点，适合资源有限环境和领域知识获取，正变得越来越受欢迎。我们给出了小语言模型的定义来填补目前定义上的空白。我们对小型语言模型的增强方法、已存在的小模型、应用、与 LLMs 的协作、以及可信赖性方面进行了详细调查。我们还探讨了未来的研究方向，并在 GitHub 上发布了相关模型及文章：https://github.com/FairyFali/SLMs-Survey。

论文链接：https://arxiv.org/abs/2411.03350

文章结构

图 1 文章结构

LLMs 的挑战

神经语言模型（LM）从 BERT 的预训练微调到 T5 的预训练提示，再到 GPT-3 的上下文学习，极大增强了 NLP。模型如 ChatGPT、Llama 等在扩展至大数据集和模型时显示出 “涌现能力”。这些进步推动了 NLP 在多个领域的应用，如编程、推荐系统和医学问答。

尽管大型语言模型（LLMs）在复杂任务中表现出色，但其庞大的参数和计算需求限制了部署本地或者限制在云端调用。这带来了一系列挑战：

LLMs 的高 GPU 内存占用和计算成本通常使得其只能通过云 API 部署，用户需上传数据查询，可能引起数据泄漏及隐私问题，特别是在医疗、金融和电商等敏感领域。

在移动设备上调用云端 LLMs 时面临云延迟问题，而直接部署又面临高参数和缓存需求超出普通设备能力的问题。

LLMs 庞大的参数数量可能导致几秒至几分钟的推理延迟，不适合实时应用。

LLMs 在专业领域如医疗和法律的表现不佳，需要成本高的微调来提升性能。

虽然通用 LLMs 功能强大，但许多应用和任务只需特定功能和知识，部署 LLMs 可能浪费资源且性能不如专门模型。

SLMs 的优势

最近，小型语言模型（SLMs）在处理特定领域问题时显示出与大型语言模型（LLMs）相当的性能，同时在效率、成本、灵活性和定制方面具有优势。由于参数较少，SLMs 在预训练和推理过程中节约了大量计算资源，减少了内存和存储需求，特别适合资源有限的环境和低功耗设备。因此，SLMs 作为 LLMs 的替代品越来越受到关注。如图 2 所示，Hugging Face 社区中 SLMs 的下载频率已超过大型模型，而图 3 显示了 SLMs 版本随时间推移的日益流行。

图 2 Hugging Face 上个月下载量（数据获取在 2024 年 10 月 7 日）

图 3 SLMs 时间线

SLMs 的定义

通常，具有涌现能力的语言模型被归类为大型语言模型（LLMs）。然而，小型语言模型（SLMs）的分类尚无统一标准。一些研究认为 SLMs 的参数少于 10 亿，且在移动设备上通常配备约 6GB 的内存；而另一些研究则认为 SLMs 的参数可达到 100 亿，但这些模型通常缺乏涌现能力。考虑到 SLMs 在资源受限的环境及特定任务中的应用，我们提出了一个广义的定义：SLMs 的参数范围应介于能展现专门任务涌现能力的最小规模和在资源限制条件下可管理的最大规模之间。这一定义旨在整合不同观点，并考虑移动计算及能力阈值因素。

SLMs 的增强方法

在大语言模型时代小语言模型的增强方法会有不同，包括从头开始训练 SLMs 的训练方法、使 SLMs 遵循指令的监督微调 (SFT)、先进的知识提炼和量化技术，以及 LLMs 中经常使用的技术，以增强 SLMs 针对特定应用的性能。我们详细介绍了其中一些代表性方法，包括参数共享的模型架构（从头开始训练子章节 3.1）、从人类反馈中优化偏好（有监督微调子章节 3.2）、知识蒸馏的数据质量（3.3 章节）、蒸馏过程中的分布一致性（3.4 章节）、训练后量化和量化感知训练技术（3.5 章节）、RAG 和 MoE 方法增强 SLMs（3.6 章节）。这一章节的未来方法是探索可提高性能同时降低计算需求的模型架构，比如 Mamba。

SLMs 的应用

由于 SLMs 能够满足增强隐私性和较低的内存需求，许多 NLP 任务已开始采用 SLMs，并通过专门技术提升其在特定任务上的性能（见 4.1 节），如问答、代码执行、推荐系统以及移动设备上的自动化任务。典型应用包括在移动设备上自动执行任务，SLMs 可以作为代理智能调用必需的 API，或者根据智能手机 UI 页面代码自动完成给定的操作指令（见 4.1.5 节）。

此外，部署 SLMs 时通常需考虑内存使用和运行效率，这对预算有限的边缘设备（特别是智能手机）上的资源尤为关键（见 4.2 节）。内存效率主要体现在 SLMs 及其缓存的空间占用上，我们调研了如何压缩 SLMs 本身及其缓存（见 4.2.1 节）。运行效率涉及 SLMs 参数量大及切换开销，如内存缓存区与 GPU 内存之间的切换（见 4.2.2 节），因此我们探讨了减少 MoE 切换时间和降低分布式 SLMs 延迟等策略。

未来研究方向包括使用 LoRA 为不同用户提供个性化服务、识别 SLMs 中的固有知识及确定有效微调所需的最少数据等（更多未来方向详见第 8 章）。

已存在的 SLMs

我们总结了一些代表性的小型语言模型（详见图 3），这些模型包括适用于通用领域和特定领域的小型语言模型（参数少于 70 亿）。本文详细介绍了这些小型语言模型的获取方法、使用的数据集和评估任务，并探讨了通过压缩、微调或从头开始训练等技术获取 SLMs 的策略。通过统计分析一些技术，我们归纳出获取通用 SLMs 的常用技术，包括 GQA、Gated FFN，SiLU 激活函数、RMS 正则化、深且窄的模型架构和 embedding 的优化等（见 5.1 章）。特定领域的 SLMs，如科学、医疗健康和法律领域的模型，通常是通过对大模型生成的有监督领域数据进行指令式微调或在领域数据上继续训练来获取的（见 5.2 章）。未来的研究方向将包括在法律、金融、教育、电信和交通等关键领域开发专业化的小型语言模型。

SLMs 辅助 LLMs

由于 SLMs 在运行效率上表现出色且与 LLMs 的行为规律相似，SLMs 能够作为代理辅助 LLMs 快速获取一些先验知识，进而增强 LLMs 的功能，例如减少推理过程中的延迟、缩短微调时间、改善检索中的噪声过滤问题、提升次优零样本性能、降低版权侵权风险和优化评估难度。

在第 6 章中，我们探讨了以下五个方面：

(i) 使用 SLMs 帮助 LLMs 生成可靠内容：例如，使用 SLMs 判断 LLMs 输入和输出的真实置信度，或根据 LLMs 的中间状态探索幻觉分数。详细的可靠生成方法、增强 LLMs 的推理能力、改进 LLMs RAG 以及缓解 LLMs 输出的版权和隐私问题，请参考原文。

(ii) SLMs 辅助提取 LLMs 提示：一些攻击方法通过 SLMs 逆向生成 Prompts。

(iii) SLMs 辅助 LLMs 微调：SLMs 的微调参数差异可以模拟 LLMs 参数的演变，从而实现 LLMs 的高效微调。

(iv) SLMs 在特定任务上辅助 LLMs 表现：定制化的 SLMs 在某些特定任务上可能优于 LLMs，而在困难样本上可能表现不佳，因此 SLMs 和 LLMs 的合作可以在特定任务上实现更优表现。

(v) 使用 SLMs 评估 LLMs：SLMs 在经过微调后可以作为评估器，评估 LLMs 生成的更加格式自由的内容。

未来的方向包括使用 SLMs 作为代理探索 LLMs 更多的行为模式，如优化 Prompts、判断缺失知识和评估数据质量等，更多信息请参见原文第 8 章未来工作。

SLMs 的可信赖性

图 4 Trustworthiness 分类

语言模型已成为我们日常生活中不可或缺的一部分，我们对它们的依赖日益增加。然而，它们在隐私、公平等信任维度上存在局限，带来了一定风险。因此，许多研究致力于评估语言模型的可信赖性。尽管目前的研究主要集中在大型语言模型（LLMs）上，我们在第 7 章关注 7B 参数及以下的模型和五个关键的信任场景：鲁棒性、隐私性、可靠性、安全性和公平性，详见图 4。在鲁棒性方面，我们讨论了对抗性鲁棒性和分布外鲁棒性两种情况；在安全性方面，我们重点分析了误导信息和毒性问题；在可靠性方面，我们主要关注幻觉和谄媚现象。然而，大多数现有研究都集中在具有至少 7B 参数的模型上，这留下了对小型语言模型（SLMs）可信度全面分析的空白。因此，系统地评估 SLMs 的可信度并了解其在各种应用中的表现，是未来研究的重要方向。

总结

随着对小型语言模型需求的增长，当下研究文献涵盖了 SLMs 的多个方面，例如针对特定应用优化的训练技术如量化感知训练和选择性架构组件。尽管 SLMs 性能受到认可，但其潜在的可信度问题，如幻觉产生和隐私泄露风险，仍需注意。当前缺乏全面调查彻底探索 LLMs 时代 SLMs 的这些工作。本文旨在提供详尽调查，分析 LLMs 时代 SLMs 的各个方面及未来发展。详见我们的综述原文。

标签：SLMs,训练,Kinetix,LLMs,51c,智能,合集,模型,78
From： https://blog.csdn.net/weixin_49587977/article/details/144007088

#LTX-Video

#Kinetix

#小模型SLM

相关文章

赞助商

阅读排行