首页 > 其他分享 >教小模型进行推理

教小模型进行推理

时间:2024-09-16 22:01:54浏览次数:1  
标签:思维 CoT 教小 提示 数据 模型 推理

https://arxiv.org/abs/2212.08410

思维链提示在基础层面上是如此成功,以至于它产生了一些被称为 x

链现象的东西。谷歌研究院探索了如何使用 llm 为现有数据集生成

CoT 数据本体,然后如何在 CoT 上微调较小的语言模型。

介绍

众所周知,思维链提示提高了大型语言模型的推理能力。

谷歌断言,推理能力只出现在具有至少数百亿参数的模型中。谷歌的这项研究探索了通过知识蒸馏将这些能力转移到更小的模型上。

他们利用一个更大的教师模型的思维链输出对一个学生模型进行了微调。

来自谷歌的研究人员发现,这种方法提高了算术、常识和符号推理数据集的任务性能。

思维链(CoT)

思维链(CoT)提示教导语言模型(lm)将推理任务分解为一系列中间步骤。

研究表明,这种提示显著提高了跨常识、符号和数学推理数据集的大型语言模型(llm)的任务准确性。

然而,较小的 lm 的推理能力在 CoT 提示下并没有提高,大多产生非逻辑的CoT。值得注意的是,CoT 提示甚至降低了小于 100 亿个参数的模型的准

确性。

研究将其归因于语义理解和符号映射等能力,这些能力仅在更大规模的模型中出现。

该方法

谷歌研究提出了 CoT(思维链)知识蒸馏的两步管道。

CoT 推理注释

  1. 使用教师模型,如 PaLM 540B 或 GPT-3 175B,用 CoT 推理注释现有的监督数据集。
  2. 使用 8 个示例执行少镜头提示以生成 CoT,调整提示以在问题之后和示例 CoT 之前提供目标答案。这有助于纠正小错误。
  3. 根据目标答案剔除不正确的 CoT,保证质量。

微调学生模型

  1. 使用教师强迫对学生模型进行微调。
  2. 提供问题作为输入,CoT 和答案作为目标。
  3. 这种训练消除了微调过程中提示的需要。

所提出方法的概述如下图所示

这张图是所提出方法的概述

总之

这项研究又是一个很好的例子,证明了快速工程技术是有效的,正在进入语言模型训练。因此,提示工程正在影响训练数据拓扑。

这也是 LLM 用于生成或增强小型语言模型的训练数据的另一个例子。

第三,第一步涉及使用教师模型生成的 CoT 推理对现有的监督数据集进行

注释。已经有许多研究通过人工注释和监督过程创建了非常细粒度、细粒

度的数据。

标签:思维,CoT,教小,提示,数据,模型,推理
From: https://www.cnblogs.com/little-horse/p/18416684

相关文章

  • 六、LoRa模型的使用
    LoRa模型的使用在先前的文生图实践中,我们可能遇到了模型生成的图像与预期不符的情况。模型似乎总是按照它自己的逻辑来创作,这让我们感到有些束手无策。但别担心,现在我们有了一种新的方法来引导模型,使其更贴近我们的需求。这就是提供参考图像——一个看似简单却强大的技巧。......
  • 一个使用 PyTorch 实现的中文聊天机器人对话生成模型916
    这是一个使用PyTorch实现的中文聊天机器人对话生成模型。1数据准备代码假设有两个文件:questions.txt和answers.txt,它们分别包含输入和输出序列。load_data函数读取这些文件并返回一个句子列表。build_vocab函数通过遍历句子来构建词汇表字典word2index和index2......
  • 【嵌入式linux开发】旭日x3派部署自己训练的yolov5模型(安全帽识别、视频流推理、yolov
    旭日x3派部署自己训练的模型(安全帽识别、视频流推理、yolov5-6.2)windows,框架pytorch,python3.7效果模型训练模型转换1、pt模型文件转onnx2、检查onnx模型3、准备校准数据4、onnx转bin上板视频流推理1、图片推理2、视频流推理效果模型训练进官网可克隆yolov5......
  • 排队论——数学模型和绩效指标精解
    排队论最早由丹麦工程师AgnerKrarupErlang于1910年提出,旨在解决自动电话系统的问题,成为话务理论的奠基石。Erlang通过研究电话呼叫的随机到达和服务时间,推导出著名的埃尔朗电话损失率公式,用于计算电话系统的呼叫阻塞率,揭示了排队现象的本质。Erlang之后,排队论得到进一步发展。瑞......
  • CSS 盒子模型
    当对一个文档进行布局(layout)的时候,浏览器的渲染引擎会根据标准之一的CSS基础框盒模型(CSSbasicboxmodel),将所有元素表示为一个个矩形的盒子(box)一个盒子由四个部分组成:content、padding、border、**margin**content:即实际内容padding:即内边距,清除内容周围的区域,内边......
  • Jina AI 发布 Reader-LM-0.5B 和 Reader-LM-1.5B:为网络数据处理提供多语种、长语境和
    JinaAI发布的Reader-LM-0.5B和Reader-LM-1.5B标志着小语言模型(SLM)技术的一个重要里程碑。这些模型旨在解决一个独特而具体的挑战:将开放网络中原始、嘈杂的HTML转换为干净的标记符格式。这项任务看似简单,却面临着复杂的挑战,尤其是在处理现代网络内容中的大量噪音......
  • 探索轻量级语言模型 GPT-4O-mini 的无限可能
    随着人工智能技术的日益发展,语言模型正逐渐成为人们日常生活和工作中不可或缺的一部分。其中,GPT-4O-mini作为一个轻量级大模型,以其强大的功能和易用性吸引了众多关注。本文将带您了解GPT-4O-mini的出色表现、应用场景以及如何免费使用这一资源。GPT-4O-mini:继承GPT-4......
  • 使用合成数据进行自我提升的扩散模型
    文章提出了一种新的训练方法,称为使用合成数据自我改进的扩散模型(SIMS),旨在解决生成模型因使用合成数据训练而可能导致的模型自噬障碍(MAD)问题。通过在生成过程中引入负向引导,SIMS能够避免模型陷入合成数据循环导致的性能退化,提升模型生成质量,并在多个图像生成任务中取得了优异的表现......
  • 计算机人工智能前沿进展-大语言模型方向-2024-09-16
    计算机人工智能前沿进展-大语言模型方向-2024-09-161.SecuringLargeLanguageModels:AddressingBias,Misinformation,andPromptAttacksBPeng,KChen,MLi,PFeng,ZBi,JLiu,QNiu-arXivpreprintarXiv:2409.08087,2024保护大型语言模型:解决偏见、......
  • 【AI大模型】ChatGPT模型原理介绍(下)
    目录......