Dual Instruction Tuning with Large Language Models for Mathematical Reasoning

时间：2024-06-17 09:58:47浏览次数：12

标签：Mathematical Tuning Language 任务指令数学 LLM 反向推理

本文是LLM系列文章，针对《Dual Instruction Tuning with Large Language Models for Mathematical Reasoning》的翻译。

数学推理的大语言模型双指令调优

摘要
1 引言
2 方法
3 实验
4 结论
局限性

摘要

最近的进展突出了利用思想链（CoT）数据进行数学推理任务的大型语言模型（LLM）的指令调整的成功。尽管LLM经过了微调，但挑战依然存在，例如CoT生成中不正确、缺失和冗余的步骤，导致答案预测不准确。为了缓解这个问题，我们提出了一种双指令调整策略，从正向和反向对数学推理进行精心建模。这包括引入中间推理状态预测任务（正向推理）和指令重构任务（反向推理），以增强LLM对指令的理解和执行。这些任务的训练实例是基于现有的数学指令调整数据集构建的。随后，LLM使用现有的数学指令和新创建的数据进行多任务微调。综合实验验证了双指令调整策略在各种数学推理任务中的有效性和领域泛化能力。

1 引言

2 方法

3 实验

4 结论

这项工作提出了一种双指令调整策略，以缓解LLM生成的思想链的质量问题。具体来说，该策略引入了两个辅助任务，包括中间推理状态预测和指令重构任务，这两个任务从正向和反向精心建模数学推理。随后，构建并利用这两个任务的额外训练数据以多任务学习的方式训练LLM。实验证明，该方法有助于提高模型的数学推理能力和领域泛化能力。

局限性

标签：Mathematical,Tuning,Language,任务,指令,数学,LLM,反向,推理
From： https://blog.csdn.net/c_cpp_csharp/article/details/139733292

Large Language Models as Financial Data Annotators: A Study on Effectiveness and
本文是LLM系列文章，针对《LargeLanguageModelsasFinancialDataAnnotators:AStudyonEffectivenessandEfficiency》的翻译。作为财务数据注释器的大型语言模型：有效性和效率研究摘要引言相关工作数据集实验结果讨论局限性结论摘要由于缺乏领域专......
ALoRA: Allocating Low-Rank Adaptation for Fine-tuning Large Language Models
本文是LLM系列文章，针对《ALoRA:AllocatingLow-RankAdaptationforFine-tuningLargeLanguageModels》的翻译。ALoRA：为微调大型语言模型分配低秩自适应摘要1引言2相关工作3方法4实验5结论摘要参数有效微调（PEFT）在大语言模型时代因其有效性和效率而......
Aligning with Human Judgement: The Role of Pairwise Preference in Large Language
本文是LLM系列文章，针对《AligningwithHumanJudgement:TheRoleofPairwisePreferenceinLargeLanguageModelEvaluators》的翻译。与人类判断相一致：配对偏好在大型语言模型评估者中的作用摘要1引言2LLM计算器校准的局限性3不确定性引导的成对偏好搜索4......
SentencePiece: A simple and language independent subword tokenizer and detokeniz
郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ Abstract 1Introduction 2SystemOverview 3LibraryDesign 3.1LosslessTokenization 3.2Efficientsubwordtrainingandsegmentation 3.3Vocabularyidmanagement 3.4Customi......
monaco-editor 的 Language Services
我们是袋鼠云数栈UED团队，致力于打造优秀的一站式数据中台产品。我们始终保持工匠精神，探索前端道路，为社区积累并传播经验价值。本文作者：修能这是一段平平无奇的SQL语法SELECTid,sum(name)FROMstudentGROUPBYidORDERBYid;如果把这段代码放到monaco-editor(@......
论文解读——CVPR2024《Learning by Correction: Efficient Tuning Task for Zero-Sho
一、研究背景视觉-语言模型是一类能够处理和理解图像及其相关文本信息的模型，它们在多种视觉-语言任务中展示了卓越的性能。这些任务包括图像描述（imagecaptioning）、视觉问题回答（visualquestionanswering）、图像-文本检索（image-textretrieval）等。这些模型通常经过大规......
论文解读——AAMAS2024《OPEx: A Large Language Model-Powered Framework for Embodi
一、研究背景具身指令执行（EmbodiedInstructionFollowing,EIF）是指在一个特定的物理或虚拟环境中，使能自主代理（如机器人或虚拟代理）根据自然语言指令来执行复杂的任务。这种研究领域集中于探索自然语言理解与机器执行能力的结合，尤其是在模拟家庭或日常环境中，如何使代理......
Hungry Hungry Hippos Towards Language Modeling with State Space Models
目录概H3代码FuD.Y.,DaoT.,SaabK.K.,ThomasA.W.,RudraA.andReC.Hungryhungryhippos:towardslanguagemodelingwithstatespacemodels.2022.概Mamba系列第五作:H3.H3感觉H3是之前的linearattention和SSM的一个结合,它所做的只是把line......
LISA: Reasoning Segmentation via Large Language Model
Motivation&Abs现有的感知系统依赖人类的指示，难以主动推理以理解人类意图。新任务：reasoningsegmentation，模型需要根据给定的复杂/具有隐含意义的文本输出相应的segmask。新的benchmark：包含1000张左右图像的数据集（image-instruction-mask）。模型：LISA，既有LLM的语言生成能力......
CBT-LLM: A Chinese Large Language Model for Cognitive Behavioral Therapy-based M
本文是LLM系列文章，针对《CBT-LLM:AChineseLargeLanguageModelforCognitiveBehavioralTherapy-basedMentalHealthQuestionAnswering》的翻译。CBT-LLM：一个基于认知行为治疗的心理健康问答的中文大语言模型摘要1引言2相关工作3方法4实验5结论和未......