Imitating Language via Scalable Inverse Reinforcement Learning

时间：2024-09-19 10:51:56浏览次数：14

标签：via Language MLE Scalable 学习 Inverse IRL Imitating 模仿

本文是LLM系列文章，针对《Imitating Language via Scalable Inverse Reinforcement Learning》的翻译。

通过可扩展的逆向强化学习模仿语言

摘要
1 引言
2 方法
3 实验
4 相关工作
5 讨论
6 结论

摘要

大多数语言模型训练都建立在模仿学习的基础上。它涵盖了预训练、监督微调，并影响了从人类反馈进行强化学习（RLHF）的起始条件。用于下一个token预测的最大似然估计（MLE）的简单性和可扩展性使其成为主导范式。然而，更广泛的模仿学习领域可以更有效地利用自回归生成的基础顺序结构。我们专注于研究逆向强化学习（IRL）对模仿的看法，提取奖励并直接优化序列而不是单个token的可能性，并评估其对微调大型语言模型的好处。我们提供了一个新角度，将逆软 Q 学习重新表述为 MLE 的时间差异正则化扩展。这在 MLE 和 IRL 之间建立了原则性的联系，并允许在监督微调（SFT）设置中权衡增加的复杂性与提高性能和生成多样性。我们发现了基于 IRL 的模仿的明显优势，特别是对于在最大化任务性能的同时保留多样性，即使没有在线数据生成，IRL 也成为固定 SFT 数据集上的强大替代品。我们对 IRL 提取的奖励函数的分析进一步表明，通过更紧密地集成监督和基于偏好的 LLM 后，奖励函数可以更强大。

1 引言

2 方法

标签：via,Language,MLE,Scalable,学习,Inverse,IRL,Imitating,模仿
From： https://blog.csdn.net/c_cpp_csharp/article/details/142328219

General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model
摘要传统的OCR系统（OCR-1.0）越来越无法满足人们对智能处理人造光学字符的需求。在本文中，我们将所有人造光学信号（例如，普通文本、数学/分子公式、表格、图表、乐谱，甚至是几何形状）统称为“字符”，并提出了通用OCR理论以及一个优秀的模型，即GOT，以促进OCR-2.0的到来。GOT拥有5.8亿参......
Trivial, standard-layout, POD, and literal types
转自：Trivial,standard-layout,POD,andliteraltypeshttps://learn.microsoft.com/en-us/cpp/cpp/trivial-standard-layout-and-pod-types?view=msvc-170微软这篇文章写的很详尽，也配有代码实例Trivial,standard-layout,POD,andliteraltypes Thetermlayoutre......
WPF overlay on the icon in the taskbar via TaskbarItemInfo
<Windowx:Class="WpfApp372.MainWindow"xmlns="http://schemas.microsoft.com/winfx/2006/xaml/presentation"xmlns:x="http://schemas.microsoft.com/winfx/2006/xaml"xmlns:d="http://schemas.microsoft......
数据控制语言（DCL，Data Control Language）
目录GRANT语句REVOKE语句权限类型数据控制语言（DCL，DataControlLanguage）用于管理数据库中的权限和访问控制。DCL语句主要用于控制用户对数据库对象的访问权限。常见的DCL语句有GRANT和REVOKE。GRANT语句GRANT语句用于授予用户或角色对数据库对象（如表、视图......
（论文解读）Visual-Language Prompt Tuning with Knowledge-guided Context Optimization
Comment:acceptedbyCVPR2023基于知识引导上下文优化的视觉语言提示学习摘要提示调优是利用任务相关的可学习标记将预训练的视觉语言模型（VLM）适应下游任务的有效方法。基于CoOp的代表性的工作将可学习的文本token与类别token相结合，来获得特定的文本知识。然而，这些特定的文......
AnomalyLLM: Few-shot Anomaly Edge Detection for Dynamic Graphs using Large Langu
本文是LLM系列文章，针对《AnomalyLLM:Few-shotAnomalyEdgeDetectionforDynamicGraphsusingLargeLanguageModels》的翻译。AnomalyLLM：使用大型语言模型对动态图进行少量异常边缘检测摘要1引言2相关工作3前言4方法5实验6结论摘要检测动态图的......
ANAH: Analytical Annotation of Hallucinations in Large Language Models
本文是LLM系列文章，针对《ANAH:AnalyticalAnnotationofHallucinationsinLargeLanguageModels》的翻译。ANAH：大型语言模型中幻觉的分析注释摘要1引言2数据集构造3幻觉注释器4实验5相关工作6结论和未来工作7局限性摘要减少大型语言模型（LLM）的......
大模型书籍推荐：从头开始构建一个大型语言模型（含PDF免费）《Build a Large Language Mode
通过从头开始构建一个大型语言模型，了解如何创建、训练和调整大型语言模型（LLMs）！一、构建大型语言模型（从头开始）在《构建大型语言模型（从头开始）》中，你将了解如何LLMs从内到外工作。在这本富有洞察力的书中，畅销书作家塞巴斯蒂安·拉施卡（SebastianRaschka）将指导你逐步创建......
LIN476H5 F 2024 Language Universals
LIN476H5F2024LanguageDiversityandLanguageUniversalsHomeworkAssignment1Due:Fr09/20,by11:59pSubmit yourhomework onQuercus. Neat typing is required.To type IPA symbols, consider one of the following tools:- Online IPAkeyboar......
Google Aviator Evaluator 使用入门（一）
Aviator Evaluator 使用入门（一）https://www.yuque.com/boyan-avfmj/aviatorscript/tvahat一、什么是规则引擎定义:规则引擎是一种软件系统,用于执行基于规则的推理。它将业务规则与事实数据相结合,得出结论。组成:规则引擎通常由规则存储库、推理引擎、工作内存 3个部分......

Imitating Language via Scalable Inverse Reinforcement Learning

通过可扩展的逆向强化学习模仿语言

摘要

1 引言

2 方法

相关文章

赞助商

阅读排行