Offline Regularised Reinforcement Learning for Large Language Models Alignment

时间：2024-12-08 15:30:18浏览次数：5

标签：提示 LLM Language Models Regularised 响应偏好 DRO 优化

本文是LLM系列文章，针对《Offline Regularised Reinforcement Learning for Large Language Models Alignment》的翻译。

用于大型语言模型对齐的离线正则化强化学习

摘要
1 引言
2 背景
3 直接奖励优化
4 实验
5 相关工作
6 结论和局限性

摘要

无论是通过人类反馈的强化学习还是直接偏好优化，大语言模型（LLM）对齐的主要框架都是从偏好数据中学习。这涉及构建数据集，其中每个元素都是由提示、两个独立响应（提示的完成）以及两个独立响应之间的人类偏好组成的四元组，从而产生首选和不首选的响应。此类数据通常稀缺且收集成本昂贵。另一方面，每个元素都是由提示、响应和人类反馈组成的三元组的单轨迹数据集自然更加丰富。例如，此类数据集的规范元素是LLM对用户提示的响应，然后是用户的反馈，例如赞成/反对。因此，在这项工作中，我们提出 DRO（直接奖励优化）作为不需要成对偏好的框架和相关算法。 DRO 使用简单的均方目标，可以通过多种方式实现。我们使用 T5 编码器-解码器语言模型根据经验验证了我们的发现，并展示了 DRO 在 Kahneman-Tversky Optimization (KTO) 等选定基线上的性能。因此，我们确认 DRO 是一种简单且具有实证说服力的单轨迹政策优化方法。

1 引言

2 背景

3 直接

标签：提示,LLM,Language,Models,Regularised,响应,偏好,DRO,优化
From： https://blog.csdn.net/c_cpp_csharp/article/details/144244286

Analyzing Large language models chatbots: An experimental approach using a proba
本文是LLM系列文章，针对《AnalyzingLargelanguagemodelschatbots:Anexperimentalapproachusingaprobabilitytest》的翻译。分析大型语言模型聊天机器人：使用概率测试的实验方法摘要1引言2理论和相关工作3方法4结果和讨论5最后的考虑摘要本研究......
[如何高效使用AI21 Chat Models：初学者指南]
如何高效使用AI21ChatModels：初学者指南在这个技术飞速发展的时代，了解和使用AI聊天模型对于开发者来说是一个重要的技能。本篇文章将带你深入了解AI21的聊天模型，教会你如何快速上手，并探讨在实际应用中可能会遇到的挑战与解决方案。引言AI21Labs提供了一系列强大的聊天......
最近很新的EasyJailbreak A Unified Framework for Jailbreaking Large Language Mode
整篇文章短小精悍，原文中的链接很有意思~大家去多多尝试哦！......
LoRA论文精读（上） Low-Rank Adaptation of Large Language Models
本篇博客针对LoRA:Low-RankAdaptationofLargeLanguageModels的提出背景和算法原理做了非常清晰简明的讲解，适用于想要快速了解一下LoRA底层方法的学习者。对于原文的实验和未来工作等部分的详细介绍在LoRA论文精读（下）Low-RankAdaptationofLargeLangu......
论文阅读——Probabilistic error cancellation with sparse Pauli-Lindblad models o
创新点稀疏Pauli-Lindblad噪声模型：提出了一种新的稀疏Pauli-Lindblad噪声模型，用于捕获量子处理器上的相关噪声。该模型仅包含与量子处理器拓扑相关的低权重Pauli项（weight-one和weight-twoPauli项），从而减少了模型复杂度并提升了学习效率。可扩展的误差学习和消除协......
综述Security and Privacy Challenges of ✌Large Language Models A Survey
文章较长，阅读时长警告⏰！欢迎大家多多支持&推荐！......
CodeBERT: A Pre-Trained Model for Programming and Natural Languages
本次介绍的论文是《CodeBERT:APre-TrainedModelforProgrammingandNaturalLanguages》原文链接：http://www.semanticscholar.org/paper/0fe2636446cd686830da3d971b31a004d6094b3c源代码和数据集：GitHub-microsoft/CodeBERT:CodeBERT本篇论文主要是介绍了CodeBERT......
Large language models as surrogate models in evolutionary algorithms: A prelimin
用大语言模型作为代理模型进行昂贵计算一、作者本文贡献•提出了一种基于LLM的创新代理模型，用于预测SAEA中新解决方案的质量，利用LLM的推理功能执行回归和分类任务，而无需训练。•引入了LLM辅助SAEA（LAEA）算法，将基于LLM的代理模型集成到SAEA中，以方便选择新的解决......
CLIP-LoRA: Low-Rank Few-Shot Adaptation of Vision-Language Models
文章汇总当前的问题当前的视觉语言模型(VLMs)小样本的研究主要在提示学习和适配器上，这通常依赖于繁重的训练程序(提示学习)和/或精心选择的任务特定超参数(适配器)，这可能会阻碍其适用性。作者在VLMs的小样本学习中引入了低秩自适应(LoRA)，并与当前最先进的基于提示和基于适......
论文泛读《PICCOLO : Exposing Complex Backdoors in NLP Transformer Models》
发表时间：2022期刊会议：IEEESymposiumonSecurityandPrivacy(SP)论文单位：PurdueUniversity论文作者：YingqiLiu,GuangyuShen,GuanhongTao,ShengweiAn,ShiqingMa,XiangyuZhang方向分类：BackdoorAttack论文链接开源代码摘要后门可以被注入到NLP模型中，使得当......

Offline Regularised Reinforcement Learning for Large Language Models Alignment

用于大型语言模型对齐的离线正则化强化学习

摘要

1 引言

2 背景

3 直接

相关文章

赞助商

阅读排行