北大&阿里最新LLM偏好学习调研报告

时间：2024-09-10 12:50:26浏览次数：16

标签：北大收集模型反馈偏好阿里 LLM policy 数据

《Towards a Unified View of Preference Learning for Large Language Models: A Survey》

链接：https://arxiv.org/pdf/2409.02795

github：https://github.com/kbsdjames/awesome-LLM-preference-learning

摘要

大型语言模型（LLMs）展现出强大的能力，但要实现与人类偏好的对齐，往往需要少量数据来有效提升性能。
研究领域分散，方法复杂，不同方法间的关系尚未充分探索。
本文提出了一个统一框架，将偏好学习策略分解为模型、数据、反馈和算法四个组成部分，以促进对现有算法的深入理解并探索不同策略的协同优势。

内容概述

引言：介绍了LLMs的能力和偏好对齐的必要性。
定义和公式化：定义了偏好学习的目标和过程。
统一视角：提出了一个统一的框架，将偏好学习分解为数据-反馈信号-反馈优化-评估四个组成部分。
并对目前的反馈偏好学习进行了系统的总结归纳
偏好数据：讨论了在线（on-policy）和离线（off-policy）数据收集方法。
- 偏好数据的收集被分为两大类：在线（On-policy）数据收集和离线（Off-policy）数据收集。下面详细介绍这两种数据收集方法：
- 在线（On-policy）数据收集
  
  在线数据收集指的是直接从语言模型本身实时生成数据。这种方法类似于在线强化学习中的策略，其中模型通过与环境的实时交互来收集数据。具体步骤包括：
  - 采样策略：使用不同的采样策略（如Top-K/Nucleus Sampling、Beam Search、Monte Carlo Tree Search等）来生成多样化的数据。
  - 环境反馈：模型生成的数据会实时与环境（如用户或其他评估系统）交互，以获得关于生成数据的偏好反馈。
  - 实时更新：根据环境的反馈，模型可以实时更新其参数，以更好地符合用户的偏好。
- 离线（Off-policy）数据收集
  
  离线数据收集则是在模型训练过程之外独立进行的，通常使用预先收集好的数据集，或者利用初始模型生成的数据。这种方法不依赖于模型的实时反馈，而是使用已有的数据集进行训练。具体步骤包括：
  - 人类标注数据：从人类标注者处获取数据，这些数据集通常包含了问题和对应的偏好标签。
  - 利用高级LLMs生成数据：使用更高级的语言模型来模拟人类偏好，生成大量的偏好数据。
  - 数据集构建：通过上述两种方式，构建包含丰富偏好信息的数据集，这些数据集可以在模型训练前准备好，用于离线训练。
- 具体实例
  - 人类标注数据：例如，Webgpt、OpenAI的Human Preferences、HH-RLHF、SHP等数据集，它们通过人类评估员对模型生成的回答进行评分或选择，从而获得偏好数据。
  - LLM生成数据：例如，RLAIF、Open-Hermes-Preferences、ULTRAFEEDBACK、UltraChat等项目，它们利用高级语言模型生成偏好数据，这些数据可以用于训练和优化模型。
- 通过这两种方法，研究者可以收集到反映人类偏好的数据，进而训练出更符合用户期望的语言模型。这些数据收集方法的选择取决于具体的应用场景、资源可用性以及对实时性的需求。
反馈：介绍了直接反馈和基于模型的反馈，包括奖励模型、成对评分模型和LLM作为评判。
算法：详细讨论了pointwise方法、pairwise对比、listwise对比和无训练对齐等算法。
- 其中有趣的是各家loss函数的设计都很雷同，本质是ltr loss
评估：探讨了基于规则的评估和基于LLM的评估方法。

未来研究方向

提高偏好数据的质量和多样性。
可靠的反馈和可扩展的监督。
先进的偏好学习算法。
更全面的LLM评估方法。

标签：北大,收集,模型,反馈,偏好,阿里,LLM,policy,数据
From： https://blog.csdn.net/jude2013/article/details/142092334

RLPF：用于LLM用户摘要的预测反馈
《RLPF:ReinforcementLearningfromPredictionFeedbackforUserSummarizationwithLLMs》链接：https://arxiv.org/pdf/2409.04421文章介绍了一种新的强化学习方法RLPF（ReinforcementLearningfromPredictionFeedback），用于优化大型语言模型（LLMs）生成的用户摘要，以提高下......
【LLM训练系列】从零开始训练大模型之Phi2-mini-Chinese项目解读
一、前言本文主要是在复现和实践Phi2-mini-Chinese后，简要分析下Phi2-mini-Chinese这个项目，做一个学习实战总结。原文发布于知乎：https://zhuanlan.zhihu.com/p/718307193，转载请注明出数。Phi2-mini-Chinese简介Phi2-Chinese-0.2B从0开始训练自己的Phi2中文小模型，支持接入langc......
Java 结合vue 和阿里写一个短信验证码功能
要实现一个基于Java、Vue和阿里云的短信验证码功能，需要完成几个步骤。这个功能通常包括前端（Vue.js）和后端（JavaSpringBoot）部分，以及阿里云短信服务的集成。以下是一个大致的实现步骤：前提条件阿里云账户：需要有一个阿里云账户，并开通了短信服务。Java开发环境：确保有Java开发环境和......
BinLLM论文阅读笔记
Text-likeEncodingofCollaborativeInformationinLargeLanguageModelsforRecommendation论文阅读笔记Abstract现存的问题：在调整用于推荐的大型语言模型（LLMRec）时，整合协作信息至关重要。现有的方法通过从头开始学习LLM潜在空间中的协作嵌入或通过外部模型的映射来......
阿里巴巴中国站商品搜索API返回值解析与实战
阿里巴巴中国站（现通常指1688.com）是一个大型的B2B电商平台，为企业和商家提供商品交易、供应链服务等。然而，需要注意的是，阿里巴巴官方并不直接提供公开的API接口给所有开发者进行商品搜索等高级功能，这些服务通常需要通过官方合作伙伴计划或特定服务接口来获取。不过，为了回答你的问题，我......
阿里云服务器镜像，有大用处
大家好，我是小悟有时候阿里云旧服务器快到期了，想把项目、数据、软件挪到新服务器上，如果全部重新搭建的话，那无疑是耗时又费力。有了镜像迁移，就方便了许多。新旧服务器的类型要一致，比如都是ECS服务器，所属地域要选一样的。新服务器在配置上最好不低于旧服务器，不然可能会出现未......
LLM面试题汇总
LLM相关LLM基础zeroshot、oneshot、threeshot是什么zeroshot:零样本学习。对于模型没有见过的图像，通过已有的图像和特征相关联，从而判别新的图片fewshot:少样本学习。通过判断测试样本与训练样本的相似性，来推测测试样本属于什么类bf16和fp16有什么区别LLM微......
训练框架技术序列一：Megtron-LLM架构源码
本文章涉及的Megatron-llm的XMind思维导图源文件和PDF文件，可在网盘下载：https://pan.baidu.com/s/1xRZD-IP95y7-4Fn0C_VJMg提取码:qxff一、引言Megatron-Core是一个基于PyTorch的开源库，专为在NVIDIAGPU上高效训练大型语言模型（LLMs）而设计。它提供了一系列GPU优化的训......
【LLM大模型】转行大模型：趋势、必要性及可行路径
在当今这个数字化快速发展的时代，人工智能（AI）尤其是大规模预训练模型（大模型），已经成为推动科技进步和产业变革的重要力量。对于各行各业的技术从业者而言，转行大模型不仅是适应行业趋势的需要，更是自我提升与职业发展的必经之路。转行大模型的必要性市场需求的增长：随着人工智能......
Transformer、RNN和SSM的相似性探究：揭示看似不相关的LLM架构之间的联系
通过探索看似不相关的大语言模型(LLM)架构之间的潜在联系,我们可能为促进不同模型间的思想交流和提高整体效率开辟新的途径。尽管Mamba等线性循环神经网络(RNN)和状态空间模型(SSM)近来备受关注,Transformer架构仍然是LLM的主要支柱。这种格局可能即将发生变化:像Jamba、Samba和G......

北大&阿里最新LLM偏好学习调研报告

摘要

内容概述

未来研究方向

相关文章

赞助商

阅读排行