DPO

2025-01-21大语言模型应用实践：性能与资源的权衡之道
标题：大语言模型应用实践：性能与资源的权衡之道文章信息摘要：文章深入探讨了大型语言模型在实践应用中的多维度权衡。从运行成本、模型特点、部署方案等方面分析了不同选择的优劣势。技术实现上强调了模板设计、缓存优化等细节的重要性，以及RLHF与DPO等训练方法的演进。在评估
2025-01-13微软 Phi-4：小模型的大智慧——技术详解及简单测评
原文：https://zhuanlan.zhihu.com/p/17577753167在人工智能的世界里，大型语言模型（LLMs）一直是科技巨头们竞相追逐的焦点。然而，微软研究院的最新成果——Phi-4，却以14B参数的“小身材”在众多巨无霸模型中脱颖而出。Phi-4不仅在STEM领域的问答能力上超越了其“老师”GPT-4，还在多个
2024-12-22使用PyTorch实现GPT-2直接偏好优化训练：DPO方法改进及其与监督微调的效果对比
基于人类反馈的强化学习(RLHF)已成为大型语言模型(LLM)训练流程中的关键环节，并持续获得研究界的广泛关注。本文将探讨RLHF技术，特别聚焦于直接偏好优化(DirectPreferenceOptimization,DPO)方法，并详细阐述了一项实验研究：通过DPO对GPT-2124M模型进行调优，同时与传统监督微调(Supe
2024-12-17揭秘语言模型后训练：指令微调、偏好调优与强化学习的深度解析
揭秘语言模型后训练：指令微调、偏好调优与强化学习的深度解析前言1.什么是后训练？2.指令微调（InstructionFine-Tuning,SFT）概念训练流程实践示例：TÜLU33.偏好调优（PreferenceTuning,DPO）概念关键步骤DPO的优势实践示例：TÜLU34.强化学习与可验证奖励（RLVR）概念RLVR流
2024-11-27新型大语言模型的预训练与后训练范式，阿里Qwen
前言：大型语言模型（LLMs）的发展历程可以说是非常长，从早期的GPT模型一路走到了今天这些复杂的、公开权重的大型语言模型。最初，LLM的训练过程只关注预训练，但后来逐步扩展到了包括预训练和后训练在内的完整流程。后训练通常涵盖监督指导微调和对齐过程，而这些在ChatGPT的推广下变得广为
2024-07-26偏好对齐
DPO核心是省去显式建模rewordmodel的过程，显式建立奖励与策略之间的函数关系，使用偏好数据直接优化策略（llm）PPO中训练rewordmodel时的损失函数：\(y_w\)代表好数据（win），\(y_l\)代表差数据（lose）DPO建立一个奖励和策略的显式函数关系：\(\pi_r()\)表示需要对齐的llm，\(\pi_ref()\)表
2024-07-11请详述ppo和dpo的区别和优劣|详解ppo原理|
请详述ppo和dpo的区别和优劣AnswerPPO(ProximalPolicyOptimization)和DPO(DirectPreferenceOptimization)是两种用于大型语言模型对齐的算法，它们有以下主要区别和各自的优缺点：主要区别：训练流程：PPO采用多阶段训练：先训练奖励模型，再使用强化学习优化策略。DPO将
2024-06-17LLM大模型: DPO原理和源码解析
1、前段时间国外某大学反向抄袭国内某团队的大模型闹得沸沸扬扬，国内被抄袭的大模型是MiniCPM，详细资料：https://github.com/OpenBMB/MiniCPM；能被国外同行抄袭，必定有过人之处，粗略看了一下https://github.com/OpenBMB/MiniCPM/blob/main/model/modeling_minicpm.py模型文件，发
2024-06-10阿里通义千问 Qwen2 大模型开源发布
阿里通义千问Qwen2大模型开源发布Qwen2系列模型是Qwen1.5系列模型的重大升级。该系列包括了五个不同尺寸的预训练和指令微调模型：Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B以及Qwen2-72B。在中文和英文的基础上，Qwen2系列的训练数据中还增加了其他27种语
2024-04-16ORPO偏好优化：性能和DPO一样好并且更简单的对齐方法
现在有许多方法可以使大型语言模型（LLM）与人类偏好保持一致。以人类反馈为基础的强化学习（RLHF）是最早的方法之一，并促成了ChatGPT的诞生，但RLHF的成本非常高。与RLHF相比，DPO、IPO和KTO的成本明显更低，因为它们不需要奖励模型。虽然DPO和IPO的成本较低，但它们仍需训练两个不同的模型。首
2024-02-22解密prompt系列24. RLHF新方案之训练策略：SLiC-HF & DPO & RRHF & RSO
去年我们梳理过OpenAI，Anthropic和DeepMind出品的经典RLHF论文。今年我们会针对经典RLHF算法存在的不稳定，成本高，效率低等问题讨论一些新的方案。不熟悉RLHF的同学建议先看这里哦解密Prompt7.偏好对齐RLHF-OpenAI·DeepMind·Anthropic对比分析RLHF算法当前存在的一些问题有RL的
2024-01-31LLM面面观之RLHF平替算法DPO
1.背景最近本qiang~老看到一些关于大语言模型的DPO、RLHF算法，但都有些云里雾里，因此静下心来收集资料、研读论文，并执行了下开源代码，以便加深印象。此文是本qiang~针对大语言模型的DPO算法的整理，包括原理、流程及部分源码。2.DPOvsRLHF 上图左边是RLHF算法，右边为DPO算
2024-01-15DPO: Direct Preference Optimization 直接偏好优化（学习笔记）
学习参考：链接1 一、为什么要提出DPO在之前，我们已经了解到基于人类反馈的强化学习RLHF分为三个阶段：全监督微调（SFT）、奖励模型（RM）、强化学习（PPO）。但是RLHF面临缺陷：RLHF是一个复杂且经常不稳定的过程，首先拟合反映人类偏好的奖励模型，然后使用强化学习微调大型无监督LM，以最大
2023-12-28大模型 RLHF 实战！【OpenAI独家绝技RLHF！RLHF的替代算法DPO！Claude 暗黑科技 RAIHF！】
大模型RLHF实战大模型RLHF实战RLHF：OpenAI独家绝技RLHF的问题DPO直接偏好优化算法：RLHF的替代算法公式1-4：KL散度下奖励的最大化目标使用DPO微调Llama2RAIHF 大模型RLHF实战RLHF（基于人类反馈的强化学习）分为3个阶段：预训练：为了生成内容，需要一个生成式的预训练语言模
2023-12-26人类偏好导向：DPO技术重塑SDXL-1.0图像生成
引言在AI领域，适应和理解人类偏好一直是技术发展的重要方向。斯坦福大学研究团队最近提出的Diffusion-DPO方法，旨在将这一理念应用于图像生成模型，特别是在文本到图像的转换领域。Huggingface模型下载:https://huggingface.co/mhdang/AI快站模型免费加速下载:https://aifasthub.com/
2023-12-25dpo笔记
参考:https://blog.csdn.net/chacha_/article/details/134527000这个讲的很好.\(\pi_r\)是我们要的解,我们(4)两边取log得到.y1,y2是两个生成的句子,x是prompt.p是y1比y2好的优化函数.r是reward函数.机器学习里面一个变量右上角写\(*\),就表示他的估计.也就是真实的计算.