DPO

核心是省去显式建模reword model的过程，显式建立奖励与策略之间的函数关系，使用偏好数据直接优化策略（llm）

PPO中训练reword model时的损失函数：

\(y_w\)代表好数据（win），\(y_l\)代表差数据（lose）

DPO建立一个奖励和策略的显式函数关系：

\(\pi_r()\)表示需要对齐的llm，\(\pi_ref()\)表示参数被fix的sft模型，\(r()\)表示奖励

推导一步：

带回reword model的函数：

这样就达成了直接用偏好数据，去对齐llm的目的，也符合论文名：Your Language Model is Secretly a Reward Model

IPO

IPO出自2023年10月的deepmind研究院的论文《A General Theoretical Paradigm to Understand Learning from Human Preferences》，论文定义了DPO的通用形式并调整其形式来解决过拟合问题。IPO相当于在DPO的损失函数上添加了一个正则项

（\(\tau\)与DPO里的\(\beta\)类似）

KTO

标签：IPO,偏好,llm,显式,DPO,对齐,model
From： https://www.cnblogs.com/shiiiilong/p/18325539

结构体中的内存对齐
什么是内存对齐计算机中内存的地址空间是按照byte来划分的，从理论上讲对任何类型变量的访问可以从内存中的任意地址开始，但实际情况是：在访问特定类型变量的时候通常在特定的内存地址访问，这就需要对这些数据在内存中存放的位置进行限制，各种类型数据按照一定的规则在空间上排列，而不......
力扣68. 文本左右对齐
给定一个单词数组 words 和一个长度 maxWidth ，重新排版单词，使其成为每行恰好有 maxWidth 个字符，且左右两端对齐的文本。你应该使用“贪心算法”来放置给定的单词；也就是说，尽可能多地往每行中放置单词。必要时可用空格 '' 填充，使得每行恰好有 maxWidth 个字符。要......
OLOR：已开源，向预训练权值对齐的强正则化方法 | AAAI 2024
随着预训练视觉模型的兴起，目前流行的视觉微调方法是完全微调。由于微调只专注于拟合下游训练集，因此存在知识遗忘的问题。论文提出了基于权值回滚的微调方法OLOR（OnestepLearning,OnestepReview），把权值回滚项合并到优化器的权值更新项中。这保证了上下游模型权值范围的一致性，有......
IDEA解决java注释顶格、xml注释右对齐+无空格问题
先配置java中注释格式：然后是配置xml中的注释格式：还是CodeStyle，从java往下滑动到xml......
爱思唯尔模板 LATEX 表格标题左对齐
爱思唯尔模板LATEX表格标题左对齐1.问题描述2.解决方法1.问题描述若出现表格标题如下居中形式，想要变成左对齐的形式。2.解决方法在\begin{document}前面加上\usepackage[font=small,labelfont=bf,labelsep=none]{caption}\captionsetup[table]{labelforma......
跨模态特征对齐实现高级声源定位
关键词：声源定位、跨模态对齐、跨模态学习、音视频学习人类可以轻松地确定声音的来源，例如通过关注声音的方向并将其与视觉信息联系起来。声音来源定位在视觉场景中具有重要的应用价值，例如语音识别、视频监控和虚拟现实等。最近的研究指出了现有声源定位基准测试中的......
1003：对齐输出题解
题目链接题目描述读入三个整数，按每个整数占\(8\)个字符的宽度，右对齐输出它们，按照格式要求依次输出三个整数，之间以一个空格分开。解题思路由于我们不知道这个数有多大，所以我们可以用printf自带的占位符%xd输出，其中x为位数。例：printf("%3d",a);就是占用3位。题目要求为\(8\)位......
pytorch 自定义 dataloader 维度不对齐+广播机制导致不易察觉 bug
很简单，自定义了一个dataloader，出现以下不易察觉buginputs维度：[bs,4]，这个没问题labels维度：正确应该是[bs,1]，但是dataloader出来是[bs]模型的outputs维度：[bs，1]如果用torch.mean(torch.abs(labels-outputs))计算L1Loss/MAE由于pytorch的广播机制，torch.ab......
Element-plus中 Pagination 分页组件国际化和对齐方式设置
一、国际化设置官方提供的两种方式：1.全局配置importElementPlusfrom'element-plus'importzhCnfrom'element-plus/es/locale/lang/zh-cn'app.use(ElementPlus,{locale:zhCn,})2.ConfigProvider按需引入1)引入ElConfigProvider和中文包2）用ElConfigProvider......
数组是缓存对齐的特征
Anarrayiscache-aligned：Thesizeofeacharrayelementmatchesthesizeofthecacheblock.Thestartingaddressofthearrayisamultipleofthecacheblocksize.Let'selaborateonthesepoints:ArrayElementSizeMatchesCacheBlockSizeI......

偏好对齐

DPO

IPO

KTO

相关文章

赞助商

阅读排行