DPO
核心是省去显式建模reword model的过程,显式建立奖励与策略之间的函数关系,使用偏好数据直接优化策略(llm)
PPO中训练reword model时的损失函数:
\(y_w\)代表好数据(win),\(y_l\)代表差数据(lose)
DPO建立一个奖励和策略的显式函数关系:
\(\pi_r()\)表示需要对齐的llm,\(\pi_ref()\)表示参数被fix的sft模型,\(r()\)表示奖励
推导一步:
带回reword model的函数:
这样就达成了直接用偏好数据,去对齐llm的目的,也符合论文名:Your Language Model is Secretly a Reward Model
IPO
IPO出自2023年10月的deepmind研究院的论文《A General Theoretical Paradigm to Understand Learning from Human Preferences》,论文定义了DPO的通用形式并调整其形式来解决过拟合问题。IPO相当于 在DPO的损失函数上添加了一个正则项
(\(\tau\)与DPO里的\(\beta\)类似)