TRL

2024-04-16trl for RLHF
2024-02-15洛谷 P9912 [COCI 2023/2024 #2] Zatopljenje 题解
首先发现区间中的个数等于\(\texttt{高度大于x的位置的个数}-\texttt{连续两个位置都是大于x的位置的个数}\)。具体令\(H_i=\min(h_i,h_{i+1})(i\in[1,n-1])\)，那么对于一次询问答案\(ans=\sum\limits_{i=l}^{r}[h_i>x]-\sum\limits_{i=l}^{r-1}[H_i>x]\)，其
2023-11-13TRL(Transformer Reinforcement Learning) PPO Trainer 学习笔记
(1) PPOTrainerTRL支持PPOTrainer通过RL训练语言模型上的任何奖励信号。奖励信号可以来自手工制作的规则、指标或使用奖励模型的偏好数据。要获得完整的示例，请查看examples/notebooks/gpt2-sentiment.ipynb。Trainer很大程度上受到了原始OpenAIlearningtosummarizewo
2023-10-23使用 DDPO 在 TRL 中微调 Stable Diffusion 模型
引言扩散模型(如DALL-E2、StableDiffusion)是一类文生图模型，在生成图像(尤其是有照片级真实感的图像)方面取得了广泛成功。然而，这些模型生成的图像可能并不总是符合人类偏好或人类意图。因此出现了对齐问题，即如何确保模型的输出与人类偏好(如“质感”)一致，或者与那种难