本人只做点业务数据sft, 做的更加偏向于粗糙业务,直接被拷打麻了,望佬看到可以给我指点一下
- 现在有一个非常完备的sft指令集,你只能选择1w条,你如何选择数据来使模型的能力更加提升+完备?
- 我们知道sft的时候尽量不要注入知识给模型,因为只希望sft可以提升模型的指令遵循的能力,注入知识的话,可能会导致后面使用的时候模型容易出现幻觉,那我们怎么确保自己选择的这1w条数据没注入知识给模型呢?
- 7b和13b模型微调同一批数据,学习率哪个大?
- Pretrain/sft/ppo学习率怎么变换?
- 学习率和batch大小变化一致吗?
- 做表征学习的时候,模型坍塌的原因?
- 为什么做rm的时候,用不同的小模型大模型来采样生成后训练出来的rm会比以前那种方法奏效?这很反直觉,因为按照直觉来说的话,这种方式可能会让rm偏向某个权威的模型
- 现在有很多种方法,有做完pt直接做rlhf的,也有按班就步的pt-sft-rlhf的,还有直接不做rlhf的,你觉得为什么这些方法都有效,你觉得是什么原因造成的?