想象你在培训一个超级助理
假设你新买了一个智能管家机器人,它已经看过海量的书籍和资料(这就是预训练过程)。但是呢,它还不太懂得"做人的艺术"——不知道该用什么语气说话、怎么回应你的需求。
现在你要训练它成为一个得体的助理,这就是SFT要做的事情。
SFT其实就是在教机器人"做人"
训练过程大概是这样的:
你:天气真好啊!
理想回复:是的呢!今天阳光明媚,特别适合出去散步。需要我帮您查查附近有什么适合散步的地方吗?
糟糕回复:根据气象数据显示,当前气温23.5度,湿度45%,风速3级...
通过这样的示例,我们在教机器人:不要像个气象站一样冰冷地报数据,要学会共情,给出温暖的回应,要懂得适时提供帮助。