网站首页
编程语言
数据库
系统相关
其他分享
编程问答
debater
2024-12-30
解密Prompt45. 再探LLM Scalable Oversight -辩论、博弈哪家强
之前我们已经介绍过几个针对ScalableOversight的解法,也就是当模型能力在部分领域超越人类标注者后,我们该如何继续为模型提供监督信号,包括持续提升Verifier的能力,辅助人类提供监督信号:self-Critic持续提升模型在弱监督下的泛化性:weak-to-strongGeneralization以上两个方向相