LLM需要增强的地方
大模型的三大基础能力:
- • 语言理解和表达能力:GPT-3 已解决
- • 世界知识存储:GPT-4已经解决了不少
- • 逻辑推理能力:是最薄弱的环节,o1模型在这方面有明显的进步。
原理
o1模型增强逻辑推理能力的思路是:收到问题后,自动生成CoT,再生成答案。避免人类写基于于CoT的Prompt。
如果让o1获取自动生成CoT的能力,通过强化学习提升模型自动找到正确推理路径的能力。
新的范式?
OpenAI发现:在强化学习的训练和推理过程中,随着计算能力的增加,模型推理效果(如找到正确CoT路径的概率)也会提高。这可能找到RL Scaling。可能不断增强计算能力,有可能进一步增强模型的逻辑推理能力。这可能是一种新的范式。
目标场景
由于增强了逻辑推理能力,o1模型适合编程、数学、物理等场景。但写文章可能反而会差点。有点像偏科的理科生。
我的感觉,o1模型与sonnet 3.5模型在编程上,没有拉开明显的差距。
一系列的模型
- • o1模型:未开放,能力最强
- • o1-preview:ChatGPT(会员)和API(需要消费1000美元以上的土豪)才能访问
- • o1-mini:相比o1-preview,少了很多世界知识,适合不需要大量世界知识的场景,例如编程和数学,而且响应速度也快。
OpenAI应该是会推出一系列“逻辑推理能力更强,更偏科”的模型。
不成熟的模型
o1系列模型还没完全产品化,不支持视觉,不支持流式输出,不支持Function Call等。因此才叫preview。
更贵
o1-preview价格是GPT-4o的4倍。
另外,推理过程中,产生的隐藏Prompt(CoT)也要占用Token。这也会变相增加成本。
模型 | 输入价格 (每百万 tokens) | 输出价格 (每百万 tokens) |
o1-preview | $15 | $60 |
o1-mini | $3 | $12 |
GPT-4o | $5 | $15 |