ジムファン氏曰く,o1已经出现并进入推论缩放的范式时代!也就是说,以前在AI学习训练中大量使用GPU,但现在将进入一个训练中使用GPU较少,而在推论中大量使用GPU的时代。
1. 推论不再需要巨大的模型。模型的大部分参数只是用于存储知识。这样的话,这些知识可以通过RAG等从外部获取,AI不需要记住这些内容。LLM只需要具备推论能力即可。
2. LLM是基于文本的模拟器。通过在模拟器中进行各种模式的模拟,可以找到最优解。LLM也不仅仅是一击即中的,它可以通过花费推论时间来模拟各种模式,得出最优解。
3. OpenAI早就注意到了推论缩放,最近学界也开始发表这类论文。例如,DeepSeek-Coder的SWE-Bench得分是15.9%,但经过250次推论后,得分提升到56%,超过了Sonnet3.5。PaLM 2-S在经过推论缩放后也超过了参数数量是其14倍的模型。也就是说,即使参数少,但通过大量推论也能取得胜利。
4. o1的机制令人好奇。在基准测试中也许可以通过不断尝试直到得出正确答案,但在普通问题中,它如何判断何时为最终答案?
5. o1可能通过再学习成功和失败的推论流程,变得越来越聪明。OpenAI有自家的聊天服务,因此能够积累这种推论流程的数据,这对他们是一个优势。
→RT