OpenAI 的新 o1 模型令人印象深刻!博客中提到 o1 是通过强化学习(RL)来训练学习优化的,这让我想起了我在 ICLR 2024 的论文。我们的论文也使用 RL 来教模型优化它们的响应!https://arxiv.org/abs/2310.00898在 RL 领域还有很多可以探索的!