我一直在想PPO是否能像DPO一样简单。DPO已经有很多很好的偏好数据集,比如UltraFeedback,但PPO的在线学习需要一个奖励模型来评估性能,而好的奖励模型却很少见。🤔幸运的是,@一直想飞的cat 发布了一个奖励模型详情: