我一直在想PPO是否能像DPO一样简单。DPO已经有很多很好-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

1 年前

trueweixin_40852426

我一直在想PPO是否能像DPO一样简单。DPO已经有很多很好的偏好数据集，比如UltraFeedback，但PPO的在线学习需要一个奖励模型来评估性能，而好的奖励模型却很少见。🤔

幸运的是，@一直想飞的cat 发布了一个奖励模型

详情：

CSDN App 扫码分享

分享

1

22

复制链接
举报

下一条：

备战25蓝桥第二天