热门

最新

红包

立Flag

投票

同城

我的

发布
weixin_40852426
RafaK
1 年前
trueweixin_40852426

我一直在想PPO是否能像DPO一样简单。DPO已经有很多很好的偏好数据集,比如UltraFeedback,但PPO的在线学习需要一个奖励模型来评估性能,而好的奖励模型却很少见。🤔

幸运的是,
@一直想飞的cat 发布了一个奖励模型

详情:

CSDN App 扫码分享
分享
1
22
  • 复制链接
  • 举报
下一条:
备战25蓝桥第二天
立即登录