热门
最新
红包
立Flag
投票
同城
我的
发布
RafaK
1 年前
trueweixin_40852426
@一直想飞的cat
- 基于240万条偏好训练
- 多语言:在英语和中文中平衡有用性和有害性 🎉
- 成对偏好
- 奖励基准排名第三
- 多种尺寸:1.8B、7B和20B
下一条:
我一直在想PPO是否能像DPO一样简单。DPO已经有很多很好的偏好数据集,比如UltraFeedback,但PPO的在线学习需要一个奖励模型来评估性能,而好的奖励模型却很少见。🤔幸运的是,@一直想飞的cat 发布了一个奖励模型详情:
立即登录