-基于240万条偏好训练-多语言：在英语和中文中平衡有用性和-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

1 年前

trueweixin_40852426

@一直想飞的cat - 基于240万条偏好训练
- 多语言：在英语和中文中平衡有用性和有害性 🎉
- 成对偏好
- 奖励基准排名第三
- 多种尺寸：1.8B、7B和20B

CSDN App 扫码分享

分享

1

19

复制链接
举报

下一条：

我一直在想PPO是否能像DPO一样简单。DPO已经有很多很好的偏好数据集，比如UltraFeedback，但PPO的在线学习需要一个奖励模型来评估性能，而好的奖励模型却很少见。🤔幸运的是，@一直想飞的cat 发布了一个奖励模型详情：