InternLM报告中有很多真正有趣的细节：-在1000万个-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

1 年前

truedevlewistunstall

InternLM报告中有很多真正有趣的细节：

- 在1000万个示例上进行了SFT（安息吧，LIMA 🪦）
- 根据领域（编码、数学、安全性_）使用不同的系统提示来调节奖励模型并减轻奖励黑客行为
- 奖励模型训练了240万个二元偏好对
- 在约20万个提示上使用PPO算法

总体来看，看到大规模数据在对齐流程的所有阶段中被使用是相当有趣的！

https://huggingface.co/papers/2403.17297

CSDN App 扫码分享

分享

2

49

复制链接
举报

下一条：

【2024.03.27周三】今日完成：✅Python课程学习✅大学英语✅离散数学✅形势与政策考试未完成：①Python程序设计作业②大学英语作文③离散数学作业④计算机网络视频学习⑤计算机组成原理作业⑥采访视频