热门

最新

红包

立Flag

投票

同城

我的

发布
devlewistunstall
Dev想睡死
1 年前
truedevlewistunstall

InternLM报告中有很多真正有趣的细节:

- 在1000万个示例上进行了SFT(安息吧,LIMA 🪦)
- 根据领域(编码、数学、安全性_)使用不同的系统提示来调节奖励模型并减轻奖励黑客行为
- 奖励模型训练了240万个二元偏好对
- 在约20万个提示上使用PPO算法

总体来看,看到大规模数据在对齐流程的所有阶段中被使用是相当有趣的!

https://huggingface.co/papers/2403.17297

CSDN App 扫码分享
分享
2
49
  • 复制链接
  • 举报
下一条:
【2024.03.27周三】今日完成:✅Python课程学习✅大学英语✅离散数学✅形势与政策考试未完成:①Python程序设计作业②大学英语作文③离散数学作业④计算机网络视频学习⑤计算机组成原理作业⑥采访视频
立即登录