热门

最新

红包

立Flag

投票

同城

我的

发布
weixin_37000898
一个小老虎
3 年前
trueweixin_37000898

使用RLHF(奖励模型学习)替代指令微调的一个激励性启发,来自John的演讲:如果监督目标超出了预训练模型的权重范围,微调会鼓励其产生幻觉。
https://www.youtube.com/watch?v=hhiLw5Q_UFg&t=3406s

CSDN App 扫码分享
分享
评论
9
  • 复制链接
  • 举报
下一条:
HyperDreamBooth 海报今天在 17:15(海报 168)🚀
立即登录