使用RLHF（奖励模型学习）替代指令微调的一个激励性启发，来-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

一个小老虎

3 年前

trueweixin_37000898

使用RLHF（奖励模型学习）替代指令微调的一个激励性启发，来自John的演讲：如果监督目标超出了预训练模型的权重范围，微调会鼓励其产生幻觉。
https://www.youtube.com/watch?v=hhiLw5Q_UFg&t=3406s

CSDN App 扫码分享

分享

评论

9

复制链接
举报

下一条：

HyperDreamBooth 海报今天在 17:15（海报 168）🚀