使用RLHF(奖励模型学习)替代指令微调的一个激励性启发,来自John的演讲:如果监督目标超出了预训练模型的权重范围,微调会鼓励其产生幻觉。https://www.youtube.com/watch?v=hhiLw5Q_UFg&t=3406s