🚀Mike的每日文章 27.09.24: ⚡️🚀
REWARD-ROBUST RLHF IN LLMS
🎯今天的评论涉及一个与昨天(26.09.24)的评论非常相似的话题。评论的主题是通过RLHF(基于人类反馈的强化学习)训练期间改善语言模型的对齐。本文也提出了一种“修正”奖励函数的方法,但角度与我们之前评论的文章略有不同。
🎯作者指出,在RLHF训练期间使用单一的奖励函数并不是最优的,原因有几个。第一个原因是,在用于RLHF训练的数据标注过程中,标注者之间的不一致可能导致模型训练后的回答“混乱”。第二个问题是模型的奖励黑客行为,即模型学会给出最大化奖励函数的回答,而这些回答并不与标注者的偏好对齐或不合理。
🎯本文从贝叶斯的视角处理这一问题。如果我们假设存在一个我们无法获取的理想奖励函数,那么我们可以将任何构建的奖励函数视为“噪声奖励函数空间”的一个样本。作者建议通过训练多个奖励函数来量化我们对奖励函数的不确定性。
🎯那么,这一切是如何运作的呢?首先,通过标准的Bradley-Terry公式训练一个常规的奖励函数。
🎯然后,训练多个奖励函数来模拟我们的不确定性。为此,使用一个普通的backbone(语言模型),并添加几个头(heads),每个头实际上是一个奖励函数。每个头被训练来输出奖励值的均值和方差,奖励值本身是从它们定义的高斯分布中抽取的。
🎯他们用于训练这些头的损失函数相当复杂,但总体上是最小化奖励值估计的平方误差(这有点复杂,依赖于第一步中的标准奖励函数以及Bradley-Terry方法)。在训练期间,每个样本被随机分配(导航)到某个头,从而我们得到多个奖励函数。
作者说他们“希望”(并且他们在他们的玩具示例中使用了这一做法)构建RLHF训练的损失函数作为常规奖励函数和所有奖励函数中最小奖励的线性组合。在这里,第二项实际上是我们上面讨论的不确定性的估计。在RLHF训练期间,他们选择奖励函数中方差最小的奖励值。
https://www.arxiv.org/abs/2409.15360
- 复制链接
- 举报