在为时不晚之前，我们能否重新定义RLHF为直接从人类获取反馈-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

2 年前

trueweixin_32022143

在为时不晚之前，我们能否重新定义RLHF为直接从人类获取反馈，而不是从奖励模型中获取？请

目前所称的RLHF，应该被称为RLAIF

目前所称的RLAIF，应该被称为零次RLAIF，因为没有使用反馈例子。

CSDN App 扫码分享

分享

1

29

复制链接
举报

下一条：

为了补充我之前关于以影响为导向的研究的推文，如果你想要从事大型语言模型（LLMs）的基础研究，并且你认为自己能跟上这个超拥挤、过热领域的疯狂节奏，你也可以申请与我一起工作：https://mila.quebec/en/supervision-requests/