热门

最新

红包

立Flag

投票

同城

我的

发布
weixin_32022143
Wang Hawk
2 年前
trueweixin_32022143

在为时不晚之前,我们能否重新定义RLHF为直接从人类获取反馈,而不是从奖励模型中获取?请

目前所称的RLHF,应该被称为RLAIF

目前所称的RLAIF,应该被称为零次RLAIF,因为没有使用反馈例子。

CSDN App 扫码分享
分享
1
29
  • 复制链接
  • 举报
下一条:
为了补充我之前关于以影响为导向的研究的推文,如果你想要从事大型语言模型(LLMs)的基础研究,并且你认为自己能跟上这个超拥挤、过热领域的疯狂节奏,你也可以申请与我一起工作:https://mila.quebec/en/supervision-requests/
立即登录