热门
最新
红包
立Flag
投票
同城
我的
发布
Wang Hawk
2 年前
trueweixin_32022143
在为时不晚之前,我们能否重新定义RLHF为直接从人类获取反馈,而不是从奖励模型中获取?请
目前所称的RLHF,应该被称为RLAIF
目前所称的RLAIF,应该被称为零次RLAIF,因为没有使用反馈例子。
下一条:
为了补充我之前关于以影响为导向的研究的推文,如果你想要从事大型语言模型(LLMs)的基础研究,并且你认为自己能跟上这个超拥挤、过热领域的疯狂节奏,你也可以申请与我一起工作:
https://mila.quebec/en/supervision-requests/
立即登录