所有的“安全”强化学习通过人类反馈(RLHF)显然导致了模型-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

2 年前

truedevtekniume

所有的“安全”强化学习通过人类反馈 (RLHF) 显然导致了模型的模式崩溃，对搜索（和创造力）造成了真正的损害——开放模型在这方面有巨大的优势。

我想知道需要经过多少次训练才能从缓解训练中对创造力的破坏中恢复过来。

CSDN App 扫码分享

分享

14

148

复制链接
举报

下一条：

另外，还有一个重要的事情我忘记了。可能输出的 tokens 数量是非常巨大的：o1-preview：最多 32,768 个 tokenso1-mini：最多 65,536 个 tokens。两者都有 128k 的总上下文窗口。