热门

最新

红包

立Flag

投票

同城

我的

发布
devtekniume
Teknium1
2 年前
truedevtekniume

所有的“安全”强化学习通过人类反馈 (RLHF) 显然导致了模型的模式崩溃,对搜索(和创造力)造成了真正的损害——开放模型在这方面有巨大的优势。

我想知道需要经过多少次训练才能从缓解训练中对创造力的破坏中恢复过来。

CSDN App 扫码分享
分享
14
148
  • 复制链接
  • 举报
下一条:
另外,还有一个重要的事情我忘记了。可能输出的 tokens 数量是非常巨大的:o1-preview:最多 32,768 个 tokenso1-mini:最多 65,536 个 tokens。两者都有 128k 的总上下文窗口。
立即登录