热门

最新

红包

立Flag

投票

同城

我的

发布
devtekniume
Teknium1
2 年前
truedevtekniume

你所看到的是在第一个阶段达到70%的基线,通过(可能是MCTS方法)可以提高到90%,然后进行安全调优时,会损失50%的收益,最终降到第一个阶段的80%。能力/成本减少50%会不会成为继续当前“安全”RLHF(强化学习与人类反馈)太强的动机?你会认为保持这种动机太强了,不会继续下去。

CSDN App 扫码分享
分享
7
89
  • 复制链接
  • 举报
下一条动态
立即登录