你所看到的是在第一个阶段达到70%的基线,通过(可能是MCTS方法)可以提高到90%,然后进行安全调优时,会损失50%的收益,最终降到第一个阶段的80%。能力/成本减少50%会不会成为继续当前“安全”RLHF(强化学习与人类反馈)太强的动机?你会认为保持这种动机太强了,不会继续下去。