所有的“安全”强化学习通过人类反馈 (RLHF) 显然导致了模型的模式崩溃,对搜索(和创造力)造成了真正的损害——开放模型在这方面有巨大的优势。我想知道需要经过多少次训练才能从缓解训练中对创造力的破坏中恢复过来。