AI 对齐将 AI 引导向人类的目标和价值观。在最近的一篇观点文章中,我们提请注意所有此类努力中一个基本的挑战:“AI 对齐悖论”——更好对齐的模型更容易失去对齐。📝https://arxiv.org/pdf/2405.20806👇如下例👇