介绍SimPO:更简单、更有效的偏好优化!🎉显著超越DPO,无需参考模型!📈Llama-3-8B-SimPO在排行榜中名列前茅!💪✅在AlpacaEval 2上的LC胜率为44.7%✅在Arena-Hard上的胜率为33.8%https://arxiv.org/abs/2405.14734🧵[1/n]