热门
最新
红包
立Flag
投票
同城
我的
发布
【🌟 激动人心的更新!Gemma2-9b + SimPO 在 AlpacaEval 2 中排名第一 (❗LC 72.4),并在同类模型中领先 WildBench 排行榜 🚀
SimPO 在所有基准测试中至少与 DPO 一样具有竞争力(并且通常表现优于 DPO),尽管它非常简单。
✨ 配方:由强大奖励模型注释的在线数据 + SimPO
💪 在聊天基准测试(即 AlpacaEval 2、Arena-Hard 和 WildBench)中表现出色
📈 在 ZeroEval 中保持 GSM8K 和 MMLU 分数
🔢 理解 9.11 大于 9.8
🔗 详细信息请访问 https://github.com/princeton-nlp/SimPO?tab=readme-ov-file
🔬 通过广泛的实验,我们发现:
- gemma-2-9b-it 在微调过程中表现出明显较少的灾难性遗忘,比 Llama-3-8b-Instruct 更能适应不同的学习率
- 使用较小的学习率,DPO 和 SimPO 都可以提升数学领域的表现
- 当 SFT 模型较弱或 PO 数据噪声较大时,SimPO 相比 DPO 有较大提升。当模型和数据质量提高时,这个差距会缩小。
- 我们还对预印本进行了多项重大更新,增加了更多基准(如 RRHF、SLiC-HF 和 CPO),进行了 KL 散度分析,因为 SimPO 没有正则化,并研究了添加额外 SFT 项的影响。
🌟 我们的预印本中有更多见解:https://arxiv.org/abs/2405.14734。我们欢迎反馈并期待讨论!
这是与 @瑞德西韦 和 @鬥戰勝佛唐伯虎 的联合工作。非常感谢 @量投科技-于少伟 @明智之光 @裘玉缘 @isotone 维护这些出色的基准测试!】
CSDN App 扫码分享
5
58
- 复制链接
- 举报