【🌟激动人心的更新！Gemma2-9b+SimPO在Alp-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

一路向南UFO

2 年前

trueweixin_41557360

【🌟 激动人心的更新！Gemma2-9b + SimPO 在 AlpacaEval 2 中排名第一 (❗LC 72.4)，并在同类模型中领先 WildBench 排行榜 🚀

SimPO 在所有基准测试中至少与 DPO 一样具有竞争力（并且通常表现优于 DPO），尽管它非常简单。

✨ 配方：由强大奖励模型注释的在线数据 + SimPO
💪 在聊天基准测试（即 AlpacaEval 2、Arena-Hard 和 WildBench）中表现出色
📈 在 ZeroEval 中保持 GSM8K 和 MMLU 分数
🔢 理解 9.11 大于 9.8

🔗 详细信息请访问 https://github.com/princeton-nlp/SimPO?tab=readme-ov-file

🔬 通过广泛的实验，我们发现：
- gemma-2-9b-it 在微调过程中表现出明显较少的灾难性遗忘，比 Llama-3-8b-Instruct 更能适应不同的学习率
- 使用较小的学习率，DPO 和 SimPO 都可以提升数学领域的表现
- 当 SFT 模型较弱或 PO 数据噪声较大时，SimPO 相比 DPO 有较大提升。当模型和数据质量提高时，这个差距会缩小。
- 我们还对预印本进行了多项重大更新，增加了更多基准（如 RRHF、SLiC-HF 和 CPO），进行了 KL 散度分析，因为 SimPO 没有正则化，并研究了添加额外 SFT 项的影响。

🌟 我们的预印本中有更多见解：https://arxiv.org/abs/2405.14734。我们欢迎反馈并期待讨论！

这是与 @瑞德西韦和 @鬥戰勝佛唐伯虎的联合工作。非常感谢 @量投科技-于少伟 @明智之光 @裘玉缘 @isotone 维护这些出色的基准测试！】

CSDN App 扫码分享

分享

5

58

复制链接
举报

下一条：

你已经看过 Weaviate 的演示页面了吗？🚀探索实际用例，如 RAG 应用、推荐系统等。获取灵感并开始构建吧！贡献或提交你自己的项目以在我们的 Build with Weaviate 页面上展示！https://weaviate.io/community/demos