在lmsys上比较LLMs很有趣，但Elo积分上的10分“领-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

捕风的语后

2 年前

trueweixin_41524441

在lmsys上比较LLMs很有趣，但Elo积分上的10分“领先”意味着一个模型有51.4%的胜率，而100分则意味着有64%的胜率（每分<100的差距为0.14%）。所以要么这不是一个好的衡量标准，要么这些模型之间差异不大。个人认为，我们需要更好的评估方法！

CSDN App 扫码分享

分享

评论

9

复制链接
举报

下一条：

欢迎大家回来 🌚在我们离开的这段时间里：- DSN UI 团队在 @DataScienceNIG、壳牌和雪佛龙主办的 AI4Energy 黑客松中获胜- 我们在 DSN AI 训练营 2021 中被评为年度 AI 学校- 我们每天都想念你 😂