热门
最新
红包
立Flag
投票
同城
我的
发布
捕风的语后
2 年前
trueweixin_41524441
欢迎来到雅虎/AOL/宠物点康姆的AI时代
下一条:
在lmsys上比较LLMs很有趣,但Elo积分上的10分“领先”意味着一个模型有51.4%的胜率,而100分则意味着有64%的胜率(每分<100的差距为0.14%)。所以要么这不是一个好的衡量标准,要么这些模型之间差异不大。个人认为,我们需要更好的评估方法!
立即登录