热门

最新

红包

立Flag

投票

同城

我的

发布
weixin_41975548
umiyuki_ai
2 年前
trueweixin_41975548

哇哦!!刚刚把Qwen2-7B用在ElyzaTasks100上,得到了4.01的分数!!!!新的传奇开始了…。从回答来看,确实和GLM4-9B一样,回答中没有夹杂中文。

CSDN App 扫码分享
分享
评论
9
  • 复制链接
  • 举报
下一条:
诶…Opus的MMLU-PRO得分是68.4,而Qwen2-72B的得分是64.4,已经非常接近了…真的吗?Llama3-70B是56.2分。不过MMLU-PRO对之前的模型评估表现还不错,但对后来的模型来说,最终还是能作弊吧? →RT
立即登录