哇哦！！刚刚把Qwen2-7B用在ElyzaTasks100-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

2 年前

trueweixin_41975548

哇哦！！刚刚把Qwen2-7B用在ElyzaTasks100上，得到了4.01的分数！！！！新的传奇开始了…。从回答来看，确实和GLM4-9B一样，回答中没有夹杂中文。

CSDN App 扫码分享

分享

评论

9

复制链接
举报

下一条：

诶…Opus的MMLU-PRO得分是68.4，而Qwen2-72B的得分是64.4，已经非常接近了…真的吗？Llama3-70B是56.2分。不过MMLU-PRO对之前的模型评估表现还不错，但对后来的模型来说，最终还是能作弊吧？　→RT