热门
最新
红包
立Flag
投票
同城
我的
发布
umiyuki_ai
2 年前
trueweixin_41975548
哇哦!!刚刚把Qwen2-7B用在ElyzaTasks100上,得到了4.01的分数!!!!新的传奇开始了…。从回答来看,确实和GLM4-9B一样,回答中没有夹杂中文。
下一条:
诶…Opus的MMLU-PRO得分是68.4,而Qwen2-72B的得分是64.4,已经非常接近了…真的吗?Llama3-70B是56.2分。不过MMLU-PRO对之前的模型评估表现还不错,但对后来的模型来说,最终还是能作弊吧? →RT
立即登录