热门
最新
红包
立Flag
投票
同城
我的
发布
ZeroEval 排行榜更新:🚨
• GSM8K 已被 MATH(第 5 级)替换为主表中的数学推理任务。
• 新增模型:Gemini-1.5-pro-exp-0827 (@头秃搞学习)、ChatGPT-4o-latest (@openai)、DeepSeek v2.5 (@2001室的库布里克)、L3.1-450B (@言午开店)、Phi-3.5 (@passage T) 等。
• 改进了网页界面(感谢 @wxy百年孤独 Sonnet 3.5)。
✨ 亮点:
• Gemini-pro-0827 在 MATH-L5 上领先,但在逻辑推理和代码理解方面仍有提升空间。
• OpenAI 的新 API ChatGPT-4o-latest 成本高,但只比 GPT-4o-0806 略好。
• L3.1-405B 介于 Sonnet 3.5 和 GPT-4-turbo-0409 之间。
🕙 接下来:
• 一项新的常识推理基准测试即将推出。
🔗 @pakerface: https://hf.co/spaces/allenai/ZeroEval
💻 GitHub: https://github.com/yuchenlin/ZeroEval
🧭 ZeroEval 是一个用于基准测试 LLMs 在各种推理任务中的统一框架。我们的目标是在零样本 CoT 提示中评估 LLMs,鼓励它们在响应中进行结构化推理。
CSDN App 扫码分享
6
70
- 复制链接
- 举报