ZeroEval排行榜更新：🚨•GSM8K已被MATH（第-CSDN blink-领先的开发者技术社区

最新

红包

立Flag

投票

同城

我的

发布

2 年前

truedevbillyuchenlin

ZeroEval 排行榜更新：🚨

• GSM8K 已被 MATH（第 5 级）替换为主表中的数学推理任务。
• 新增模型：Gemini-1.5-pro-exp-0827 (@头秃搞学习)、ChatGPT-4o-latest (@openai)、DeepSeek v2.5 (@2001室的库布里克)、L3.1-450B (@言午开店)、Phi-3.5 (@passage T) 等。
• 改进了网页界面（感谢 @wxy百年孤独 Sonnet 3.5）。

✨ 亮点：

• Gemini-pro-0827 在 MATH-L5 上领先，但在逻辑推理和代码理解方面仍有提升空间。
• OpenAI 的新 API ChatGPT-4o-latest 成本高，但只比 GPT-4o-0806 略好。
• L3.1-405B 介于 Sonnet 3.5 和 GPT-4-turbo-0409 之间。

🕙 接下来：

• 一项新的常识推理基准测试即将推出。

🔗 @pakerface: https://hf.co/spaces/allenai/ZeroEval
💻 GitHub: https://github.com/yuchenlin/ZeroEval

🧭 ZeroEval 是一个用于基准测试 LLMs 在各种推理任务中的统一框架。我们的目标是在零样本 CoT 提示中评估 LLMs，鼓励它们在响应中进行结构化推理。

CSDN App 扫码分享

6

70

下一条：