大多数人不懂代码——而且他们也不再需要懂了使用的内置AI，你-CSDN blink-领先的开发者技术社区

ZeroEval 排行榜更新：🚨• GSM8K 已被 MATH（第 5 级）替换为主表中的数学推理任务。• 新增模型：Gemini-1.5-pro-exp-0827 (@头秃搞学习)、ChatGPT-4o-latest (@openai)、DeepSeek v2.5 (@2001室的库布里克)、L3.1-450B (@言午开店)、Phi-3.5 (@passage T) 等。• 改进了网页界面（感谢 @wxy百年孤独 Sonnet 3.5）。✨ 亮点：• Gemini-pro-0827 在 MATH-L5 上领先，但在逻辑推理和代码理解方面仍有提升空间。• OpenAI 的新 API ChatGPT-4o-latest 成本高，但只比 GPT-4o-0806 略好。• L3.1-405B 介于 Sonnet 3.5 和 GPT-4-turbo-0409 之间。🕙 接下来：• 一项新的常识推理基准测试即将推出。🔗 @pakerface:

https://hf.co/spaces/allenai/ZeroEval

https://github.com/yuchenlin/ZeroEval