热门

最新

红包

立Flag

投票

同城

我的

发布
devbentossell
bentossell
2 年前
truedevbentossell

大多数人不懂代码——而且他们也不再需要懂了

使用
@Repog的内置AI,你可以在4个步骤内搞懂Github仓库

以下是方法(收藏此帖) ⤵️

CSDN App 扫码分享
分享
11
122
  • 复制链接
  • 举报
下一条:
ZeroEval 排行榜更新:🚨• GSM8K 已被 MATH(第 5 级)替换为主表中的数学推理任务。• 新增模型:Gemini-1.5-pro-exp-0827 (@头秃搞学习)、ChatGPT-4o-latest (@openai)、DeepSeek v2.5 (@2001室的库布里克)、L3.1-450B (@言午开店)、Phi-3.5 (@passage T) 等。• 改进了网页界面(感谢 @wxy百年孤独 Sonnet 3.5)。✨ 亮点:• Gemini-pro-0827 在 MATH-L5 上领先,但在逻辑推理和代码理解方面仍有提升空间。• OpenAI 的新 API ChatGPT-4o-latest 成本高,但只比 GPT-4o-0806 略好。• L3.1-405B 介于 Sonnet 3.5 和 GPT-4-turbo-0409 之间。🕙 接下来:• 一项新的常识推理基准测试即将推出。🔗 @pakerface: https://hf.co/spaces/allenai/ZeroEval💻 GitHub: https://github.com/yuchenlin/ZeroEval🧭 ZeroEval 是一个用于基准测试 LLMs 在各种推理任务中的统一框架。我们的目标是在零样本 CoT 提示中评估 LLMs,鼓励它们在响应中进行结构化推理。
立即登录