ZebraLogic：为评估大语言模型（LLM）逻辑谜题设计-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

2 年前

trueweixin_40912980

ZebraLogic：为评估大语言模型（LLM）逻辑谜题设计的逻辑推理AI基准

阅读我们的观点：https://www.marktechpost.com/2024/07/20/zebralogic-a-logical-reasoning-ai-benchmark-designed-for-evaluating-llms-with-logic-puzzles/

排行榜：https://huggingface.co/spaces/allenai/ZebraLogic

数据：https://huggingface.co/datasets/allenai/ZebraLogicBench

代码：https://github.com/yuchenlin/ZeroEval

大语言模型（LLMs）在信息检索和创意写作方面表现出色，并在数学和编程方面有显著改进。ZebraLogic，这是一个由逻辑网格谜题组成的基准，用于评估LLMs的逻辑推理能力。每个谜题都展示了拥有M个特征的N个房屋，需要基于给定的线索进行唯一的值分配。这项任务是一个约束满足问题（CSP），评估演绎推理能力，通常用于如法学院入学考试（LSAT）等评估人的逻辑能力的测试中。

➜ 每个例子都是一个斑马谜题（一种逻辑网格谜题），需要多种高阶思维技能（见下例）。

➜ Claude Sonnet 3.5 (@wxy百年孤独) 是最好的，但它只能解决12%的困难谜题。

➜ DeepSeek V2 - 0628 (@2001室的库布里克) 是最好的开放重量LLM，远超Llama-3-72b。

➜ GPT-4o-mini (@懒得和狗讲道理) 尤其强大！

➜ Gemini 1.5 Pro (@头秃搞学习) 表现不如预期。

➜ 小于10B的LLMs难以解决这些谜题；其中大多数甚至无法解决1%的困难谜题。

@明智之光 @你不是我你不行

CSDN App 扫码分享

分享

评论

8

复制链接
举报

下一条：

想了解一种新的有前途的时间序列预测模型吗？Marco Peixeiro 最近的解释文章重点介绍了 SOFTS，这是一种“采用集中策略来学习不同序列之间的交互 [...]”的模型。https://buff.ly/4bNcfIZ