ZebraLogic:为评估大语言模型(LLM)逻辑谜题设计的逻辑推理AI基准
阅读我们的观点:https://www.marktechpost.com/2024/07/20/zebralogic-a-logical-reasoning-ai-benchmark-designed-for-evaluating-llms-with-logic-puzzles/
排行榜:https://huggingface.co/spaces/allenai/ZebraLogic
数据:https://huggingface.co/datasets/allenai/ZebraLogicBench
代码:https://github.com/yuchenlin/ZeroEval
大语言模型(LLMs)在信息检索和创意写作方面表现出色,并在数学和编程方面有显著改进。ZebraLogic,这是一个由逻辑网格谜题组成的基准,用于评估LLMs的逻辑推理能力。每个谜题都展示了拥有M个特征的N个房屋,需要基于给定的线索进行唯一的值分配。这项任务是一个约束满足问题(CSP),评估演绎推理能力,通常用于如法学院入学考试(LSAT)等评估人的逻辑能力的测试中。
➜ 每个例子都是一个斑马谜题(一种逻辑网格谜题),需要多种高阶思维技能(见下例)。
➜ Claude Sonnet 3.5 (@wxy百年孤独) 是最好的,但它只能解决12%的困难谜题。
➜ DeepSeek V2 - 0628 (@2001室的库布里克) 是最好的开放重量LLM,远超Llama-3-72b。
➜ GPT-4o-mini (@懒得和狗讲道理) 尤其强大!
➜ Gemini 1.5 Pro (@头秃搞学习) 表现不如预期。
➜ 小于10B的LLMs难以解决这些谜题;其中大多数甚至无法解决1%的困难谜题。
@明智之光 @你不是我你不行
- 复制链接
- 举报