热门
最新
红包
立Flag
投票
同城
我的
发布
CSDN App 扫码分享
评论
点赞
打赏
- 复制链接
- 举报
下一条:
ZebraLogic:为评估大语言模型(LLM)逻辑谜题设计的逻辑推理AI基准阅读我们的观点:https://www.marktechpost.com/2024/07/20/zebralogic-a-logical-reasoning-ai-benchmark-designed-for-evaluating-llms-with-logic-puzzles/排行榜:https://huggingface.co/spaces/allenai/ZebraLogic数据:https://huggingface.co/datasets/allenai/ZebraLogicBench代码:https://github.com/yuchenlin/ZeroEval大语言模型(LLMs)在信息检索和创意写作方面表现出色,并在数学和编程方面有显著改进。ZebraLogic,这是一个由逻辑网格谜题组成的基准,用于评估LLMs的逻辑推理能力。每个谜题都展示了拥有M个特征的N个房屋,需要基于给定的线索进行唯一的值分配。这项任务是一个约束满足问题(CSP),评估演绎推理能力,通常用于如法学院入学考试(LSAT)等评估人的逻辑能力的测试中。➜ 每个例子都是一个斑马谜题(一种逻辑网格谜题),需要多种高阶思维技能(见下例)。➜ Claude Sonnet 3.5 (@wxy百年孤独) 是最好的,但它只能解决12%的困难谜题。➜ DeepSeek V2 - 0628 (@2001室的库布里克) 是最好的开放重量LLM,远超Llama-3-72b。➜ GPT-4o-mini (@懒得和狗讲道理) 尤其强大!➜ Gemini 1.5 Pro (@头秃搞学习) 表现不如预期。➜ 小于10B的LLMs难以解决这些谜题;其中大多数甚至无法解决1%的困难谜题。@明智之光 @你不是我你不行