热门
最新
红包
立Flag
投票
同城
我的
发布
CSDN App 扫码分享
3
47
- 复制链接
- 举报
下一条:
是否使用CoT?Chain-of-thought主要有助于数学和符号推理讨论:https://huggingface.co/papers/2409.12183通过提示的链式思维(Chain-of-thought, CoT)是从大型语言模型(LLMs)中引出推理能力的事实方法。但这种额外的“思考”对哪些任务确实有帮助呢?为了分析这个问题,我们对使用CoT的100多篇论文进行了定量荟萃分析,并对14个模型的20个数据集进行了评估。我们的结果显示,CoT在涉及数学或逻辑的任务上带来了显著的性能提升,而在其他类型的任务上提升较小。在MMLU数据集上,直接生成答案与使用CoT的准确性几乎相同,除非问题或模型的回应中包含等号,表明有符号操作和推理。在这一发现之后,我们通过将规划和执行分离并与工具增强的LLMs进行比较,分析了CoT在这些问题上的表现。CoT的大部分性能提升来自于改进了符号执行,但相较于使用符号解算器,其表现较差。我们的结果表明,CoT可以选择性地应用,在保持性能的同时节省推理成本。此外,它们还表明需要超越基于提示的CoT,探索能够更好地利用中间计算的新范式,以应对LLMs的广泛应用。