热门
最新
红包
立Flag
投票
同城
我的
发布
是否使用CoT?
Chain-of-thought主要有助于数学和符号推理
讨论:https://huggingface.co/papers/2409.12183
通过提示的链式思维(Chain-of-thought, CoT)是从大型语言模型(LLMs)中引出推理能力的事实方法。但这种额外的“思考”对哪些任务确实有帮助呢?为了分析这个问题,我们对使用CoT的100多篇论文进行了定量荟萃分析,并对14个模型的20个数据集进行了评估。我们的结果显示,CoT在涉及数学或逻辑的任务上带来了显著的性能提升,而在其他类型的任务上提升较小。在MMLU数据集上,直接生成答案与使用CoT的准确性几乎相同,除非问题或模型的回应中包含等号,表明有符号操作和推理。在这一发现之后,我们通过将规划和执行分离并与工具增强的LLMs进行比较,分析了CoT在这些问题上的表现。CoT的大部分性能提升来自于改进了符号执行,但相较于使用符号解算器,其表现较差。我们的结果表明,CoT可以选择性地应用,在保持性能的同时节省推理成本。此外,它们还表明需要超越基于提示的CoT,探索能够更好地利用中间计算的新范式,以应对LLMs的广泛应用。
CSDN App 扫码分享
6
74
- 复制链接
- 举报
下一条:
LLMs + Persona-Plug = 个性化的大型语言模型讨论: https://huggingface.co/papers/2409.11901个性化在众多语言任务和应用中起着关键作用,因为即使用户有相同的需求,他们可能会根据个人兴趣偏好选择不同的输出。这导致了各种个性化方法的发展,旨在使大型语言模型(LLMs)生成与用户偏好一致的定制输出。其中一些方法涉及为每个用户微调一个独特的个性化LLM,但这对于广泛应用来说过于昂贵。替代方法则通过检索用户的相关历史文本作为示例,以即插即用的方式引入个性化信息。然而,这种基于检索的策略可能会破坏用户历史的连续性,无法捕捉用户的整体风格和模式,从而导致次优的性能。为了解决这些挑战,我们提出了一种新颖的个性化LLM模型。该模型通过一个轻量级的用户嵌入模块,建构了每个用户的特定嵌入,建模了她所有的历史上下文。通过将此嵌入附加到任务输入中,LLMs可以更好地理解和捕捉用户的习惯和偏好,从而在不调节自身参数的情况下生成更个性化的输出。大量在语言模型个性化(LaMP)基准上的任务实验表明,所提出的模型显著优于现有的个性化LLM方法。