是否使用CoT？Chain-of-thought主要有助于数-CSDN blink-领先的开发者技术社区

最新

红包

立Flag

投票

同城

发布

_akhaliq

1 年前

truetechsavvyak

是否使用CoT？

Chain-of-thought主要有助于数学和符号推理

讨论：https://huggingface.co/papers/2409.12183

通过提示的链式思维（Chain-of-thought, CoT）是从大型语言模型（LLMs）中引出推理能力的事实方法。但这种额外的“思考”对哪些任务确实有帮助呢？为了分析这个问题，我们对使用CoT的100多篇论文进行了定量荟萃分析，并对14个模型的20个数据集进行了评估。我们的结果显示，CoT在涉及数学或逻辑的任务上带来了显著的性能提升，而在其他类型的任务上提升较小。在MMLU数据集上，直接生成答案与使用CoT的准确性几乎相同，除非问题或模型的回应中包含等号，表明有符号操作和推理。在这一发现之后，我们通过将规划和执行分离并与工具增强的LLMs进行比较，分析了CoT在这些问题上的表现。CoT的大部分性能提升来自于改进了符号执行，但相较于使用符号解算器，其表现较差。我们的结果表明，CoT可以选择性地应用，在保持性能的同时节省推理成本。此外，它们还表明需要超越基于提示的CoT，探索能够更好地利用中间计算的新范式，以应对LLMs的广泛应用。

下一条：

LLMs + Persona-Plug = 个性化的大型语言模型讨论: https://huggingface.co/papers/2409.11901个性化在众多语言任务和应用中起着关键作用，因为即使用户有相同的需求，他们可能会根据个人兴趣偏好选择不同的输出。这导致了各种个性化方法的发展，旨在使大型语言模型（LLMs）生成与用户偏好一致的定制输出。其中一些方法涉及为每个用户微调一个独特的个性化LLM，但这对于广泛应用来说过于昂贵。替代方法则通过检索用户的相关历史文本作为示例，以即插即用的方式引入个性化信息。然而，这种基于检索的策略可能会破坏用户历史的连续性，无法捕捉用户的整体风格和模式，从而导致次优的性能。为了解决这些挑战，我们提出了一种新颖的个性化LLM模型。该模型通过一个轻量级的用户嵌入模块，建构了每个用户的特定嵌入，建模了她所有的历史上下文。通过将此嵌入附加到任务输入中，LLMs可以更好地理解和捕捉用户的习惯和偏好，从而在不调节自身参数的情况下生成更个性化的输出。大量在语言模型个性化（LaMP）基准上的任务实验表明，所提出的模型显著优于现有的个性化LLM方法。