最近几周，LLM（大语言模型）研究中对链式思维（chain--CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

7 月前

truedevelvis

最近几周，LLM（大语言模型）研究中对链式思维（chain-of-thought）有了巨大的关注。

如果你在寻找有趣的周末阅读材料，这里有几篇论文供参考：

- Diagram of Thought (DoT)：通过数学严谨性增强LLM的推理能力。DAT模型将LLM中的迭代推理建模为有向无环图（DAG）的构建。它将命题、批评、改进和验证整合到一个统一的DAG结构中；这使得DoT能够捕捉到超越线性或树形方法的复杂逻辑推导。https://arxiv.org/abs/2409.10038

- To CoT or not to CoT? - 探讨了哪些任务最能从链式思维（CoT）提示中受益。通过对100多篇论文的元分析和多项评估，发现CoT在涉及数学和逻辑的任务中会显著提高性能。他们发现，大多数CoT的收益来自于改善符号执行，但符号求解器的表现优于它。https://arxiv.org/abs/2409.12183

- Iteration of Thought：提出了迭代思维（IoT）框架，以通过自适应推理路径增强LLM的响应和推理能力。它利用一个内部对话代理作为指导，动态调整推理路径，从而允许自适应跨路径探索并提高响应准确性。它不同于CoT和ToT（它们都是刚性的过程），其提示生成是一个动态过程，能够自适应调整。https://arxiv.org/abs/2409.12618

- Training LLMs to Self-Correct via RL：开发了一种多轮次在线强化学习方法，以提高LLM的自我纠正能力。它完全基于自生成数据；SFT在学习自我纠正方面被证明无效，并且在训练数据和模型响应之间存在分布不匹配。提出了一种两阶段方法，首先优化纠正行为，然后在训练期间使用奖励加成来放大自我纠正。当应用于Gemini 1.0 Pro和1.5 Flash模型时，它在MATH和HumanEval基准测试中分别提高了基础模型的自我纠正性能15.6%和9.1%。https://arxiv.org/abs/2409.12917

- Math Jailbreaking Prompts：使用GPT-4o生成数学编码的提示，作为一种有效的越狱技术。在13个最先进的模型中显示出平均73.6%的攻击成功率。这突显了现有安全训练机制无法推广到数学编码输入的局限性。https://arxiv.org/abs/2409.11445

附赠
Agents in Software Engineering：提供了LLM在软件工程中的代理框架的综合概述。https://arxiv.org/abs/2409.09030

阅读愉快，下周见。

CSDN App 扫码分享

分享

6

78

复制链接
举报

下一条：