最近几周,LLM(大语言模型)研究中对链式思维(chain-of-thought)有了巨大的关注。
如果你在寻找有趣的周末阅读材料,这里有几篇论文供参考:
- Diagram of Thought (DoT):通过数学严谨性增强LLM的推理能力。DAT模型将LLM中的迭代推理建模为有向无环图(DAG)的构建。它将命题、批评、改进和验证整合到一个统一的DAG结构中;这使得DoT能够捕捉到超越线性或树形方法的复杂逻辑推导。https://arxiv.org/abs/2409.10038
- To CoT or not to CoT? - 探讨了哪些任务最能从链式思维(CoT)提示中受益。通过对100多篇论文的元分析和多项评估,发现CoT在涉及数学和逻辑的任务中会显著提高性能。他们发现,大多数CoT的收益来自于改善符号执行,但符号求解器的表现优于它。https://arxiv.org/abs/2409.12183
- Iteration of Thought:提出了迭代思维(IoT)框架,以通过自适应推理路径增强LLM的响应和推理能力。它利用一个内部对话代理作为指导,动态调整推理路径,从而允许自适应跨路径探索并提高响应准确性。它不同于CoT和ToT(它们都是刚性的过程),其提示生成是一个动态过程,能够自适应调整。https://arxiv.org/abs/2409.12618
- Training LLMs to Self-Correct via RL:开发了一种多轮次在线强化学习方法,以提高LLM的自我纠正能力。它完全基于自生成数据;SFT在学习自我纠正方面被证明无效,并且在训练数据和模型响应之间存在分布不匹配。提出了一种两阶段方法,首先优化纠正行为,然后在训练期间使用奖励加成来放大自我纠正。当应用于Gemini 1.0 Pro和1.5 Flash模型时,它在MATH和HumanEval基准测试中分别提高了基础模型的自我纠正性能15.6%和9.1%。https://arxiv.org/abs/2409.12917
- Math Jailbreaking Prompts:使用GPT-4o生成数学编码的提示,作为一种有效的越狱技术。在13个最先进的模型中显示出平均73.6%的攻击成功率。这突显了现有安全训练机制无法推广到数学编码输入的局限性。https://arxiv.org/abs/2409.11445
附赠
Agents in Software Engineering:提供了LLM在软件工程中的代理框架的综合概述。https://arxiv.org/abs/2409.09030
阅读愉快,下周见。
- 复制链接
- 举报