互相推理使得较小的大语言模型成为更强的问题解决者讨论：htt-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

2 年前

truetechsavvyak

互相推理使得较小的大语言模型成为更强的问题解决者

讨论：https://huggingface.co/papers/2408.06195

这篇论文介绍了rStar，一种自我博弈的互相推理方法，可以显著提高小型语言模型（SLMs）的推理能力，而无需微调或使用更高等级的模型。rStar将推理分离为一个自我博弈的生成-判别过程。首先，目标SLM利用丰富的人类类似推理动作增强蒙特卡洛树搜索（MCTS），以构建更高质量的推理轨迹。接下来，另一具有与目标SLM相似能力的SLM充当判别器，以验证目标SLM生成的每一条推理轨迹。相互认可的推理轨迹被认为是相互一致的，因此更有可能是正确的。通过在五个SLM上的大量实验表明，rStar能够有效解决各种推理问题，包括GSM8K、GSM-Hard、MATH、SVAMP和StrategyQA。值得注意的是，rStar将LLaMA2-7B在GSM8K上的准确率从12.51%提升到63.91%，将Mistral-7B的准确率从36.46%提升到81.88%，将LLaMA3-8B-Instruct的准确率从74.53%提升到91.13%。

CSDN App 扫码分享

分享

2

32

复制链接
举报

下一条：

如果我今天错过了你的论文，你可以在这里提交：https://huggingface.co/papers/submit