热门
最新
红包
立Flag
投票
同城
我的
发布
互相推理使得较小的大语言模型成为更强的问题解决者
讨论:https://huggingface.co/papers/2408.06195
这篇论文介绍了rStar,一种自我博弈的互相推理方法,可以显著提高小型语言模型(SLMs)的推理能力,而无需微调或使用更高等级的模型。rStar将推理分离为一个自我博弈的生成-判别过程。首先,目标SLM利用丰富的人类类似推理动作增强蒙特卡洛树搜索(MCTS),以构建更高质量的推理轨迹。接下来,另一具有与目标SLM相似能力的SLM充当判别器,以验证目标SLM生成的每一条推理轨迹。相互认可的推理轨迹被认为是相互一致的,因此更有可能是正确的。通过在五个SLM上的大量实验表明,rStar能够有效解决各种推理问题,包括GSM8K、GSM-Hard、MATH、SVAMP和StrategyQA。值得注意的是,rStar将LLaMA2-7B在GSM8K上的准确率从12.51%提升到63.91%,将Mistral-7B的准确率从36.46%提升到81.88%,将LLaMA3-8B-Instruct的准确率从74.53%提升到91.13%。
CSDN App 扫码分享
2
32
- 复制链接
- 举报