通过LLaMA3-8B模型进行实验,并与GPT-4、Claude 3和Gemini 1.5-Pro等最新闭源模型进行比较。
MCTSr算法在GSM8K数学数据集上,8次迭代成功率接近97%,表现极为优异。
在更复杂的GSM Hard和奥林匹克级别数据集上,MCTSr也表现出色。
随着MCTSr迭代次数的增加,模型性能逐步提升。
让 AI 像人类一样通过试错法学习决策和推理
大幅度提高其逻辑推理和数学能力
也就是传说中的类似 OpenAI 的 Q*算法
复旦大学人工智能实验室和上海人工智能实验室的研究人员开发了一种名为MCT Self-Refine (MCTSr)的算法,将大语言模型与蒙特卡洛树(MCTS)搜索结合起来,以增强模型在数学推理任务上的性能,尤其是奥林匹克级别的数学问题。
MCTS在AlphaGo中的应用展示了其强大性能
这种算法让智能体可以像人类一样通过试错法学习决策和推理。
人类在学习新技能或解决复杂问题时,通常会使用试错法。例如,学习骑自行车时,人们会反复尝试保持平衡,摔倒后总结经验,直到能够熟练骑车。同样,智能体通过试错法逐渐改进其决策和推理能力。
通过反复尝试不同的方法和策略,智能体能够不断改进其性能,最终达到解决复杂问题的目标。
具体来说,在论文中提到的MCTS算法中,智能体通过不断探索不同的解答路径、模拟结果、反向传播反馈信息,逐步优化其决策和推理能力,从而在复杂数学问题上取得更好的表现。