阿里巴巴推出AlphaMath几乎零:无过程的过程监督- 使用DeepSeekMath 7B在MATH上达到63%- 通过利用MCTS生成过程监督和评估信号,消除了手工注释的需要https://arxiv.org/abs/2405.03553