从头开始实现强化学习算法是出了名的困难且容易出错,鉴于有众多的错误来源和需要注意的实现细节。Ryan Pégoud 旨在通过提供在 JAX 中实现 PPO 的技巧,使这一过程变得不那么棘手。https://buff.ly/3UhEjwy