我很好奇Sophia优化器(https://arxiv.org/abs/2305.14342)是否能提高GPT-2的训练速度。有人愿意给我建议一些超参数试试吗?代码:https://github.com/KellerJordan/modded-nanogpt/tree/sophia