技术细节:损失曲线对应于三个GPT-2(124M)级别的训练,使用了2B的FineWeb数据,使用我基于NanoGPT的仓库https://github.com/KellerJordan/modded-nanogpt进行了训练。实验是在由@李燃末提供的H100上运行的。唯一不同的是每次训练运行的预热持续时间,范围分别为 {256, 512, 1024}。预热完成后,我们在剩余的训练中保持学习率不变。在上面的图中,我只是沿X轴按上述步数平移曲线。每一步是2^19个token。