技术细节：损失曲线对应于三个GPT-2（124M）级别的训练-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

weixin_40858170

2 年前

trueweixin_40858170

技术细节：

损失曲线对应于三个GPT-2（124M）级别的训练，使用了2B的FineWeb数据，使用我基于NanoGPT的仓库 https://github.com/KellerJordan/modded-nanogpt进行了训练。

实验是在由@李燃末提供的H100上运行的。

唯一不同的是每次训练运行的预热持续时间，范围分别为 {256, 512, 1024}。
预热完成后，我们在剩余的训练中保持学习率不变。

在上面的图中，我只是沿X轴按上述步数平移曲线。每一步是2^19个token。

CSDN App 扫码分享

分享

评论

9

复制链接
举报

下一条：

在预热期间，学习率平均达到其最大值的一半。因此，平均而言，每一步只进展了一半的"进度"。因此，在开始时增加X个额外的预热步骤实际上会移除X/2的最大学习率训练步骤，从而导致右移。