关于GPT-2训练的一个小结果：过长的预热对损失曲线有一个简-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

weixin_40858170

2 年前

trueweixin_40858170

关于GPT-2训练的一个小结果：过长的预热对损失曲线有一个简单且可预测的影响。
🧵

CSDN App 扫码分享

分享

评论

8

复制链接
举报

下一条：

在做完这些实验后，我花了一些时间研究了Sophia论文（https://arxiv.org/abs/2305.14342）。在研究过程中，我对其中一个AdamW基线有了一些想法。作为基线，论文使用AdamW以6e-4的学习率训练了NanoGPT（124M参数），结果发现Sophia比这个基线训练得更快。最近，@李燃末和我都发现，将NanoGPT的AdamW学习率提高到1.8e-3会使其训练速度快1.6倍。因此，可能有办法改进Sophia论文中的这个AdamW基线。https://x.com/Yuchenj_UW/status/1795850420503629994https://x.com/kellerjordan0/status/1798863559243513937