热门
最新
红包
立Flag
投票
同城
我的
发布
CSDN App 扫码分享
评论
8
- 复制链接
- 举报
下一条:
在做完这些实验后,我花了一些时间研究了Sophia论文(https://arxiv.org/abs/2305.14342)。在研究过程中,我对其中一个AdamW基线有了一些想法。作为基线,论文使用AdamW以6e-4的学习率训练了NanoGPT(124M参数),结果发现Sophia比这个基线训练得更快。最近,@李燃末和我都发现,将NanoGPT的AdamW学习率提高到1.8e-3会使其训练速度快1.6倍。因此,可能有办法改进Sophia论文中的这个AdamW基线。https://x.com/Yuchenj_UW/status/1795850420503629994https://x.com/kellerjordan0/status/1798863559243513937