热门

最新

红包

立Flag

投票

同城

我的

发布
weixin_40858170
weixin_40858170
2 年前
trueweixin_40858170

在预热期间,学习率平均达到其最大值的一半。因此,平均而言,每一步只进展了一半的"进度"。因此,在开始时增加X个额外的预热步骤实际上会移除X/2的最大学习率训练步骤,从而导致右移。

CSDN App 扫码分享
分享
评论
9
  • 复制链接
  • 举报
下一条:
关于GPT-2训练的一个小结果:过长的预热对损失曲线有一个简单且可预测的影响。🧵
立即登录