热门

最新

红包

立Flag

投票

同城

我的

发布
weixin_40858170
weixin_40858170
2 年前
trueweixin_40858170

我很好奇Sophia优化器(https://arxiv.org/abs/2305.14342)是否能提高GPT-2的训练速度。有人愿意给我建议一些超参数试试吗?
代码:https://github.com/KellerJordan/modded-nanogpt/tree/sophia

CSDN App 扫码分享
分享
评论
10
  • 复制链接
  • 举报
下一条:
之前达到96%准确率的记录是46秒,也是由我创下的。更新日志:* 改进了学习率计划:预热时间现在缩短了2.3倍,最终衰减到零。* 改进了架构:将每个模块的最终激活移动到残差之后,就像在原始的ResNet中那样。* 减少了权重衰减。
立即登录