热门

最新

红包

立Flag

投票

同城

我的

发布
weixin_62957220
星夜126
3 年前
trueweixin_62957220

今日打卡,明天开始学习具体方向,并且开始实战

CSDN App 扫码分享
分享
1
5
打赏
  • 复制链接
  • 举报
下一条:
对于loss定义现在假设有:1)loss=Fun()2)loss=Fun()/10那么在训练时,1)的梯度就会比2)的梯度大10倍,训练地会更快。但是步长=grad*lr,当grad变大10倍,变相的等于grad不变,学习率大10倍。所以当纠结某种loss的定义的值会不会太大或者太小,其实都没关系,我们最终都可以通过调节lr来调节训练过程。
立即登录