热门

最新

红包

立Flag

投票

同城

我的

发布
qq_40243750
我是一个对称矩阵 人工智能领域优质创作者
3 年前
trueqq_40243750

对于loss定义现在假设有:
1)loss=Fun()
2)loss=Fun()/10

那么在训练时,1)的梯度就会比2)的梯度大10倍,训练地会更快。

但是步长=grad*lr,当grad变大10倍,变相的等于grad不变,学习率大10倍。

所以当纠结某种loss的定义的值会不会太大或者太小,其实都没关系,我们最终都可以通过调节lr来调节训练过程。

CSDN App 扫码分享
分享
评论
1
打赏
  • 复制链接
  • 举报
下一条:
Java今日学习,分享点个赞吧🍓🍓🍓
立即登录