对于loss定义现在假设有:1)loss=Fun()2)loss=Fun()/10那么在训练时,1)的梯度就会比2)的梯度大10倍,训练地会更快。但是步长=grad*lr,当grad变大10倍,变相的等于grad不变,学习率大10倍。所以当纠结某种loss的定义的值会不会太大或者太小,其实都没关系,我们最终都可以通过调节lr来调节训练过程。