原来自己写的normalization如果涉及很多参数的话是要设置成no grad啊。。。不然梯度一更新就爆炸,特征图全变成NAN。。但为什么损失还很正常呢。。。调了一下午一晚上的bug终于在睡前想到了这个可能性