热门

最新

红包

立Flag

投票

同城

我的

发布
qq_43199876
cg_nswdg
4 年前
trueqq_43199876

原来自己写的normalization如果涉及很多参数的话是要设置成no grad啊。。。不然梯度一更新就爆炸,特征图全变成NAN。。但为什么损失还很正常呢。。。调了一下午一晚上的bug终于在睡前想到了这个可能性

CSDN App 扫码分享
分享
评论
点赞
打赏
  • 复制链接
  • 举报
下一条:
java 分页 返回前端的数据是list的, 为什么返回前端数据总数要用SQL语句select count(*)查询数据总数,而不是list.size()直接返回呢?
立即登录