问题:
六章
1、Adam是什么?
2、优化方法怎么选?
3、不太理解初始权重为什么不能赋同样的值,需要试验观察与论文证明。
4、为什么会梯度消失呢?传递有所偏向的数据,可以理解梯度消失的原因,因为所有数据相对集中,一条线性的线就可以分割了,所以学习难度不会很高,线性率也不会很高,但是跟权重有什么关系呢?、
不太了解100个神经元为什么会成为一个神经元的解释,直接解释为非线性消失可以理解。但权重又是如何使用X初值就能达到良好的训练效果呢?不是跟有没有偏向的数据有关吗?训练效果不是跟优化方法有关吗?
5、激活函数的选择如何影响到输出的层的数据分布?
6、反向传播难道不能自动调整吗?实验出真理
学习效率指的是权重的变化程度或梯度的大小,也可以表示batch的次数中,loss的变化率。初始权重对loss的变化率有影响。
7、为什么要让激活值广度分布,是为了泛化能力增强吗?
8、batch normalize 为什么行?为什么可以加快学习速度?
9.L2范数如何加到loss上?就是加法,为什么呢?w越大,loss也会越大,所以会对,过拟合有一点的偏移,是好事吗?w过大,决定了那个x的占比很大,影响很大。所以就单看那个x了,在图像中,x是一个点的灰度值。这样做,可以让,x占比小一点。因为,图像是看整体的,是一种联系的,关系,并不是只看一点的灰度值。
10、dropout是如何实现的?在一定比率下随机删除一些结点,但预测保留所有结点。删除率
11、为什么要验证集?为什么测试集只能看一次,这个是什么玄学的手段?
12、贝叶斯概率法是大坑?
七章
1、卷积的合理性?
2、填充的合理性?
3、为什么要考虑cnn的三维数据情况,是因为有颜色吗?
4、一般来说,池化的窗口大小会
和步幅设定成相同的值。?
还是有许多问题的,第六章讲超参数,第七章就到cnn,许多都未看其证明