跳转至

【NG-DL】course2_week1 优化网络参数#

1.基本概念#

很多优化参数:
网络层数,隐层数,学习率,激活函数。。。

  • 训练集/验证集/测试集

  • 偏差, 训练集误差

  • 方差

若有高bias: 尝试新的网络,更大网络

高方差: 获取更多数据,或者正则化,更合适的网络机构

bias和varaince的平衡
一般来说更大的网络能减小偏差,更多的数据能减小方差。

2.正则化-L2#

以逻辑回归为例

J(w,b)=\frac{1}{m}\sum L(\hat y_i, y_i)+\frac{\lambda}{2m}|w|^2_2L2惩罚,避免过拟合,导致高方差

类似的神经网络在优化函数上加上

J(w^{[1]},b^{[1]},...w^{[l]},b^{[l]})=\frac{1}{m}\sum L(\hat y_i, y_i)+\frac{\lambda}{2m}\sum||w^{[l]}||^2_2

其中|w^{[l]}|^2F范数

  • Ng.当\lambda较大时候,w会较小,sigmoid接近线性,降低方差。

正则化-dropout(随机失活)#

每次对网络中的节点设置一个随机消失的概率p,即每个节点可能在也可能不在网络中,不在的时候即相当于该节点的数值置为0.

dropout与l2类似都会shrink权重。

early stoping#

3.优化#

归一化#

归一化输入=> 均值0,方差1
* 零均值化
* 归一化方差

梯度消失与梯度爆炸#

当梯度增长很大或者很微弱时,会导致优化出问题或者很慢。