人工智能学习 7 - 神经网络

神经网络

神经网络结构越复杂, 能解决的问题就越复杂

将输入层数据使用 $z = w_1x_1 + w_2x_2 + … + w_nx_n + b$ (即为 $Z = W^TX+b$) 计算后, 通过激活函数 sgn/logistic/… 等非线性函数转换得出隐藏层 a

$$
\begin{cases}
z=w^Tx+b \
a=f(z) \
\end{cases}
$$

每个隐藏层又作为输入层参与下一层网络的计算.

网络结构为每一层的每个神经元都与下一层的所有神经元相连接.

在已知神经网络上, 传入变量, 得到结果, 就是预测过程.

训练过程(反向传播)

通过反复进行训练过程, 实现参数优化

求损失: $J(w) = \frac{1}{2}(\hat{y} - y)^2$
求 $w$ 梯度(导数): $\frac{\partial J(w)}{\partial w_{11}^{(1)}} = 所有路线的偏导数相加$
梯度下降更新 $w$: $w_{11}^{(1)’} = w_{11}^{(1)} - Lr * \frac{\partial J(w)}{\partial w_{11}^{(1)}}$

其中 Lr 为 Learning rate 学习率, 较大时容易在最优解附近跳跃, 较小学习过程漫长.

最终在损失不再下降或者下降的幅度很低时, 或者达到指定学习次数后, 训练完成.