训练循环（training loop） · python深度学习

1. 抽取训练样本`x`和对应目标`y`组成的数据批量。 2. 在`x`上运行网络［这一步叫作**前向传播**（forward pass）］，得到预测值`y_pred`。 3. 计算网络在这批数据上的损失，用于衡量`y_pred`和`y`之间的距离。 4. **更新网络的所有权重**，使网络在这批数据上的损失略微下降。 ***** **小批量随机梯度下降**（mini-batch stochastic gradient descent，又称为小批量 SGD） ***** 难点在于：更新网络的权重，利用网络中所有运算都是**可微**（differentiable）的这一事实，计算损失相对于网络系数的**梯度**（gradient），然后向梯度的反方向改变系数，从而使损失降低。 ***** **导数：** 略 **张量运算的导数：梯度** * 导数这一概念向**多元函数**导数的推广 * **多元函数**是以**张量**作为输入的**函数**