多应用+插件架构,代码干净,二开方便,首家独创一键云编译技术,文档视频完善,免费商用码云13.8K 广告
1. 抽取训练样本`x`和对应目标`y`组成的数据批量。 2. 在`x`上运行网络[这一步叫作**前向传播**(forward pass)],得到预测值`y_pred`。 3. 计算网络在这批数据上的损失,用于衡量`y_pred`和`y`之间的距离。 4. **更新网络的所有权重**,使网络在这批数据上的损失略微下降。 ***** **小批量随机梯度下降**(mini-batch stochastic gradient descent,又称为小批量 SGD) ***** 难点在于:更新网络的权重,利用网络中所有运算都是**可微**(differentiable)的这一事实,计算损失相对于网络系数的**梯度**(gradient),然后向梯度的反方向改变系数,从而使损失降低。 ***** **导数:** 略 **张量运算的导数:梯度** * 导数这一概念向**多元函数**导数的推广 * **多元函数**是以**张量**作为输入的**函数**