二分类问题-基于梯度的优化-训练 · python深度学习

~~~ Dense(16,activation='relu') ~~~ > 传入Dense层的参数（16）是该层**隐藏单元**的个数。一个隐藏单元（hidden unit）是该层表示空间的一个**维度**。 16个隐藏单元对应的**权重矩阵**W的**形状**为**(input_dimension,16)**，与W做****点积****相当于将输入数据****投影****到16维表示空间中（然后再加上偏置向量b并应用relu运算）。 > ``` output = relu(dot(W, input) + b) ``` > `W`和`b`都是张量，均为该层的属性。它们被称为该层的**权重**（weight）或**可训练参数**（trainable parameter），分别对应`kernel`和`bias`属性。 > **随机初始化**：初始时`W`和`b`都是随机的。 **训练**：根据反馈信号逐渐调节这些权重。这个逐渐调节的过程。**机器学习中的学习** **优化方法**（optimization method）或**优化器**（optimizer）： SGD 还有多种变体，其区别在于计算下一次权重更新时还要考虑上一次权重更新，而不是仅仅考虑当前梯度值，比如带动量的 SGD、Adagrad、RMSProp 等变体 **动量** **链式法则**（chain rule）：`(f(g(x)))' = f'(g(x)) * g'(x)` **反向传播**（backpropagation，有时也叫**反式微分**，reverse-mode differentiation）:将链式法则应用于神经网络梯度值的计算而得到的算法。从最终损失值开始，从最顶层反向作用至最底层，利用**链式法则**计算每个参数对损失值的贡献大小。 ***** 使用能够进行**符号微分**（symbolic differentiation）的现代框架来实现神经网络，如**TensorFlow** *****