# 四、循环神经网络介绍
在上一章中,您了解了卷积网络。 现在,该介绍一种新型的模型和问题了-循环神经网络(RNN)。 在本章中,我们将解释 RNN 的工作原理,并在 TensorFlow 中实现一个。 我们的示例问题将是具有天气信息的简单季节预报器。 我们还将看一下`skflow`,它是 TensorFlow 的简化接口。 这将使我们能够快速重新实现旧的图像分类模型和新的 RNN。 在本章的最后,您将对以下概念有很好的理解:
* 探索 RNN
* TensorFlow Learn
* 密集神经网络(DNN)
# 探索 RNN
在本节中,我们将探索 RNN。 一些背景信息将使我们开始工作,然后我们将探讨一个激发性的天气建模问题。 我们还将在 TensorFlow 中实现和训练 RNN。
![Exploring RNNs](https://img.kancloud.cn/4f/75/4f753f7dbb6742ea52a21e71d1807713_566x307.jpg)
在典型模型中,您要预测一些`X`输入特征和一些`Y`输出。 我们通常将不同的训练样本视为独立的观察结果。 因此,数据点 1 的特征不应影响数据点 2 的预测。 但是,如果我们的数据点相互关联怎么办? 最常见的示例是每个数据点`Xt`代表在时间`t`收集的特征。 自然地假设时间`t`和时间`t+1`的特征对于时间`t+1`的预测都将很重要。 换句话说,历史很重要。
现在,在建模时,您可以只包含两倍的输入特征,将前一个时间步长添加到当前特征中,并计算两倍的输入权重。 但是,如果您正在努力构建神经网络来计算变换特征,那么可以在当前时间步网络中使用上一个时间步的中间特征就很好了。
RNN 正是这样做的。 像往常一样考虑您的输入`Xt`,但在某些状态下添加来自上一个时间步的`St-1`作为附加特征。 现在,您可以像往常一样计算权重以预测`Yt`,并产生一个新的内部状态`St`,以供下一步使用。 对于第一步,通常使用默认或零初始状态。 经典的 RNN 实际上就是这么简单,但是当今文学中有更高级的结构,例如门控循环单元和长短期存储电路。 这些不在本书的讨论范围之内,但是它们遵循相同的原理,并且通常适用于相同类型的问题。
## 模型权重
您可能想知道我们如何根据上一个时间步长计算所有这些相关性的权重。 计算梯度确实涉及到时间计算的递归,但不要担心,TensorFlow 处理乏味的东西,让我们进行建模:
```py
# read in data
filename = 'weather.npz'
data = np.load(filename)
daily = data['daily']
weekly = data['weekly']
num_weeks = len(weekly)
dates = np.array([datetime.datetime.strptime(str(int(d)),
'%Y%m%d') for d in weekly[:,0]])
```
要使用 RNN,我们需要一个带有时间成分的数据建模问题。
字体分类问题在这里并不是很合适。 因此,让我们看一些天气数据。 `weather.npz`文件是几十年来来自美国一个城市的气象站数据的集合。 `daily`数组包含一年中每一天的测量值。 数据有六列,从日期开始。 接下来是降雨量,以英寸为单位测量当日的降雨量。 之后,出现两列降雪-第一列是当前地面上的实测雪,而第二列是当天的降雪,单位是英寸。 最后,我们有一些温度信息,以华氏度为单位的每日最高和最低每日温度。
我们将使用的`weekly`数组是每日信息的每周摘要。 我们将使用中间日期来表示一周,然后,我们将汇总一周中的所有降雨量。 但是,对于降雪,我们将平均降雪量,因为从一个寒冷的天气到第二天坐在地上的积雪都没有意义。 虽然降雪,但我们总共要一周,就像下雨一样。 最后,我们将平均一周的高温和低温。 现在您已经掌握了数据集,我们该如何处理? 一个有趣的基于时间的建模问题是,尝试使用天气信息和前几周的历史来预测特定一周的季节。
在美国的北半球,6 月至 8 月的气温较高,而 12 月至 2 月的气温较低,两者之间有过渡。 春季通常是多雨的,冬季通常包括雪。 尽管一周的变化很大,但一周的历史应该可以提供一定的预测能力。
## 了解 RNN
首先,让我们从压缩的 NumPy 数组中读取数据。 如果您想探索自己的模型,`weather.npz`文件也包括每日数据。 `np.load`将两个数组都读入字典,并将每周设置为我们感兴趣的数据; `num_weeks`自然就是我们拥有多少个数据点,在这里,几十年的信息的值:
```py
num_weeks = len(weekly)
```
为了格式化星期,我们使用 Python `datetime.datetime`对象以年月日格式读取存储字符串:
```py
dates = np.array([datetime.datetime.strptime(str(int(d)),
'%Y%m%d') for d in weekly[:,0]])
```
我们可以使用每周的日期来指定其季节。 对于此模型,因为我们正在查看天气数据,所以我们使用气象季节而不是普通的天文季节。 幸运的是,这很容易通过 Python 函数实现。 从`datetime`对象中获取月份,我们可以直接计算出该季节。 春季,零季节是 3 月至 5 月,夏季是 6 月至 8 月,秋天是 9 月至 11 月,最后是冬季 12 月至 2 月。 以下是简单的函数,它仅求值月份并实现该月份:
```py
def assign_season(date):
''' Assign season based on meteorological season.
Spring - from Mar 1 to May 31
Summer - from Jun 1 to Aug 31
Autumn - from Sep 1 to Nov 30
Winter - from Dec 1 to Feb 28 (Feb 29 in a leap year)
'''
month = date.month
# spring = 0
if 3 <= month < 6:
season = 0
# summer = 1
elif 6 <= month < 9:
season = 1
# autumn = 2
elif 9 <= month < 12:
season = 2
# winter = 3
elif month == 12 or month < 3:
season = 3
return season
```
让我们注意一下,我们有四个季节和五个输入变量,例如历史状态中的 11 个值:
```py
# There are 4 seasons
num_classes = 4
# and 5 variables
num_inputs = 5
# And a state of 11 numbers
state_size = 11
```
现在您可以计算标签了:
```py
labels = np.zeros([num_weeks,num_classes])
# read and convert to one-hot
for i,d in enumerate(dates):
labels[i,assign_season(d)] = 1
```
通过制作全零数组并在分配季节的位置放置一个全零,我们直接以一键式格式执行此操作。
凉! 您仅用几个命令就总结了几十年的时间。
由于这些输入特征在非常不同的尺度上测量非常不同的事物,即降雨,降雪和温度,因此我们应注意将它们全部置于相同的尺度上。 在下面的代码中,我们抓住了输入特征,当然跳过了日期列,并减去平均值以将所有特征居中为零:
```py
# extract and scale training data
train = weekly[:,1:]
train = train - np.average(train,axis=0)
train = train / train.std(axis=0)
```
然后,我们将每个特征除以其标准偏差来缩放。 这说明温度范围大约为 0 到 100,而降雨量仅在大约 0 到 10 之间变化。数据准备工作不错! 它并不总是很有趣,但这是机器学习和 TensorFlow 的关键部分。
现在进入 TensorFlow 模型:
```py
# These will be inputs
x = tf.placeholder("float", [None, num_inputs])
# TF likes a funky input to RNN
x_ = tf.reshape(x, [1, num_weeks, num_inputs])
```
我们使用占位符变量正常输入数据,但是随后您会看到将整个数据集奇怪地重塑为一个大张量。 不用担心,这是因为从技术上讲,我们有一个漫长而连续的观测序列。 `y_`变量只是我们的输出:
```py
y_ = tf.placeholder("float", [None,num_classes])
```
我们将计算每个季节每周的概率。
`cell`变量是循环神经网络的关键:
```py
cell = tf.nn.rnn_cell.BasicRNNCell(state_size)
```
这告诉 TensorFlow 当前时间步长如何取决于前一个时间步长。 在这种情况下,我们将使用基本的 RNN 单元。 因此,我们一次只回首一周。 假设它具有状态大小或 11 个值。 随意尝试使用更多奇异的单元和不同的状态大小。
要使用该单元格,我们将使用`tf.nn.dynamic_rnn`:
```py
outputs, states = tf.nn.dynamic_rnn(cell,x_,
dtype=tf.nn.dtypes.float32, initial_state=None)
```
这可以智能地处理递归,而不是简单地将所有时间步长展开成一个巨大的计算图。 因为我们在一个序列中有成千上万的观测值,所以这对于获得合理的速度至关重要。 在单元格之后,我们指定输入`x_`,然后指定`dtype`以使用 32 位将十进制数字存储在浮点数中,然后指定空的`initial_state`。 我们使用此输出建立一个简单的模型。 从这一点开始,该模型几乎完全符合您对任何神经网络的期望:
我们将 RNN 单元的输出,一些权重相乘,并添加一个偏差以获得该周每个类的分数:
```py
W1 = tf.Variable(tf.truncated_normal([state_size,num_classes],
stddev=1./math.sqrt(num_inputs)))
b1 = tf.Variable(tf.constant(0.1,shape=[num_classes]))
# reshape the output for traditional usage
h1 = tf.reshape(outputs,[-1,state_size])
```
### 注意
请注意,由于我们有一个长序列,因此我们确实需要进行此重塑操作以再次获得合适的大小。
您应该非常熟悉我们的分类`cross_entropy`损失函数和训练优化器:
```py
# Climb on cross-entropy
cross_entropy = tf.reduce_mean(
tf.nn.softmax_cross_entropy_with_logits(y + 1e-50, y_))
# How we train
train_step = tf.train.GradientDescentOptimizer(0.01
).minimize(cross_entropy)
# Define accuracy
correct_prediction = tf.equal(tf.argmax(y,1),tf.argmax(y_,1))
accuracy=tf.reduce_mean(tf.cast(correct_prediction, "float"))
```
搭建 TensorFlow 模型的出色工作! 为了训练这一点,我们将使用一个熟悉的循环:
```py
# Actually train
epochs = 100
train_acc = np.zeros(epochs//10)
for i in tqdm(range(epochs), ascii=True):
if i % 10 == 0:
# Record summary data, and the accuracy
# Check accuracy on train set
A = accuracy.eval(feed_dict={x: train, y_: labels})
train_acc[i//10] = A
train_step.run(feed_dict={x: train, y_: labels})
```
由于这是一个虚拟的问题,因此我们不必担心模型的实际准确率。 这里的目的只是看 RNN 的工作原理。 您可以看到它像任何 TensorFlow 模型一样运行:
![Understanding RNNs](https://img.kancloud.cn/0b/53/0b5374e7ccaf4f021065556f1817b167_480x541.jpg)
如果您确实看过准确率,您会发现它做得很好。 比 25% 的随机猜测要好得多,但仍有很多东西需要学习。
# TensorFlowLearn
正如 Scikit-Learn 是传统机器学习算法的便捷接口一样,[`tf.contrib.learn`](https://github.com/tensorflow/tensorflow/tree/master/tensorflow/contrib/learn/python/learn)(以前称为`skflow`),它是构建和训练 DNN 的简化接口。 现在,随 TensorFlow 的每次安装免费提供!
即使您不喜欢该语法,也值得将 TensorFlow Learn 作为 TensorFlow 的高级 API。 这是因为它是当前唯一受官方支持的版本。 但是,您应该知道,有许多替代的高级 API 可能具有更直观的接口。 如果有兴趣,请参阅 [Keras](https://keras.io/),`tf.slim`(包含在 TF 中)或 [TFLearn](http://tflearn.org/)。为了了解有关 TensorFlow-Slim 的更多信息,请参阅[此链接](https://github.com/tensorflow/tensorflow/tree/master/tensorflow/contrib/slim)。
## 起步
要开始使用 TensorFlow Learn,您只需导入它即可。 我们还将导入`estimators`函数,这将帮助我们制作常规模型:
```py
# TF made EZ
import tensorflow.contrib.learn as learn
from tensorflow.contrib.learn.python.learn.estimators import estimator
```
我们还希望导入一些用于基本操作的库 -- 抓取 NumPy,`math`和 Matplotlib(可选)。 这里值得注意的是`sklearn`,这是一个通用的机器学习库,它试图简化模型的创建,训练和使用。 我们主要将其用于方便的指标,但是您会发现它具有与 Learn 类似的主接口:
```py
# Some basics
import numpy as np
import math
import matplotlib.pyplot as plt
plt.ion()
# Learn more sklearn
# scikit-learn.org
import sklearn
from sklearn import metrics
```
接下来,我们将读取一些数据进行处理。 由于您熟悉字体分类问题,因此让我们继续对其建模。 为了重现性,您可以使用自己喜欢的数字为 NumPy 播种:
```py
# Seed the data
np.random.seed(42)
# Load data
data = np.load('data_with_labels.npz')
train = data['arr_0']/255.
labels = data['arr_1']
```
对于本练习,将您的数据分为训练和验证集; `np.random.permutation`对于为您的输入数据生成随机顺序很有用,所以让我们像在以前的模块中那样使用它:
```py
# Split data into training and validation
indices = np.random.permutation(train.shape[0])
valid_cnt = int(train.shape[0] * 0.1)
test_idx, training_idx = indices[:valid_cnt],\
indices[valid_cnt:]
test, train = train[test_idx,:],\
train[training_idx,:]
test_labels, train_labels = labels[test_idx],\
labels[training_idx]
```
在这里,`tf.contrib.learn`可以对其接收的数据类型有所变幻。 为了发挥出色,我们需要重铸数据。 图像输入将是`np.float32`,而不是默认的 64 位。 同样,我们的标签将是`np.int32`而不是`np.uint8`,即使这只会占用更多内存:
```py
train = np.array(train,dtype=np.float32)
test = np.array(test,dtype=np.float32)
train_labels = np.array(train_labels,dtype=np.int32)
test_labels = np.array(test_labels,dtype=np.int32)
```
## 逻辑回归
让我们做一个简单的逻辑回归示例。 这将非常迅速,并显示`learn`如何使简单的模型变得异常简单。 首先,我们必须创建模型期望输入的变量列表。 您可能希望可以使用一个简单的参数来设置它,但实际上是这个不直观的`learn.infer_real_valued_columns_from_input`函数。 基本上,如果将输入数据提供给该函数,它将推断出您拥有多少个特征列以及其应处于的形状。在我们的线性模型中,我们希望将图像展平为一维,因此我们对其执行整形推断函数时:
```py
# Convert features to learn style
feature_columns = learn.infer_real_valued_columns_from_input(train.reshape([-1,36*36]))
```
现在创建一个名为`classifier`的新变量,并为其分配`estimator.SKCompat`结构。 这是一个 Scikit-Learn 兼容性层,允许您在 TensorFlow 模型中使用某些 Scikit-Learn 模块。
无论如何,这仅仅是敷料,真正创建模型的是`learn.LinearClassifier`。 这样就建立了模型,但是没有训练。 因此,它只需要几个参数。 首先是那个时髦的`feature_columns`对象,只是让您的模型知道期望输入什么。 第二个也是最后一个必需的参数是它的反函数,模型应具有多少个输出值? 我们有五种字体,因此设置`n_classes = 5`。 这就是整个模型规格!
```py
# Logistic Regression
classifier = estimator.SKCompat(learn.LinearClassifier(
feature_columns = feature_columns,
n_classes=5))
```
要进行训练,只需要一行。 调用`classifier.fit`并输入数据(当然是经过调整的形状),输出标签(请注意,这些标签不必是一字不漏的格式)以及其他一些参数。 `steps`参数确定模型将查看多少批次,即优化算法要采取的步骤。 `batch_size`参数通常是优化步骤中要使用的数据点数。 因此,您可以将步数乘以批次大小除以训练集中的数据点数来计算周期数。 这似乎有点违反直觉,但至少是一个快速的说明,您可以轻松编写帮助函数以在步骤和周期之间进行转换:
```py
# One line training
# steps is number of total batches
# steps*batch_size/len(train) = num_epochs
classifier.fit(train.reshape([-1,36*36]),
train_labels,
steps=1024,
batch_size=32)
```
为了评估我们的模型,我们将照常使用`sklearn`的`metrics`。 但是,基本学习模型预测的输出现在是字典,其中包含预先计算的类标签以及概率和对数。 要提取类标签,请使用键`classes`:
```py
# sklearn compatible accuracy
test_probs = classifier.predict(test.reshape([-1,36*36]))
sklearn.metrics.accuracy_score(test_labels,
test_probs['classes'])
```
# DNN
尽管有更好的方法来实现纯线性模型,但 TensorFlow 和`learn`真正的亮点在于简化具有不同层数的 DNN。
我们将使用相同的输入特征,但现在我们将构建一个具有两个隐藏层的 DNN,首先是`10`神经元,然后是`5`。 创建此模型仅需一行 Python 代码; 这再简单不过了。
规格类似于我们的线性模型。 我们仍然需要`SKCompat`,但现在是`learn.DNNClassifier`。 对于参数,还有一个额外的要求:每个隐藏层上的神经元数量,以列表的形式传递。 这个简单的参数真正抓住了 DNN 模型的本质,使深度学习的力量触手可及。
也有一些可选的参数,但是我们只提及`optimizer`。 这样,您就可以在不同的常见优化器例程之间进行选择,例如随机梯度下降(SGD)或 Adam。 很方便!
```py
# Dense neural net
classifier = estimator.SKCompat(learn.DNNClassifier(
feature_columns = feature_columns,
hidden_units=[10,5],
n_classes=5,
optimizer='Adam'))
```
训练和评估与线性模型完全一样。 仅出于演示目的,我们还可以查看此模型创建的混淆矩阵。 请注意,我们训练不多,因此该模型可能无法与使用纯 TensorFlow 的早期作品竞争:
```py
# Same training call
classifier.fit(train.reshape([-1,36*36]),
train_labels,
steps=1024,
batch_size=32)
# simple accuracy
test_probs = classifier.predict(test.reshape([-1,36*36]))
sklearn.metrics.accuracy_score(test_labels,
test_probs['classes'])
# confusion is easy
train_probs = classifier.predict(train.reshape([-1,36*36]))
conf = metrics.confusion_matrix(train_labels,
train_probs['classes'])
print(conf)
```
## TFLearn 中的卷积神经网络(CNN)
CNN 支持一些最成功的机器学习模型,因此我们希望`learn`支持它们。 实际上,该库支持使用任意 TensorFlow 代码! 您会发现这是一种祝福和诅咒。 拥有任意可用的代码意味着您可以使用`learn`来执行几乎可以使用纯 TensorFlow 进行的所有操作,从而提供最大的灵活性。 但是通用接口往往会使代码更难以读写。
如果您发现自己在`learn`中使用接口使某些复杂的模型起作用,那么可能是时候使用纯 TensorFlow 或切换到另一个 API 了。
为了证明这种通用性,我们将构建一个简单的 CNN 来解决字体分类问题。 它将具有一个带有四个过滤器的卷积层,然后将其展平为具有五个神经元的隐藏密集层,最后以密集连接的输出逻辑回归结束。
首先,让我们再进行几个导入。 我们想要访问通用的 TensorFlow,但是我们还需要`layers`模块以`learn`期望的方式调用 TensorFlow `layers`:
```py
# Access general TF functions
import tensorflow as tf
import tensorflow.contrib.layers as layers
```
通用接口迫使我们编写为模型创建操作的函数。 您可能会发现这很乏味,但这就是灵活性的代价。
用三个参数启动一个名为`conv_learn`的新函数。 `X`将作为输入数据,`y`将作为输出标签(尚未进行一次热编码),`mode`确定您是训练还是预测。 请注意,您永远不会直接与此特征交互; 您只需将其传递给需要这些参数的构造器。 因此,如果您想改变层的数量或类型,则需要编写一个新的模型函数(或另一个会生成这种模型函数的函数):
```py
def conv_learn(X, y, mode):
```
由于这是卷积模型,因此我们需要确保数据格式正确。 特别是,这意味着将输入重塑为不仅具有正确的二维形状(`36x36`),而且具有 1 个颜色通道(最后一个尺寸)。 这是 TensorFlow 计算图的一部分,因此我们使用`tf.reshape`而不是`np.reshape`。 同样,由于这是通用图,因此我们希望将输出进行一次热编码,`tf.one_hot`提供了该功能。 请注意,我们必须描述有多少类(`5`),应设置的值(`1`)和未设置的值(`0`):
```py
# Ensure our images are 2d
X = tf.reshape(X, [-1, 36, 36, 1])
# We'll need these in one-hot format
y = tf.one_hot(tf.cast(y, tf.int32), 5, 1, 0)
```
现在,真正的乐趣开始了。 为了指定卷积层,让我们初始化一个新的作用域`conv_layer`。 这只会确保我们不会破坏任何变量。 `layers.convolutional`提供了基本的机制。 它接受我们的输入(一个 TensorFlow 张量),多个输出(实际上是内核或过滤器的数量)以及内核的大小,这里是`5x5`的窗口。 对于激活函数,让我们使用整流线性,可以从主 TensorFlow 模块调用它。 这给了我们基本的卷积输出`h1`。
实际上,最大池化的发生与常规 TensorFlow 中的发生完全相同,既不容易也不难。 具有通常的内核大小和步幅的`tf.nn.max_pool`函数可以正常工作。 保存到`p1`中:
```py
# conv layer will compute 4 kernels for each 5x5 patch
with tf.variable_scope('conv_layer'):
# 5x5 convolution, pad with zeros on edges
h1 = layers.convolution2d(X, num_outputs=4,
kernel_size=[5, 5],
activation_fn=tf.nn.relu)
# 2x2 Max pooling, no padding on edges
p1 = tf.nn.max_pool(h1, ksize=[1, 2, 2, 1],
strides=[1, 2, 2, 1], padding='VALID')
```
现在,要在此时展平张量,我们需要计算将要成为一维张量的元素数量。 一种方法是将所有尺寸值(`batch_size`除外,它占据第一个位置)相乘。 此特定操作可以在计算图之外进行,因此我们使用`np.product`。 一旦提供了总大小,我们就可以将其传递给`tf.reshape`以重新划分图中的中间张量:
```py
# Need to flatten conv output for use in dense layer
p1_size = np.product(
[s.value for s in p1.get_shape()[1:]])
p1f = tf.reshape(p1, [-1, p1_size ])
```
现在是时候建立紧密连接的层了。 `layers`模块再次出现,这一次具有`fully_connected`函数(致密层的另一个名称)。 这需要上一层,神经元的数量和激活函数,它们又由通用 TensorFlow 提供。
为了演示的目的,我们也在此处添加一个`dropout`对象。 `layers.dropout`提供了接口。 不出所料,它需要上一层以及保持给定节点输出的概率。 但是它也需要我们传递给原始`conv_learn`函数的`mode`参数。 所有这些复杂的接口只不过是在训练期间丢弃节点。 如果您能解决这个问题,那么我们几乎可以遍历整个模型!
```py
# densely connected layer with 32 neurons and dropout
h_fc1 = layers.fully_connected(p1f,
5,
activation_fn=tf.nn.relu)
drop = layers.dropout(h_fc1, keep_prob=0.5,
is_training=mode == tf.contrib.learn.ModeKeys.TRAIN)
```
现在有一些坏消息。 我们需要手动写出最终的线性模型,损失函数和优化参数。 这可能会因版本而异,因为在某些情况下,以前对用户来说更容易,但对后端的维护则更困难。 但是,让我们坚持下去; 确实不是很繁琐。
另一个`layers.fully_connected`层创建最终的逻辑回归。 请注意,此处的激活应为`None`,因为它是线性的。 处理方程逻辑方面的是损失函数。 值得庆幸的是,TensorFlow 提供了`softmax_cross_entropy`函数,因此我们无需手动将其写出。 给定输入,输出和损失函数,我们可以应用优化例程。 同样,`layers.optimize_loss`以及相关函数可以最大程度地减少痛苦。 将您的损失节点,优化器(作为字符串)和学习率传递给它。 此外,为其提供此`get_global_step()`参数,以确保优化程序正确处理衰减。
最后,我们的函数需要返回一些东西。 第一,它应该报告预测的类别。 接下来,它必须自己提供损失节点输出。 最后,训练节点必须可用于外部例程以实际执行所有操作:
```py
logits = layers.fully_connected(drop, 5, activation_fn=None)
loss = tf.losses.softmax_cross_entropy(y, logits)
# Setup the training function manually
train_op = layers.optimize_loss(
loss,
tf.contrib.framework.get_global_step(),
optimizer='Adam',
learning_rate=0.01)
return tf.argmax(logits, 1), loss, train_op
```
虽然指定模型可能很麻烦,但使用它就像以前一样容易。 现在,使用最通用的例程`learn.Estimator`,并将模型函数传递给`model_fn`。 并且不要忘记`SKCompat`!
训练的工作原理与以前完全相同,只是请注意,我们不需要在此处重塑输入内容,因为这是在函数内部处理的。
要使用模型进行预测,您可以简单地调用`classifier.predict`,但是请注意,您会获得函数返回的第一个参数作为输出。 我们选择返回该类,但也可以从`softmax`函数中返回概率。 这就是`tf.contrib.learn`模型的基础!
```py
# Use generic estimator with our function
classifier = estimator.SKCompat(
learn.Estimator(
model_fn=conv_learn))
classifier.fit(train,train_labels,
steps=1024,
batch_size=32)
# simple accuracy
metrics.accuracy_score(test_labels,classifier.predict(test))
```
## 提取权重
虽然训练和预测是模型的核心用途,但也必须研究模型的内部也很重要。 不幸的是,此 API 使得提取参数权重变得困难。 值得庆幸的是,本节提供了一些文献记载较弱的功能的简单示例,以使权重从`tf.contrib.learn`模型中消失。
为了拉出模型的权重,我们确实需要从基础 TensorFlow 计算图中的某些点获取值。 TensorFlow 提供了许多方法来执行此操作,但是第一个问题只是弄清楚您感兴趣的变量被称为什么。
可以使用`learn`图中的变量名列表,但该变量名已隐藏在`_estimator`隐藏属性下。 调用`classifier._estimator.get_variable_names()`将返回您各种名称的字符串列表。 其中许多将是无趣的,例如`OptimizeLoss`条目。 在我们的情况下,我们正在寻找`conv_layer`和`fully_connected`元素:
```py
# See layer names
print(classifier._estimator.get_variable_names())
['OptimizeLoss/beta1_power',
'OptimizeLoss/beta2_power',
'OptimizeLoss/conv_layer/Conv/biases/Adam',
'OptimizeLoss/conv_layer/Conv/biases/Adam_1',
'OptimizeLoss/conv_layer/Conv/weights/Adam',
'OptimizeLoss/conv_layer/Conv/weights/Adam_1',
'OptimizeLoss/fully_connected/biases/Adam',
'OptimizeLoss/fully_connected/biases/Adam_1',
'OptimizeLoss/fully_connected/weights/Adam',
'OptimizeLoss/fully_connected/weights/Adam_1',
'OptimizeLoss/fully_connected_1/biases/Adam',
'OptimizeLoss/fully_connected_1/biases/Adam_1',
'OptimizeLoss/fully_connected_1/weights/Adam',
'OptimizeLoss/fully_connected_1/weights/Adam_1',
'OptimizeLoss/learning_rate',
'conv_layer/Conv/biases',
'conv_layer/Conv/weights',
'fully_connected/biases',
'fully_connected/weights',
'fully_connected_1/biases',
'fully_connected_1/weights',
'global_step']
```
找出哪个条目是您要查找的层可能是一个挑战。 在这里,`conv_layer`显然来自我们的卷积层。 但是,您看到两个`fully_connected`元素,一个是展平时的密集层,另一个是输出权重。 事实证明,它们是按指定的顺序命名的。 我们首先创建了密集的隐藏层,所以它获得了基本的`fully_connected`名称,而输出层位于最后,因此在其上面加上了`_1`。 如果不确定,可以随时查看权重数组的形状,具体取决于模型的形状。
要真正发挥作用,这是另一个不可思议的要求。 这次,`classifier._estimator.get_variable_value`(带有变量名字符串)提供了具有相关权重的 NumPy 数组。 试用卷积权重和偏差以及密集层:
```py
# Convolutional Layer Weights
print(classifier._estimator.get_variable_value(
'conv_layer/Conv/weights'))
print(classifier._estimator.get_variable_value(
'conv_layer/Conv/biases'))
# Dense Layer
print(classifier._estimator.get_variable_value(
'fully_connected/weights'))
# Logistic weights
print(classifier._estimator.get_variable_value(
'fully_connected_1/weights'))
```
现在,掌握了如何在`tf.contrib.learn`神经网络内部进行交流的深奥知识,您将可以使用此高级 API 拥有更多的能力。 尽管在许多情况下很方便,但在其他情况下却很麻烦。 永远不要害怕暂停并考虑切换到另一个库; 为正确的机器学习工作使用正确的机器学习工具。
# 总结
从简单理解 RNN 到在新的 TensorFlow 模型中实现它们,您在本章中学到了很多东西。 我们还查看了 TensorFlow 的一个简单接口,称为 TensorFlow Learn。 我们还遍历了 DNN,并了解了 CNN 和详细提取权重。
在下一章中,我们将对 TensorFlow 进行总结,看看我们已经走了多远,以及从这里可以去哪里。
- TensorFlow 1.x 深度学习秘籍
- 零、前言
- 一、TensorFlow 简介
- 二、回归
- 三、神经网络:感知器
- 四、卷积神经网络
- 五、高级卷积神经网络
- 六、循环神经网络
- 七、无监督学习
- 八、自编码器
- 九、强化学习
- 十、移动计算
- 十一、生成模型和 CapsNet
- 十二、分布式 TensorFlow 和云深度学习
- 十三、AutoML 和学习如何学习(元学习)
- 十四、TensorFlow 处理单元
- 使用 TensorFlow 构建机器学习项目中文版
- 一、探索和转换数据
- 二、聚类
- 三、线性回归
- 四、逻辑回归
- 五、简单的前馈神经网络
- 六、卷积神经网络
- 七、循环神经网络和 LSTM
- 八、深度神经网络
- 九、大规模运行模型 -- GPU 和服务
- 十、库安装和其他提示
- TensorFlow 深度学习中文第二版
- 一、人工神经网络
- 二、TensorFlow v1.6 的新功能是什么?
- 三、实现前馈神经网络
- 四、CNN 实战
- 五、使用 TensorFlow 实现自编码器
- 六、RNN 和梯度消失或爆炸问题
- 七、TensorFlow GPU 配置
- 八、TFLearn
- 九、使用协同过滤的电影推荐
- 十、OpenAI Gym
- TensorFlow 深度学习实战指南中文版
- 一、入门
- 二、深度神经网络
- 三、卷积神经网络
- 四、循环神经网络介绍
- 五、总结
- 精通 TensorFlow 1.x
- 一、TensorFlow 101
- 二、TensorFlow 的高级库
- 三、Keras 101
- 四、TensorFlow 中的经典机器学习
- 五、TensorFlow 和 Keras 中的神经网络和 MLP
- 六、TensorFlow 和 Keras 中的 RNN
- 七、TensorFlow 和 Keras 中的用于时间序列数据的 RNN
- 八、TensorFlow 和 Keras 中的用于文本数据的 RNN
- 九、TensorFlow 和 Keras 中的 CNN
- 十、TensorFlow 和 Keras 中的自编码器
- 十一、TF 服务:生产中的 TensorFlow 模型
- 十二、迁移学习和预训练模型
- 十三、深度强化学习
- 十四、生成对抗网络
- 十五、TensorFlow 集群的分布式模型
- 十六、移动和嵌入式平台上的 TensorFlow 模型
- 十七、R 中的 TensorFlow 和 Keras
- 十八、调试 TensorFlow 模型
- 十九、张量处理单元
- TensorFlow 机器学习秘籍中文第二版
- 一、TensorFlow 入门
- 二、TensorFlow 的方式
- 三、线性回归
- 四、支持向量机
- 五、最近邻方法
- 六、神经网络
- 七、自然语言处理
- 八、卷积神经网络
- 九、循环神经网络
- 十、将 TensorFlow 投入生产
- 十一、更多 TensorFlow
- 与 TensorFlow 的初次接触
- 前言
- 1. TensorFlow 基础知识
- 2. TensorFlow 中的线性回归
- 3. TensorFlow 中的聚类
- 4. TensorFlow 中的单层神经网络
- 5. TensorFlow 中的多层神经网络
- 6. 并行
- 后记
- TensorFlow 学习指南
- 一、基础
- 二、线性模型
- 三、学习
- 四、分布式
- TensorFlow Rager 教程
- 一、如何使用 TensorFlow Eager 构建简单的神经网络
- 二、在 Eager 模式中使用指标
- 三、如何保存和恢复训练模型
- 四、文本序列到 TFRecords
- 五、如何将原始图片数据转换为 TFRecords
- 六、如何使用 TensorFlow Eager 从 TFRecords 批量读取数据
- 七、使用 TensorFlow Eager 构建用于情感识别的卷积神经网络(CNN)
- 八、用于 TensorFlow Eager 序列分类的动态循坏神经网络
- 九、用于 TensorFlow Eager 时间序列回归的递归神经网络
- TensorFlow 高效编程
- 图嵌入综述:问题,技术与应用
- 一、引言
- 三、图嵌入的问题设定
- 四、图嵌入技术
- 基于边重构的优化问题
- 应用
- 基于深度学习的推荐系统:综述和新视角
- 引言
- 基于深度学习的推荐:最先进的技术
- 基于卷积神经网络的推荐
- 关于卷积神经网络我们理解了什么
- 第1章概论
- 第2章多层网络
- 2.1.4生成对抗网络
- 2.2.1最近ConvNets演变中的关键架构
- 2.2.2走向ConvNet不变性
- 2.3时空卷积网络
- 第3章了解ConvNets构建块
- 3.2整改
- 3.3规范化
- 3.4汇集
- 第四章现状
- 4.2打开问题
- 参考
- 机器学习超级复习笔记
- Python 迁移学习实用指南
- 零、前言
- 一、机器学习基础
- 二、深度学习基础
- 三、了解深度学习架构
- 四、迁移学习基础
- 五、释放迁移学习的力量
- 六、图像识别与分类
- 七、文本文件分类
- 八、音频事件识别与分类
- 九、DeepDream
- 十、自动图像字幕生成器
- 十一、图像着色
- 面向计算机视觉的深度学习
- 零、前言
- 一、入门
- 二、图像分类
- 三、图像检索
- 四、对象检测
- 五、语义分割
- 六、相似性学习
- 七、图像字幕
- 八、生成模型
- 九、视频分类
- 十、部署
- 深度学习快速参考
- 零、前言
- 一、深度学习的基础
- 二、使用深度学习解决回归问题
- 三、使用 TensorBoard 监控网络训练
- 四、使用深度学习解决二分类问题
- 五、使用 Keras 解决多分类问题
- 六、超参数优化
- 七、从头开始训练 CNN
- 八、将预训练的 CNN 用于迁移学习
- 九、从头开始训练 RNN
- 十、使用词嵌入从头开始训练 LSTM
- 十一、训练 Seq2Seq 模型
- 十二、深度强化学习
- 十三、生成对抗网络
- TensorFlow 2.0 快速入门指南
- 零、前言
- 第 1 部分:TensorFlow 2.00 Alpha 简介
- 一、TensorFlow 2 简介
- 二、Keras:TensorFlow 2 的高级 API
- 三、TensorFlow 2 和 ANN 技术
- 第 2 部分:TensorFlow 2.00 Alpha 中的监督和无监督学习
- 四、TensorFlow 2 和监督机器学习
- 五、TensorFlow 2 和无监督学习
- 第 3 部分:TensorFlow 2.00 Alpha 的神经网络应用
- 六、使用 TensorFlow 2 识别图像
- 七、TensorFlow 2 和神经风格迁移
- 八、TensorFlow 2 和循环神经网络
- 九、TensorFlow 估计器和 TensorFlow HUB
- 十、从 tf1.12 转换为 tf2
- TensorFlow 入门
- 零、前言
- 一、TensorFlow 基本概念
- 二、TensorFlow 数学运算
- 三、机器学习入门
- 四、神经网络简介
- 五、深度学习
- 六、TensorFlow GPU 编程和服务
- TensorFlow 卷积神经网络实用指南
- 零、前言
- 一、TensorFlow 的设置和介绍
- 二、深度学习和卷积神经网络
- 三、TensorFlow 中的图像分类
- 四、目标检测与分割
- 五、VGG,Inception,ResNet 和 MobileNets
- 六、自编码器,变分自编码器和生成对抗网络
- 七、迁移学习
- 八、机器学习最佳实践和故障排除
- 九、大规模训练
- 十、参考文献