# 电影评论情感分类(imdb)
数据集来自 IMDB 的 25,000 条电影评论,以情绪(正面/负面)标记。评论已经过预处理,并编码为词索引(整数)的序列表示。为了方便起见,将词按数据集中出现的频率进行索引,例如整数 3 编码数据中第三个最频繁的词。这允许快速筛选操作,例如:「只考虑前 10,000 个最常用的词,但排除前 20 个最常见的词」。
作为惯例,0 不代表特定的单词,而是被用于编码任何未知单词。
## 用法:
~~~
from AADeepLearning.datasets import imdb
(x_train, y_train), (x_test, y_test) = imdb.load_data(path="imdb.npz",
num_words=None,
skip_top=0,
maxlen=None,
seed=113,
start_char=1,
oov_char=2,
index_from=3)
~~~
* **返回:**
* 2 个元组:
* **x\_train, x\_test**: 序列的列表,即词索引的列表。如果指定了`num_words`参数,则可能的最大索引值是`num_words-1`。如果指定了`maxlen`参数,则可能的最大序列长度为`maxlen`。
* **y\_train, y\_test**: 整数标签列表 (1 或 0)。
* **参数:**
* **path**: 如果你本地没有该数据集 (在`'~/.aadeeplearning/datasets/' + path`),它将被下载到此目录。
* **num\_words**: 整数或 None。要考虑的最常用的词语。任何不太频繁的词将在序列数据中显示为`oov_char`值。
* **skip\_top**: 整数。要忽略的最常见的单词(它们将在序列数据中显示为`oov_char`值)。
* **maxlen**: 整数。最大序列长度。 任何更长的序列都将被截断。
* **seed**: 整数。用于可重现数据混洗的种子。
* **start\_char**: 整数。序列的开始将用这个字符标记。设置为 1,因为 0 通常作为填充字符。
* **oov\_char**: 整数。由于`num_words`或`skip_top`限制而被删除的单词将被替换为此字符。
* **index\_from**: 整数。使用此数以上更高的索引值实际词汇索引的开始。
- 序言
- 安装
- 快速体验
- 配置
- 层(layer)
- 展平(flatten)
- 全连接(fully connected)
- 卷积(convolutional)
- 池化(pooling)
- 标准化(batch normalization)
- 失活(dropout)
- 循环(RNN)
- 长短期记忆(LSTM)
- 激活函数(activation)
- relu
- sigmoid
- tanh
- 损失(loss)
- 交叉熵损失(softmax)
- 折页损失(SVM或Hinge)
- 优化器(optimizer)
- 带动量学习率自适应(adam)
- 动量(momentum)
- 学习率自适应(rmsprop)
- 随机梯度下降(sgd)
- 模型(model)
- 保存(save)
- 载入(reload)
- 继续训练(continue train)
- 数据集(datasets)
- 手写数字(mnist)
- 时尚物品(Fashion-MNIST)
- 10种物体分类(cifar10)
- 100种物体分类(cifar100)
- 电影评论情感分类(imdb)
- 路透社新闻主题分类(reuters)
- 可视化(visualization)
- 损失曲线(loss)
- 准确率曲线(accuracy)