电影评论情感分类（imdb） · AADeepLearning

# 电影评论情感分类（imdb）数据集来自 IMDB 的 25,000 条电影评论，以情绪（正面/负面）标记。评论已经过预处理，并编码为词索引（整数）的序列表示。为了方便起见，将词按数据集中出现的频率进行索引，例如整数 3 编码数据中第三个最频繁的词。这允许快速筛选操作，例如：「只考虑前 10,000 个最常用的词，但排除前 20 个最常见的词」。作为惯例，0 不代表特定的单词，而是被用于编码任何未知单词。 ## 用法： ~~~ from AADeepLearning.datasets import imdb (x_train, y_train), (x_test, y_test) = imdb.load_data(path="imdb.npz", num_words=None, skip_top=0, maxlen=None, seed=113, start_char=1, oov_char=2, index_from=3) ~~~ * **返回：** * 2 个元组： * **x\_train, x\_test**: 序列的列表，即词索引的列表。如果指定了`num_words`参数，则可能的最大索引值是`num_words-1`。如果指定了`maxlen`参数，则可能的最大序列长度为`maxlen`。 * **y\_train, y\_test**: 整数标签列表 (1 或 0)。 * **参数:** * **path**: 如果你本地没有该数据集 (在`'~/.aadeeplearning/datasets/' + path`)，它将被下载到此目录。 * **num\_words**: 整数或 None。要考虑的最常用的词语。任何不太频繁的词将在序列数据中显示为`oov_char`值。 * **skip\_top**: 整数。要忽略的最常见的单词（它们将在序列数据中显示为`oov_char`值）。 * **maxlen**: 整数。最大序列长度。任何更长的序列都将被截断。 * **seed**: 整数。用于可重现数据混洗的种子。 * **start\_char**: 整数。序列的开始将用这个字符标记。设置为 1，因为 0 通常作为填充字符。 * **oov\_char**: 整数。由于`num_words`或`skip_top`限制而被删除的单词将被替换为此字符。 * **index\_from**: 整数。使用此数以上更高的索引值实际词汇索引的开始。