标记嵌入 (token embedding) · python深度学习

也叫**词嵌入**（word embedding）。 * 词嵌入的作用应该是**将人类的语言映射到几何空间中** * one-hot 编码得到的向量是二进制的、稀疏的（绝大部分元素都是 0）、维度很高的（维度大小等于词表中的单词个数） * 词嵌入是低维的浮点数向量（即密集向量，与稀疏向量相对） ***** * 在完成主任务（比如文档分类或情感预测）的同时学习词嵌入。在这种情况下，一开始是随机的词向量，然后对这些词向量进行学习，其学习方式与学习神经网络的权重相同。 * 在不同于待解决问题的机器学习任务上预计算好词嵌入，然后将其加载到模型中。这些词嵌入叫作**预训练词嵌入**（pretrained word embedding）。 * ***** 小结： * 将原始文本转换为神经网络能够处理的格式。 * 使用 Keras 模型的`Embedding`层来学习针对特定任务的标记嵌入。 * 使用预训练词嵌入在小型自然语言处理问题上获得额外的性能提升。