ThinkChat2.0新版上线,更智能更精彩,支持会话、画图、阅读、搜索等,送10W Token,即刻开启你的AI之旅 广告
也叫**词嵌入**(word embedding)。 * 词嵌入的作用应该是**将人类的语言映射到几何空间中** * one-hot 编码得到的向量是二进制的、稀疏的(绝大部分元素都是 0)、维度很高的(维度大小等于词表中的单词个数) * 词嵌入是低维的浮点数向量(即密集向量,与稀疏向量相对) ***** * 在完成主任务(比如文档分类或情感预测)的同时学习词嵌入。在这种情况下,一开始是随机的词向量,然后对这些词向量进行学习,其学习方式与学习神经网络的权重相同。 * 在不同于待解决问题的机器学习任务上预计算好词嵌入,然后将其加载到模型中。这些词嵌入叫作**预训练词嵌入**(pretrained word embedding)。 * ***** 小结: * 将原始文本转换为神经网络能够处理的格式。 * 使用 Keras 模型的`Embedding`层来学习针对特定任务的标记嵌入。 * 使用预训练词嵌入在小型自然语言处理问题上获得额外的性能提升。