企业🤖AI智能体构建引擎,智能编排和调试,一键部署,支持私有化部署方案 广告
**文本向量化**(vectorize)是指将文本转换为数值张量的过程 * 将文本分割为单词,并将每个**单词**转换为一个向量。 * 将文本分割为字符,并将每个**字符**转换为一个向量。 * 提取单词或字符的 n-gram,并将每个 n-gram 转换为一个向量。 **n-gram**是多个连续单词或字符的集合(n-gram 之间可重叠)。 **标记**(token):将文本分解而成的单元(单词、字符或 n-gram) **分词** (tokenization):将文本分解成标记的过程 ![](https://img.kancloud.cn/9b/0a/9b0ad189015518ddc62468c29fd22bcf_543x597.png)