🔥码云GVP开源项目 12k star Uniapp+ElementUI 功能强大 支持多语言、二开方便! 广告
### 令牌计数矢量化器 > 将文本样本集合转换为令牌计数向量。 ### 构造函数参数 `$tokenizer`(Tokenizer) - tokenizer对象(见下文) `$minDF`(float) - 忽略采样频率严格低于给定阈值的标记。该值在文献中也称为截止值。(默认为0) ``` use Phpml\FeatureExtraction\TokenCountVectorizer; use Phpml\Tokenization\WhitespaceTokenizer; $vectorizer = new TokenCountVectorizer(new WhitespaceTokenizer()); ``` ***** ### 转换 要转换文本样本集合,请使用`transform`方法。例: ``` $samples = [ 'Lorem ipsum dolor sit amet dolor', 'Mauris placerat ipsum dolor', 'Mauris diam eros fringilla diam', ]; $vectorizer = new TokenCountVectorizer(new WhitespaceTokenizer()); // Build the dictionary. $vectorizer->fit($samples); // Transform the provided text samples into a vectorized list. $vectorizer->transform($samples); // return $samples = [ // [0 => 1, 1 => 1, 2 => 2, 3 => 1, 4 => 1], // [5 => 1, 6 => 1, 1 => 1, 2 => 1], // [5 => 1, 7 => 2, 8 => 1, 9 => 1], //]; ``` ***** ### 词汇 您可以使用`getVocabulary()`方法提取词汇表。例: ``` $vectorizer->getVocabulary(); // return $vocabulary = ['Lorem', 'ipsum', 'dolor', 'sit', 'amet', 'Mauris', 'placerat', 'diam', 'eros', 'fringilla']; ``` ***** ### 分词 `WhitespaceTokenizer` - 按空格选择标记。 `WordTokenizer` - 选择2个或更多字母数字字符的标记(标点符号完全被忽略,并始终被视为标记分隔符)。