多应用+插件架构,代码干净,二开方便,首家独创一键云编译技术,文档视频完善,免费商用码云13.8K 广告
# 4. 数据集转换 scikit-learn 提供了一个用于转换数据集的库, 它也许会 clean(清理)(请参阅 [预处理数据](modules/preprocessing.html#preprocessing)), reduce(减少)(请参阅 [无监督降维](modules/unsupervised_reduction.html#data-reduction)), expand(扩展)(请参阅 [内核近似](modules/kernel_approximation.html#kernel-approximation))或 generate(生成)(请参阅 [特征提取](modules/feature_extraction.html#feature-extraction)) feature representations(特征表示). 像其它预估计一样, 它们由具有 `fit` 方法的类来表示, 该方法从训练集学习模型参数(例如, 归一化的平均值和标准偏差)以及将该转换模型应用于 `transform` 方法到不可见数据. 同时 `fit_transform` 可以更方便和有效地建模与转换训练数据. 将 [Pipeline(管道)和 FeatureUnion(特征联合): 合并的评估器](modules/pipeline.html#combining-estimators) 中 transformers(转换)使用并行的或者串联的方式合并到一起. [成对的矩阵, 类别和核函数](modules/metrics.html#metrics) 涵盖将特征空间转换为 affinity matrices(亲和矩阵), 而 [预测目标 (y) 的转换](modules/preprocessing_targets.html#preprocessing-targets) 考虑在 scikit-learn 中使用目标空间的转换(例如. 标签分类). - [4.1. Pipeline(管道)和 FeatureUnion(特征联合): 合并的评估器](modules/pipeline.html) - [4.1.1. Pipeline: 链式评估器](modules/pipeline.html#pipeline) - [4.1.1.1. 用法](modules/pipeline.html#id8) - [4.1.1.2. 注意点](modules/pipeline.html#id9) - [4.1.1.3. 缓存转换器:避免重复计算](modules/pipeline.html#pipeline-cache) - [4.1.2. FeatureUnion(特征联合): 个特征层面](modules/pipeline.html#featureunion) - [4.1.2.1. 用法](modules/pipeline.html#id11) - [4.2. 特征提取](modules/feature_extraction.html) - [4.2.1. 从字典类型加载特征](modules/feature_extraction.html#dict-feature-extraction) - [4.2.2. 特征哈希(相当于一种降维技巧)](modules/feature_extraction.html#feature-hashing) - [4.2.2.1. 实现细节](modules/feature_extraction.html#id4) - [4.2.3. 文本特征提取](modules/feature_extraction.html#text-feature-extraction) - [4.2.3.1. 话语表示](modules/feature_extraction.html#id7) - [4.2.3.2. 稀疏](modules/feature_extraction.html#id8) - [4.2.3.3. 常用 Vectorizer 使用](modules/feature_extraction.html#vectorizer) - [4.2.3.4. Tf–idf 项加权](modules/feature_extraction.html#tfidf) - [4.2.3.5. 解码文本文件](modules/feature_extraction.html#id10) - [4.2.3.6. 应用和实例](modules/feature_extraction.html#id11) - [4.2.3.7. 词语表示的限制](modules/feature_extraction.html#id12) - [4.2.3.8. 用哈希技巧矢量化大文本语料库](modules/feature_extraction.html#hashing-vectorizer) - [4.2.3.9. 使用 HashingVectorizer 执行外核缩放](modules/feature_extraction.html#hashingvectorizer) - [4.2.3.10. 自定义矢量化器类](modules/feature_extraction.html#id14) - [4.2.4. 图像特征提取](modules/feature_extraction.html#image-feature-extraction) - [4.2.4.1. 补丁提取](modules/feature_extraction.html#id16) - [4.2.4.2. 图像的连接图](modules/feature_extraction.html#id17) - [4.3. 预处理数据](modules/preprocessing.html) - [4.3.1. 标准化,也称去均值和方差按比例缩放](modules/preprocessing.html#preprocessing-scaler) - [4.3.1.1. 将特征缩放至特定范围内](modules/preprocessing.html#id3) - [4.3.1.2. 缩放稀疏(矩阵)数据](modules/preprocessing.html#id4) - [4.3.1.3. 缩放有离群值的数据](modules/preprocessing.html#id5) - [4.3.1.4. 核矩阵的中心化](modules/preprocessing.html#kernel-centering) - [4.3.2. 非线性转换](modules/preprocessing.html#preprocessing-transformer) - [4.3.3. 归一化](modules/preprocessing.html#preprocessing-normalization) - [4.3.4. 二值化](modules/preprocessing.html#preprocessing-binarization) - [4.3.4.1. 特征二值化](modules/preprocessing.html#id10) - [4.3.5. 分类特征编码](modules/preprocessing.html#preprocessing-categorical-features) - [4.3.6. 缺失值插补](modules/preprocessing.html#imputation) - [4.3.7. 生成多项式特征](modules/preprocessing.html#polynomial-features) - [4.3.8. 自定义转换器](modules/preprocessing.html#function-transformer) - [4.4. 无监督降维](modules/unsupervised_reduction.html) - [4.4.1. PCA: 主成份分析](modules/unsupervised_reduction.html#pca) - [4.4.2. 随机投影](modules/unsupervised_reduction.html#id2) - [4.4.3. 特征聚集](modules/unsupervised_reduction.html#id3) - [4.5. 随机投影](modules/random_projection.html) - [4.5.1. Johnson-Lindenstrauss 辅助定理](modules/random_projection.html#johnson-lindenstrauss) - [4.5.2. 高斯随机投影](modules/random_projection.html#gaussian-random-matrix) - [4.5.3. 稀疏随机矩阵](modules/random_projection.html#sparse-random-matrix) - [4.6. 内核近似](modules/kernel_approximation.html) - [4.6.1. 内核近似的 Nystroem 方法](modules/kernel_approximation.html#nystroem) - [4.6.2. 径向基函数内核](modules/kernel_approximation.html#rbf-kernel-approx) - [4.6.3. 加性卡方核](modules/kernel_approximation.html#additive-chi-kernel-approx) - [4.6.4. Skewed Chi Squared Kernel (偏斜卡方核?暂译)](modules/kernel_approximation.html#skewed-chi-squared-kernel) - [4.6.5. 数学方面的细节](modules/kernel_approximation.html#id8) - [4.7. 成对的矩阵, 类别和核函数](modules/metrics.html) - [4.7.1. 余弦相似度](modules/metrics.html#cosine-similarity) - [4.7.2. 线性核函数](modules/metrics.html#linear-kernel) - [4.7.3. 多项式核函数](modules/metrics.html#polynomial-kernel) - [4.7.4. Sigmoid 核函数](modules/metrics.html#sigmoid) - [4.7.5. RBF 核函数](modules/metrics.html#rbf) - [4.7.6. 拉普拉斯核函数](modules/metrics.html#laplacian-kernel) - [4.7.7. 卡方核函数](modules/metrics.html#chi2-kernel) - [4.8. 预测目标 (`y`) 的转换](modules/preprocessing_targets.html) - [4.8.1. 标签二值化](modules/preprocessing_targets.html#id1) - [4.8.2. 标签编码](modules/preprocessing_targets.html#id2)