# 4. 数据集转换
scikit-learn 提供了一个用于转换数据集的库, 它也许会 clean(清理)(请参阅 [预处理数据](modules/preprocessing.html#preprocessing)), reduce(减少)(请参阅 [无监督降维](modules/unsupervised_reduction.html#data-reduction)), expand(扩展)(请参阅 [内核近似](modules/kernel_approximation.html#kernel-approximation))或 generate(生成)(请参阅 [特征提取](modules/feature_extraction.html#feature-extraction)) feature representations(特征表示).
像其它预估计一样, 它们由具有 `fit` 方法的类来表示, 该方法从训练集学习模型参数(例如, 归一化的平均值和标准偏差)以及将该转换模型应用于 `transform` 方法到不可见数据. 同时 `fit_transform` 可以更方便和有效地建模与转换训练数据.
将 [Pipeline(管道)和 FeatureUnion(特征联合): 合并的评估器](modules/pipeline.html#combining-estimators) 中 transformers(转换)使用并行的或者串联的方式合并到一起. [成对的矩阵, 类别和核函数](modules/metrics.html#metrics) 涵盖将特征空间转换为 affinity matrices(亲和矩阵), 而 [预测目标 (y) 的转换](modules/preprocessing_targets.html#preprocessing-targets) 考虑在 scikit-learn 中使用目标空间的转换(例如. 标签分类).
- [4.1. Pipeline(管道)和 FeatureUnion(特征联合): 合并的评估器](modules/pipeline.html)
- [4.1.1. Pipeline: 链式评估器](modules/pipeline.html#pipeline)
- [4.1.1.1. 用法](modules/pipeline.html#id8)
- [4.1.1.2. 注意点](modules/pipeline.html#id9)
- [4.1.1.3. 缓存转换器:避免重复计算](modules/pipeline.html#pipeline-cache)
- [4.1.2. FeatureUnion(特征联合): 个特征层面](modules/pipeline.html#featureunion)
- [4.1.2.1. 用法](modules/pipeline.html#id11)
- [4.2. 特征提取](modules/feature_extraction.html)
- [4.2.1. 从字典类型加载特征](modules/feature_extraction.html#dict-feature-extraction)
- [4.2.2. 特征哈希(相当于一种降维技巧)](modules/feature_extraction.html#feature-hashing)
- [4.2.2.1. 实现细节](modules/feature_extraction.html#id4)
- [4.2.3. 文本特征提取](modules/feature_extraction.html#text-feature-extraction)
- [4.2.3.1. 话语表示](modules/feature_extraction.html#id7)
- [4.2.3.2. 稀疏](modules/feature_extraction.html#id8)
- [4.2.3.3. 常用 Vectorizer 使用](modules/feature_extraction.html#vectorizer)
- [4.2.3.4. Tf–idf 项加权](modules/feature_extraction.html#tfidf)
- [4.2.3.5. 解码文本文件](modules/feature_extraction.html#id10)
- [4.2.3.6. 应用和实例](modules/feature_extraction.html#id11)
- [4.2.3.7. 词语表示的限制](modules/feature_extraction.html#id12)
- [4.2.3.8. 用哈希技巧矢量化大文本语料库](modules/feature_extraction.html#hashing-vectorizer)
- [4.2.3.9. 使用 HashingVectorizer 执行外核缩放](modules/feature_extraction.html#hashingvectorizer)
- [4.2.3.10. 自定义矢量化器类](modules/feature_extraction.html#id14)
- [4.2.4. 图像特征提取](modules/feature_extraction.html#image-feature-extraction)
- [4.2.4.1. 补丁提取](modules/feature_extraction.html#id16)
- [4.2.4.2. 图像的连接图](modules/feature_extraction.html#id17)
- [4.3. 预处理数据](modules/preprocessing.html)
- [4.3.1. 标准化,也称去均值和方差按比例缩放](modules/preprocessing.html#preprocessing-scaler)
- [4.3.1.1. 将特征缩放至特定范围内](modules/preprocessing.html#id3)
- [4.3.1.2. 缩放稀疏(矩阵)数据](modules/preprocessing.html#id4)
- [4.3.1.3. 缩放有离群值的数据](modules/preprocessing.html#id5)
- [4.3.1.4. 核矩阵的中心化](modules/preprocessing.html#kernel-centering)
- [4.3.2. 非线性转换](modules/preprocessing.html#preprocessing-transformer)
- [4.3.3. 归一化](modules/preprocessing.html#preprocessing-normalization)
- [4.3.4. 二值化](modules/preprocessing.html#preprocessing-binarization)
- [4.3.4.1. 特征二值化](modules/preprocessing.html#id10)
- [4.3.5. 分类特征编码](modules/preprocessing.html#preprocessing-categorical-features)
- [4.3.6. 缺失值插补](modules/preprocessing.html#imputation)
- [4.3.7. 生成多项式特征](modules/preprocessing.html#polynomial-features)
- [4.3.8. 自定义转换器](modules/preprocessing.html#function-transformer)
- [4.4. 无监督降维](modules/unsupervised_reduction.html)
- [4.4.1. PCA: 主成份分析](modules/unsupervised_reduction.html#pca)
- [4.4.2. 随机投影](modules/unsupervised_reduction.html#id2)
- [4.4.3. 特征聚集](modules/unsupervised_reduction.html#id3)
- [4.5. 随机投影](modules/random_projection.html)
- [4.5.1. Johnson-Lindenstrauss 辅助定理](modules/random_projection.html#johnson-lindenstrauss)
- [4.5.2. 高斯随机投影](modules/random_projection.html#gaussian-random-matrix)
- [4.5.3. 稀疏随机矩阵](modules/random_projection.html#sparse-random-matrix)
- [4.6. 内核近似](modules/kernel_approximation.html)
- [4.6.1. 内核近似的 Nystroem 方法](modules/kernel_approximation.html#nystroem)
- [4.6.2. 径向基函数内核](modules/kernel_approximation.html#rbf-kernel-approx)
- [4.6.3. 加性卡方核](modules/kernel_approximation.html#additive-chi-kernel-approx)
- [4.6.4. Skewed Chi Squared Kernel (偏斜卡方核?暂译)](modules/kernel_approximation.html#skewed-chi-squared-kernel)
- [4.6.5. 数学方面的细节](modules/kernel_approximation.html#id8)
- [4.7. 成对的矩阵, 类别和核函数](modules/metrics.html)
- [4.7.1. 余弦相似度](modules/metrics.html#cosine-similarity)
- [4.7.2. 线性核函数](modules/metrics.html#linear-kernel)
- [4.7.3. 多项式核函数](modules/metrics.html#polynomial-kernel)
- [4.7.4. Sigmoid 核函数](modules/metrics.html#sigmoid)
- [4.7.5. RBF 核函数](modules/metrics.html#rbf)
- [4.7.6. 拉普拉斯核函数](modules/metrics.html#laplacian-kernel)
- [4.7.7. 卡方核函数](modules/metrics.html#chi2-kernel)
- [4.8. 预测目标 (`y`) 的转换](modules/preprocessing_targets.html)
- [4.8.1. 标签二值化](modules/preprocessing_targets.html#id1)
- [4.8.2. 标签编码](modules/preprocessing_targets.html#id2)
- scikit-learn 0.19 中文文档
- 用户指南
- 1. 监督学习
- 1.1. 广义线性模型
- 1.2. 线性和二次判别分析
- 1.3. 内核岭回归
- 1.4. 支持向量机
- 1.5. 随机梯度下降
- 1.6. 最近邻
- 1.7. 高斯过程
- 1.8. 交叉分解
- 1.9. 朴素贝叶斯
- 1.10. 决策树
- 1.11. 集成方法
- 1.12. 多类和多标签算法
- 1.13. 特征选择
- 1.14. 半监督学习
- 1.15. 等式回归
- 1.16. 概率校准
- 1.17. 神经网络模型(有监督)
- 2. 无监督学习
- 2.1. 高斯混合模型
- 2.2. 流形学习
- 2.3. 聚类
- 2.4. 双聚类
- 2.5. 分解成分中的信号(矩阵分解问题)
- 2.6. 协方差估计
- 2.7. 经验协方差
- 2.8. 收敛协方差
- 2.9. 稀疏逆协方差
- 2.10. Robust 协方差估计
- 2.11. 新奇和异常值检测
- 2.12. 密度估计
- 2.13. 神经网络模型(无监督)
- 3. 模型选择和评估
- 3.1. 交叉验证:评估估算器的表现
- 3.2. 调整估计器的超参数
- 3.3. 模型评估: 量化预测的质量
- 3.4. 模型持久化
- 3.5. 验证曲线: 绘制分数以评估模型
- 4. 数据集转换
- 4.1. Pipeline(管道)和 FeatureUnion(特征联合): 合并的评估器
- 4.2. 特征提取
- 4.3. 预处理数据
- 4.4. 无监督降维
- 4.5. 随机投影
- 4.6. 内核近似
- 4.7. 成对的矩阵, 类别和核函数
- 4.8. 预测目标 (y) 的转换
- 5. 数据集加载工具
- 6. 大规模计算的策略: 更大量的数据
- 7. 计算性能
- 教程
- 使用 scikit-learn 介绍机器学习
- 关于科学数据处理的统计学习教程
- 机器学习: scikit-learn 中的设置以及预估对象
- 监督学习:从高维观察预测输出变量
- 模型选择:选择估计量及其参数
- 无监督学习: 寻求数据表示
- 把它们放在一起
- 寻求帮助
- 处理文本数据
- 选择正确的评估器(estimator)
- 外部资源,视频和谈话