# 关于科学数据处理的统计学习教程
Statistical learning
[Machine learning](https://en.wikipedia.org/wiki/Machine_learning) is a technique with a growing importance, as the size of the datasets experimental sciences are facing is rapidly growing. Problems it tackles range from building a prediction function linking different observations, to classifying observations, or learning the structure in an unlabeled dataset.
This tutorial will explore *statistical learning*, the use of machine learning techniques with the goal of [statistical inference](https://en.wikipedia.org/wiki/Statistical_inference): drawing conclusions on the data at hand.
Scikit-learn is a Python module integrating classic machine learning algorithms in the tightly-knit world of scientific Python packages ([NumPy](http://www.scipy.org), [SciPy](http://www.scipy.org), [matplotlib](http://matplotlib.org)).
- [机器学习: scikit-learn 中的设置以及预估对象](settings.html)
- [数据集](settings.html#id1)
- [预估对象](settings.html#id2)
- [监督学习:从高维观察预测输出变量](supervised_learning.html)
- [最近邻和维度惩罚](supervised_learning.html#id2)
- [线性模型:从回归到稀疏](supervised_learning.html#id6)
- [支持向量积(SVMs)](supervised_learning.html#svms)
- [模型选择:选择估计量及其参数](model_selection.html)
- [分数和交叉验证分数](model_selection.html#id2)
- [交叉验证生成器](model_selection.html#cv-generators-tut)
- [网格搜索和交叉验证估计量](model_selection.html#id4)
- [无监督学习: 寻求数据表示](unsupervised_learning.html)
- [聚类: 对样本数据进行分组](unsupervised_learning.html#id2)
- [分解: 将一个信号转换成多个成份并且加载](unsupervised_learning.html#id6)
- [把它们放在一起](putting_together.html)
- [模型管道化](putting_together.html#id2)
- [用特征面进行人脸识别](putting_together.html#id3)
- [开放性问题: 股票市场结构](putting_together.html#id4)
- [寻求帮助](finding_help.html)
- [项目邮件列表](finding_help.html#id2)
- [机器学习从业者的 Q&A 社区](finding_help.html#q-a)
- scikit-learn 0.19 中文文档
- 用户指南
- 1. 监督学习
- 1.1. 广义线性模型
- 1.2. 线性和二次判别分析
- 1.3. 内核岭回归
- 1.4. 支持向量机
- 1.5. 随机梯度下降
- 1.6. 最近邻
- 1.7. 高斯过程
- 1.8. 交叉分解
- 1.9. 朴素贝叶斯
- 1.10. 决策树
- 1.11. 集成方法
- 1.12. 多类和多标签算法
- 1.13. 特征选择
- 1.14. 半监督学习
- 1.15. 等式回归
- 1.16. 概率校准
- 1.17. 神经网络模型(有监督)
- 2. 无监督学习
- 2.1. 高斯混合模型
- 2.2. 流形学习
- 2.3. 聚类
- 2.4. 双聚类
- 2.5. 分解成分中的信号(矩阵分解问题)
- 2.6. 协方差估计
- 2.7. 经验协方差
- 2.8. 收敛协方差
- 2.9. 稀疏逆协方差
- 2.10. Robust 协方差估计
- 2.11. 新奇和异常值检测
- 2.12. 密度估计
- 2.13. 神经网络模型(无监督)
- 3. 模型选择和评估
- 3.1. 交叉验证:评估估算器的表现
- 3.2. 调整估计器的超参数
- 3.3. 模型评估: 量化预测的质量
- 3.4. 模型持久化
- 3.5. 验证曲线: 绘制分数以评估模型
- 4. 数据集转换
- 4.1. Pipeline(管道)和 FeatureUnion(特征联合): 合并的评估器
- 4.2. 特征提取
- 4.3. 预处理数据
- 4.4. 无监督降维
- 4.5. 随机投影
- 4.6. 内核近似
- 4.7. 成对的矩阵, 类别和核函数
- 4.8. 预测目标 (y) 的转换
- 5. 数据集加载工具
- 6. 大规模计算的策略: 更大量的数据
- 7. 计算性能
- 教程
- 使用 scikit-learn 介绍机器学习
- 关于科学数据处理的统计学习教程
- 机器学习: scikit-learn 中的设置以及预估对象
- 监督学习:从高维观察预测输出变量
- 模型选择:选择估计量及其参数
- 无监督学习: 寻求数据表示
- 把它们放在一起
- 寻求帮助
- 处理文本数据
- 选择正确的评估器(estimator)
- 外部资源,视频和谈话