# Scikit Learn
> 原文:[https://www.bookbookmark.ds100.org/ch/20/ref_sklearn.html](https://www.bookbookmark.ds100.org/ch/20/ref_sklearn.html)
```
# HIDDEN
# Clear previously defined variables
%reset -f
# Set directory for data loading to work properly
import os
os.chdir(os.path.expanduser('~/notebooks/20'))
```
## 型号和型号选择
| 进口 | 功能 | 截面 | 说明 |
| --- | --- | --- | --- |
| `sklearn.model_selection` | [`train_test_split(*arrays, test_size=0.2)`](http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html) | 建模与估计 | 返回传入的每个数组的两个随机子集,其中第一个子集中有 0.8 个数组,第二个子集中有 0.2 个数组 |
| `sklearn.linear_model` | [`LinearRegression()`](http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html) | Modeling and Estimation | 返回普通最小二乘线性回归模型 |
| `sklearn.linear_model` | [`LassoCV()`](http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html) | Modeling and Estimation | 返回通过交叉验证选择最佳模型的 Lasso(L1 正则化)线性模型 |
| `sklearn.linear_model` | [`RidgeCV()`](http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html) | Modeling and Estimation | 返回一个脊线(L2 正则化)线性模型,并通过交叉验证选择最佳模型 |
| `sklearn.linear_model` | [`ElasticNetCV()`](http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html) | Modeling and Estimation | 返回 ElasticNet(l1 和 l2 正则化)线性模型,并通过交叉验证选择最佳模型 |
| `sklearn.linear_model` | [`LogisticRegression()`](http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html) | Modeling and Estimation | 返回逻辑回归分类器 |
| `sklearn.linear_model` | [`LogisticRegressionCV()`](http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegressionCV.html) | Modeling and Estimation | 返回通过交叉验证选择最佳模型的逻辑回归分类器 |
## 使用模型[¶](#Working-with-a-Model)
假设您有一个`model`变量是`scikit-learn`对象:
| Function | Section | Description |
| --- | --- | --- |
| `model.fit(X, y)` | Modeling and Estimation | 与传入的 X 和 Y 匹配的模型 |
| `model.predict(X)` | Modeling and Estimation | 返回根据模型传入的 x 的预测 |
| `model.score(X, y)` | Modeling and Estimation | 返回基于 corect 值(y)的 x 预测精度 |
- 一、数据科学的生命周期
- 二、数据生成
- 三、处理表格数据
- 四、数据清理
- 五、探索性数据分析
- 六、数据可视化
- Web 技术
- 超文本传输协议
- 处理文本
- python 字符串方法
- 正则表达式
- regex 和 python
- 关系数据库和 SQL
- 关系模型
- SQL
- SQL 连接
- 建模与估计
- 模型
- 损失函数
- 绝对损失和 Huber 损失
- 梯度下降与数值优化
- 使用程序最小化损失
- 梯度下降
- 凸性
- 随机梯度下降法
- 概率与泛化
- 随机变量
- 期望和方差
- 风险
- 线性模型
- 预测小费金额
- 用梯度下降拟合线性模型
- 多元线性回归
- 最小二乘-几何透视
- 线性回归案例研究
- 特征工程
- 沃尔玛数据集
- 预测冰淇淋评级
- 偏方差权衡
- 风险和损失最小化
- 模型偏差和方差
- 交叉验证
- 正规化
- 正则化直觉
- L2 正则化:岭回归
- L1 正则化:LASSO 回归
- 分类
- 概率回归
- Logistic 模型
- Logistic 模型的损失函数
- 使用逻辑回归
- 经验概率分布的近似
- 拟合 Logistic 模型
- 评估 Logistic 模型
- 多类分类
- 统计推断
- 假设检验和置信区间
- 置换检验
- 线性回归的自举(真系数的推断)
- 学生化自举
- P-HACKING
- 向量空间回顾
- 参考表
- Pandas
- Seaborn
- Matplotlib
- Scikit Learn