# 概率与泛化
> 原文:[https://www.bookbookmark.ds100.org/ch/12/prob_and_gen.html](https://www.bookbookmark.ds100.org/ch/12/prob_and_gen.html)
```
# HIDDEN
# Clear previously defined variables
%reset -f
# Set directory for data loading to work properly
import os
os.chdir(os.path.expanduser('~/notebooks/12'))
```
我们介绍了一系列使用数据集创建模型的步骤:
1. 选择一个模型。
2. 选择损失函数。
3. 通过最小化数据集上的损失来适应模型。
到目前为止,我们引入了常数模型(1)、一组损失函数(2)和梯度下降作为最小化损失(3)的一般方法。遵循这些步骤通常会生成一个模型,对它所训练的数据集进行精确预测。
不幸的是,一个只在训练数据上表现良好的模型几乎没有实际的实用性。我们关心模型对**归纳**的能力。我们的模型应该对人口做出准确的预测,而不仅仅是训练数据。这个问题似乎很难回答我们如何解释尚未看到的数据?
这里我们来看看统计的推论能力。我们首先介绍一些数学工具:随机变量、期望和方差。使用这些工具,我们可以根据我们的人口数据,甚至是我们没有用来训练模型的数据,得出关于模型长期性能的结论!
- 一、数据科学的生命周期
- 二、数据生成
- 三、处理表格数据
- 四、数据清理
- 五、探索性数据分析
- 六、数据可视化
- Web 技术
- 超文本传输协议
- 处理文本
- python 字符串方法
- 正则表达式
- regex 和 python
- 关系数据库和 SQL
- 关系模型
- SQL
- SQL 连接
- 建模与估计
- 模型
- 损失函数
- 绝对损失和 Huber 损失
- 梯度下降与数值优化
- 使用程序最小化损失
- 梯度下降
- 凸性
- 随机梯度下降法
- 概率与泛化
- 随机变量
- 期望和方差
- 风险
- 线性模型
- 预测小费金额
- 用梯度下降拟合线性模型
- 多元线性回归
- 最小二乘-几何透视
- 线性回归案例研究
- 特征工程
- 沃尔玛数据集
- 预测冰淇淋评级
- 偏方差权衡
- 风险和损失最小化
- 模型偏差和方差
- 交叉验证
- 正规化
- 正则化直觉
- L2 正则化:岭回归
- L1 正则化:LASSO 回归
- 分类
- 概率回归
- Logistic 模型
- Logistic 模型的损失函数
- 使用逻辑回归
- 经验概率分布的近似
- 拟合 Logistic 模型
- 评估 Logistic 模型
- 多类分类
- 统计推断
- 假设检验和置信区间
- 置换检验
- 线性回归的自举(真系数的推断)
- 学生化自举
- P-HACKING
- 向量空间回顾
- 参考表
- Pandas
- Seaborn
- Matplotlib
- Scikit Learn