# 建模与估计
> 原文:[https://www.bookbookmark.ds100.org/ch/10/modeling_intro.html](https://www.bookbookmark.ds100.org/ch/10/modeling_intro.html)
```
# HIDDEN
# Clear previously defined variables
%reset -f
# Set directory for data loading to work properly
import os
os.chdir(os.path.expanduser('~/notebooks/10'))
```
> 基本上,所有模型都是错误的,但有些模型是有用的。
>
> -[George Box,统计学家(1919-2013)](https://www.wikiwand.com/en/George_E._P._Box)
我们已经讨论了问题制定、数据清理和探索性数据分析,这是数据科学生命周期的前三个步骤。我们还发现 EDA 经常揭示数据集中变量之间的关系。我们如何决定一段关系是真实的还是虚假的?我们如何利用这些关系对未来做出可靠的预测?为了回答这些问题,我们需要数学工具来建模和估计。
模型是系统的理想化(htg1)表示。例如,如果我们从比萨斜塔上落下一个钢球,一个简单的重力模型表明我们希望钢球落在地上,以 9.8 米/秒的速度加速。这个模型也可以让我们用抛射运动定律预测球撞击地面需要多长时间。
这个重力模型描述了我们的系统的行为,但只是一个近似值,它忽略了空气阻力、其他天体的重力效应和空气浮力的影响。由于这些无意识的因素,我们的模型在现实生活中几乎总是会做出错误的预测!尽管如此,简单的重力模型在如此多的情况下仍然足够精确,以至于今天它被广泛使用和教授。
类似地,我们使用数据定义的任何模型都是实际过程的近似值。当近似值不太严格时,我们的模型具有实际应用价值。这自然会引发一些基本问题。我们如何选择模型?我们如何知道我们是否需要一个更复杂的模型?
在本书的其余章节中,我们将开发计算工具来**设计模型并使其适合数据。我们还将介绍推理工具,使我们能够解释我们的模型将**归纳为感兴趣的人群的能力。****
- 一、数据科学的生命周期
- 二、数据生成
- 三、处理表格数据
- 四、数据清理
- 五、探索性数据分析
- 六、数据可视化
- Web 技术
- 超文本传输协议
- 处理文本
- python 字符串方法
- 正则表达式
- regex 和 python
- 关系数据库和 SQL
- 关系模型
- SQL
- SQL 连接
- 建模与估计
- 模型
- 损失函数
- 绝对损失和 Huber 损失
- 梯度下降与数值优化
- 使用程序最小化损失
- 梯度下降
- 凸性
- 随机梯度下降法
- 概率与泛化
- 随机变量
- 期望和方差
- 风险
- 线性模型
- 预测小费金额
- 用梯度下降拟合线性模型
- 多元线性回归
- 最小二乘-几何透视
- 线性回归案例研究
- 特征工程
- 沃尔玛数据集
- 预测冰淇淋评级
- 偏方差权衡
- 风险和损失最小化
- 模型偏差和方差
- 交叉验证
- 正规化
- 正则化直觉
- L2 正则化:岭回归
- L1 正则化:LASSO 回归
- 分类
- 概率回归
- Logistic 模型
- Logistic 模型的损失函数
- 使用逻辑回归
- 经验概率分布的近似
- 拟合 Logistic 模型
- 评估 Logistic 模型
- 多类分类
- 统计推断
- 假设检验和置信区间
- 置换检验
- 线性回归的自举(真系数的推断)
- 学生化自举
- P-HACKING
- 向量空间回顾
- 参考表
- Pandas
- Seaborn
- Matplotlib
- Scikit Learn