建模与估计 · UCB DS100 数据科学的原理与技巧

# 建模与估计 > 原文：[https://www.bookbookmark.ds100.org/ch/10/modeling_intro.html](https://www.bookbookmark.ds100.org/ch/10/modeling_intro.html) ``` # HIDDEN # Clear previously defined variables %reset -f # Set directory for data loading to work properly import os os.chdir(os.path.expanduser('~/notebooks/10')) ``` > 基本上，所有模型都是错误的，但有些模型是有用的。 > > -[George Box，统计学家（1919-2013）](https://www.wikiwand.com/en/George_E._P._Box) 我们已经讨论了问题制定、数据清理和探索性数据分析，这是数据科学生命周期的前三个步骤。我们还发现 EDA 经常揭示数据集中变量之间的关系。我们如何决定一段关系是真实的还是虚假的？我们如何利用这些关系对未来做出可靠的预测？为了回答这些问题，我们需要数学工具来建模和估计。模型是系统的理想化（htg1）表示。例如，如果我们从比萨斜塔上落下一个钢球，一个简单的重力模型表明我们希望钢球落在地上，以 9.8 米/秒的速度加速。这个模型也可以让我们用抛射运动定律预测球撞击地面需要多长时间。这个重力模型描述了我们的系统的行为，但只是一个近似值，它忽略了空气阻力、其他天体的重力效应和空气浮力的影响。由于这些无意识的因素，我们的模型在现实生活中几乎总是会做出错误的预测！尽管如此，简单的重力模型在如此多的情况下仍然足够精确，以至于今天它被广泛使用和教授。类似地，我们使用数据定义的任何模型都是实际过程的近似值。当近似值不太严格时，我们的模型具有实际应用价值。这自然会引发一些基本问题。我们如何选择模型？我们如何知道我们是否需要一个更复杂的模型？在本书的其余章节中，我们将开发计算工具来**设计模型并使其适合数据。我们还将介绍推理工具，使我们能够解释我们的模型将**归纳为感兴趣的人群的能力。****