1.3 统计学的基本概念 · 斯坦福 Stats60 21 世纪的统计思维

## 1.3 统计学的基本概念有许多非常基本的思想贯穿了统计思维的几乎所有方面。斯蒂格勒（2016）在他的杰出著作《统计智慧的七大支柱》中概述了其中的几点，我在这里对此进行了补充。 ### 1.3.1 从数据中学习统计的一种方法是作为一组工具，使我们能够从数据中学习。在任何情况下，我们都从一组关于可能发生的情况的想法或假设开始。在这项纯粹的研究中，研究人员可能已经开始期望，吃更多的脂肪会导致更高的死亡率，鉴于目前关于饱和脂肪的消极教条。在本课程的后面，我们将介绍 _ 先验知识 _ 的概念，它旨在反映我们所带来的知识。这种先前的知识可能在其强度上有所不同，通常是基于我们的经验；如果我第一次去一家餐馆，我可能对它有多好的期望值很低，但是如果我去一家以前吃过 10 次的餐馆，我的期望值会更高。同样地，如果我在一个餐馆评论网站上看到一家餐馆的平均四星级评价仅仅基于三个评论，那么我的期望就比基于 300 个评论的期望要弱。统计学为我们提供了一种方法来描述如何最好地利用新的数据来更新我们的信仰，并且统计学和心理学之间有着深刻的联系。事实上，许多心理学中的人和动物学习理论与机器学习（htg0）这一新领域的思想紧密相连。机器学习是统计学和计算机科学的接口领域，主要研究如何建立可以从经验中学习的计算机算法。虽然统计和机器学习经常试图解决相同的问题，但来自这些领域的研究人员往往采取非常不同的方法；著名的统计学家 Leo Breiman 曾将它们称为“两种文化”，以反映它们的方法有多不同（Breiman 2001 年）。在这本书中，我将尝试将这两种文化融合在一起，因为这两种方法都为思考数据提供了有用的工具。 ### 1.3.2 聚合另一种统计方法是“丢弃数据的科学”。在上面的纯研究的例子中，我们取了 100000 多个数字并将它们压缩成 10 个。正是这种 _ 聚合 _ 是统计学中最重要的概念之一。当它第一次被推进时，这是革命性的：如果我们把每一个参与者的所有细节都抛开了，那么我们怎么能确定我们没有遗漏重要的东西呢？正如我们将看到的，统计学为我们提供了描述数据集合结构的方法，并提供了解释为什么这种方法通常工作得很好的理论基础。但是，还必须记住，聚合可能会走得太远，稍后我们将遇到这样的情况：摘要可能会对正在汇总的数据提供误导性的图片。 ### 1.3.3 不确定性世界是一个不确定的地方。我们现在知道吸烟会导致肺癌，但这种原因是概率性的：在过去 50 年里，一个 68 岁的男人每天抽两包烟，并且继续吸烟，他患肺癌的风险是 15%（7 分之一），比不吸烟的人患肺癌的风险要高很多。然而，这也意味着会有很多人终生吸烟，永远不会得肺癌。统计学为我们提供了工具来描述不确定性，在不确定性下做出决定，并做出我们可以量化的不确定性预测。人们经常看到记者写道，科学研究人员已经“证明”了一些假设。但是统计分析永远不能“证明”一个假设，在证明它一定是真的意义上（就像在数学证明中一样）。统计数据可以为我们提供证据，但它总是试探性的，并且受制于现实世界中总是存在的不确定性。 ### 1.3.4 取样聚合的概念意味着我们可以通过跨数据折叠来获得有用的洞察力——但是我们需要多少数据呢？（htg0）抽样（htg1）的思想是，只要以正确的方式获得样本，我们就可以根据人口中的少量样本来总结整个人口。例如，这项纯粹的研究招募了大约 13.5 万人的样本，但其目的是提供有关数十亿人的见解，这些人是从这些人中取样的。正如我们前面讨论过的，获得研究样本的方法是至关重要的，因为它决定了我们可以多广泛地概括结果。从有关抽样的统计数据中得出的另一个基本观点是，尽管较大的样本总是更好（就它们准确地代表整个群体的能力而言），但随着样本越来越大，回报会减少。事实上，大样本收益减少的速度遵循一个简单的数学规则，随着样本大小的平方根增长。