7.1 我们如何取样？ · 斯坦福 Stats60 21 世纪的统计思维

## 7.1 我们如何取样？我们的抽样目标是确定感兴趣的全部人群的某些特征，只使用人群的一小部分。我们这样做主要是为了节省时间和精力——为什么要在仅仅一个小样本就足以准确估计兴趣变量的情况下，去测量人口中的每个个体呢？在选举的例子中，人口都是选民，样本是由投票组织选出的 1000 人组成的集合。我们选择样本的方式对于确保样本是整个人群的 _ 代表性 _ 至关重要，这是统计抽样的主要目标。很容易想象一个没有代表性的样本；如果一个民意测验者只打电话给那些他们从当地民主党收到名字的人，那么投票结果就不太可能代表整个人口。一般来说，我们将代表性投票定义为每个人口成员都有平等的机会被选中。如果这失败了，那么我们必须担心我们对样本计算的统计数据是否有 _ 偏差 _——也就是说，它的值是否系统地不同于总体值（我们称之为 _ 参数 _）。请记住，我们通常不知道这个人口参数，因为如果我们知道，那么就不需要采样了！但是，我们将使用能够接触到整个人口的例子来解释一些关键的想法。同样重要的是要区分两种不同的取样方式：替换和不替换。在用替换物对 _ 进行采样时，在对某个群体成员进行采样后，将其放回池中，以便再次对其进行采样。在 _ 不替换的采样 _ 中，一旦对某个成员进行了采样，则该成员就没有资格再次进行采样。最常见的是使用不替换的采样，但在某些情况下，我们将使用带替换的采样，例如在[8](#resampling-and-simulation)章中讨论一种称为 _ 引导 _ 的技术。_