企业🤖AI智能体构建引擎,智能编排和调试,一键部署,支持私有化部署方案 广告
## 7.3 平均值的标准误差 在课程的后面,能够描述我们的样本是如何变化的将变得非常重要,以便对样本统计进行推断。对于平均值,我们使用一个称为平均值(sem)的 _ 标准误差 _ 的量来实现这一点,我们可以将其视为采样分布的标准偏差。如果我们知道总体标准偏差,那么我们可以使用以下公式计算标准误差: ![](https://img.kancloud.cn/c2/d3/c2d313637ad544c5c074b8ba99b42533_98x38.jpg) 其中![](https://img.kancloud.cn/f2/48/f248e891effc6650d9d31fbefc54cbe4_11x8.gif)是样本的大小。我们通常不知道![](https://img.kancloud.cn/5a/44/5a44d08a2c46ced5dd1a8786e2d30d12_11x8.jpg)(总体标准差),因此我们通常会插入我们对![](https://img.kancloud.cn/5a/44/5a44d08a2c46ced5dd1a8786e2d30d12_11x8.jpg)的估计,这是根据样本(![](https://img.kancloud.cn/96/8f/968f0df6e280f212ece64773f0930cfa_11x13.jpg))计算的标准差: ![](https://img.kancloud.cn/f5/0f/f50f89e1992b29b7512b3141a9a6d301_98x43.jpg) 但是,如果我们的样本很小(少于 30 个),我们必须小心使用估计的标准偏差计算 SEM。 因为我们有许多来自 nhanes 总体的样本,并且我们实际上知道总体参数,所以我们可以确认使用总体参数估计的 SEM 非常接近我们从 nhanes 数据集中采集的样本的观测标准偏差。 ```r # compare standard error based on population to standard deviation # of sample means sprintf( 'Estimated standard error based on population SD: %.2f', sd(NHANES_adult$Height)/sqrt(sampSize) ) ``` ```r ## [1] "Estimated standard error based on population SD: 1.44" ``` ```r sprintf( 'Standard deviation of sample means = %.2f', sd(sampMeans) ) ``` ```r ## [1] "Standard deviation of sample means = 1.43" ``` 平均值的标准误差公式表明,我们的测量质量涉及两个量:总体变异性和样本大小。当然,因为样本大小是 sem 公式中的分母,当保持总体变异性常数时,较大的样本大小将产生较小的 sem。我们无法控制种群的变异性,但是我们 _ 确实可以控制样本的大小。因此,如果我们希望改进样本统计(通过减少样本变异性),那么我们应该使用更大的样本。然而,这个公式也告诉我们关于统计抽样的一些非常基本的东西——也就是说,较大样本的效用随样本大小的平方根而减小。这意味着双倍的样本量将 _ 而不是 _ 使统计数据的质量加倍;相反,它将把统计数据的质量提高一倍![](https://img.kancloud.cn/2e/7c/2e7c967de5d66ea446b5cab2f0c31f2d_23x19.jpg)。在[10.3 节](#statistical-power)中,我们将讨论与此观点密切相关的统计能力。_