## 5.5 最简单的模型:平均值
我们已经遇到了平均值(或平均值),事实上,大多数人知道平均值,即使他们从未上过统计课。它通常用来描述我们称之为数据集“中心趋势”的东西——也就是说,数据以什么值为中心?大多数人不认为计算平均值是将模型与数据相匹配。然而,这正是我们计算平均值时要做的。
我们已经看到了计算数据样本平均值的公式:
![](https://img.kancloud.cn/0b/5d/0b5d33eab206151d52ef342b050c6dd9_102x40.jpg)
注意,我说过这个公式是专门针对数据的 _ 样本 _ 的,它是从更大的人群中选择的一组数据点。我们希望通过一个样本来描述一个更大的群体——我们感兴趣的全套个体。例如,如果我们是一个政治民意测验者,我们感兴趣的人群可能都是注册选民,而我们的样本可能只包括从这个人群中抽取的几千人。在本课程的后面,我们将更详细地讨论抽样,但现在重要的一点是统计学家通常喜欢使用不同的符号来区分描述样本值的统计数据和描述总体值的参数;在这种情况下,公式 a 表示总体平均值(表示为![](https://img.kancloud.cn/da/ae/daae94eb5dc924acf8a8609e74df9f3a_11x12.jpg))为:
![](https://img.kancloud.cn/18/9a/189a1f6e0890954f12edf72abf9477c7_97x42.jpg)
其中 n 是整个人口的大小。
我们已经看到,平均值是保证给我们的平均误差为零的汇总统计。平均值还有另一个特点:它是最小化平方误差总和(SSE)的汇总统计。在统计学中,我们称之为“最佳”估计量。我们可以从数学上证明这一点,但我们将在图[5.7](#fig:MinSSE)中以图形方式证明这一点。
![A demonstration of the mean as the statistic that minimizes the sum of squared errors. Using the NHANES child height data, we compute the mean (denoted by the blue bar). Then, we test a range of other values, and for each one we compute the sum of squared errors for each data point from that value, which are denoted by the black curve. We see that the mean falls at the minimum of the squared error plot.](https://img.kancloud.cn/9f/29/9f29d99a95f8e50cdf9cc453a253d650_384x384.png)
图 5.7 平均值作为统计值的证明,可使平方误差之和最小化。使用 nhanes 子高度数据,我们计算平均值(用蓝色条表示)。然后,我们测试其他值的范围,对于每个值,我们从该值计算每个数据点的平方误差之和,该值由黑色曲线表示。我们看到平均值降到平方误差图的最小值。
SSE 的最小化是一个很好的特性,这就是为什么平均值是最常用的统计数据汇总。然而,均值也有一个阴暗面。假设一个酒吧有五个人,我们检查每个人的收入:
```r
# create income data frame
incomeDf <-
tibble(
income = c(48000, 64000, 58000, 72000, 66000),
person = c("Joe", "Karen", "Mark", "Andrea", "Pat")
)
# glimpse(incomeDf)
panderOptions('digits',2)
pander(incomeDf)
```
<colgroup><col style="width: 12%"> <col style="width: 12%"></colgroup>
| 收入 | 人 |
| --- | --- |
| 48000 个 | 乔 |
| 64000 个 | 凯伦 |
| 5.8 万 | 作记号 |
| 72000 个 | 安德莉亚 |
| 66000 个 | 拍打 |
```r
sprintf("Mean income: %0.2f", mean(incomeDf$income))
```
```r
## [1] "Mean income: 61600.00"
```
这个平均值似乎是这五个人收入的一个很好的总结。现在让我们看看如果碧昂斯·诺尔斯走进酒吧会发生什么:
```r
# add Beyonce to income data frame
incomeDf <-
incomeDf %>%
rbind(c(54000000, "Beyonce")) %>%
mutate(income = as.double(income))
pander(incomeDf)
```
<colgroup><col style="width: 13%"> <col style="width: 13%"></colgroup>
| income | person |
| --- | --- |
| 48000 | Joe |
| 64000 | Karen |
| 58000 | Mark |
| 72000 | Andrea |
| 66000 | Pat |
| 5.4E+07 型 | 碧昂斯 |
```r
sprintf("Mean income: %0.2f", mean(incomeDf$income))
```
```r
## [1] "Mean income: 9051333.33"
```
平均值现在接近 1000 万美元,这并不能真正代表酒吧里的任何人——特别是,它受到了碧昂丝价值的巨大驱动。一般来说,平均值对极值非常敏感,这就是为什么在使用平均值汇总数据时,确保没有极值总是很重要的原因。
### 5.5.1 中间值
如果我们想以对异常值不太敏感的方式总结数据,我们可以使用另一种称为 _ 中位数 _ 的统计。如果我们按大小来排序所有的值,那么中值就是中间值。如果有一个偶数的值,那么中间会有两个值,在这种情况下,我们取这两个数字的平均值(即中间点)。
让我们来看一个例子。假设我们要总结以下值:
```r
# create example data frame
dataDf <-
tibble(
values = c(8, 6, 3, 14, 12, 7, 6, 4, 9)
)
pander(dataDf)
```
<colgroup><col style="width: 11%"></colgroup>
| 价值观 |
| --- |
| 8 个 |
| 6 |
| 三 |
| 14 |
| 12 个 |
| 7 |
| 6 |
| 4 |
| 9 |
如果我们对这些值进行排序:
```r
# sort values and print
dataDf <-
dataDf %>%
arrange(values)
pander(dataDf)
```
<colgroup><col style="width: 11%"></colgroup>
| values |
| --- |
| 3 |
| 4 |
| 6 |
| 6 |
| 7 |
| 8 |
| 9 |
| 12 |
| 14 |
中间值是中间值,在本例中是 9 个值中的第 5 个。
平均值最小化平方误差之和,而中位数最小化一个微小的不同数量:绝对误差之和。这就解释了为什么它对异常值不那么敏感——与采用绝对值相比,平方化会加剧较大误差的影响。我们可以在收入示例中看到这一点:
```r
# print income table
pander(incomeDf)
```
<colgroup><col style="width: 13%"> <col style="width: 13%"></colgroup>
| income | person |
| --- | --- |
| 48000 | Joe |
| 64000 | Karen |
| 58000 | Mark |
| 72000 | Andrea |
| 66000 | Pat |
| 5.4e+07 | Beyonce |
```r
sprintf('Mean income: %.2f',mean(incomeDf$income))
```
```r
## [1] "Mean income: 9051333.33"
```
```r
sprintf('Median income: %.2f',median(incomeDf$income))
```
```r
## [1] "Median income: 65000.00"
```
中位数更能代表整个群体,对一个大的离群值不太敏感。
既然如此,我们为什么要用平均数呢?正如我们将在后面的章节中看到的,平均值是“最佳”估计值,因为与其他估计值相比,它在样本之间的差异较小。这取决于我们是否值得考虑对潜在异常值的敏感性——统计数据都是关于权衡的。
- 前言
- 0.1 本书为什么存在?
- 0.2 你不是统计学家-我们为什么要听你的?
- 0.3 为什么是 R?
- 0.4 数据的黄金时代
- 0.5 开源书籍
- 0.6 确认
- 1 引言
- 1.1 什么是统计思维?
- 1.2 统计数据能为我们做什么?
- 1.3 统计学的基本概念
- 1.4 因果关系与统计
- 1.5 阅读建议
- 2 处理数据
- 2.1 什么是数据?
- 2.2 测量尺度
- 2.3 什么是良好的测量?
- 2.4 阅读建议
- 3 概率
- 3.1 什么是概率?
- 3.2 我们如何确定概率?
- 3.3 概率分布
- 3.4 条件概率
- 3.5 根据数据计算条件概率
- 3.6 独立性
- 3.7 逆转条件概率:贝叶斯规则
- 3.8 数据学习
- 3.9 优势比
- 3.10 概率是什么意思?
- 3.11 阅读建议
- 4 汇总数据
- 4.1 为什么要总结数据?
- 4.2 使用表格汇总数据
- 4.3 分布的理想化表示
- 4.4 阅读建议
- 5 将模型拟合到数据
- 5.1 什么是模型?
- 5.2 统计建模:示例
- 5.3 什么使模型“良好”?
- 5.4 模型是否太好?
- 5.5 最简单的模型:平均值
- 5.6 模式
- 5.7 变异性:平均值与数据的拟合程度如何?
- 5.8 使用模拟了解统计数据
- 5.9 Z 分数
- 6 数据可视化
- 6.1 数据可视化如何拯救生命
- 6.2 绘图解剖
- 6.3 使用 ggplot 在 R 中绘制
- 6.4 良好可视化原则
- 6.5 最大化数据/墨水比
- 6.6 避免图表垃圾
- 6.7 避免数据失真
- 6.8 谎言因素
- 6.9 记住人的局限性
- 6.10 其他因素的修正
- 6.11 建议阅读和视频
- 7 取样
- 7.1 我们如何取样?
- 7.2 采样误差
- 7.3 平均值的标准误差
- 7.4 中心极限定理
- 7.5 置信区间
- 7.6 阅读建议
- 8 重新采样和模拟
- 8.1 蒙特卡罗模拟
- 8.2 统计的随机性
- 8.3 生成随机数
- 8.4 使用蒙特卡罗模拟
- 8.5 使用模拟统计:引导程序
- 8.6 阅读建议
- 9 假设检验
- 9.1 无效假设统计检验(NHST)
- 9.2 无效假设统计检验:一个例子
- 9.3 无效假设检验过程
- 9.4 现代环境下的 NHST:多重测试
- 9.5 阅读建议
- 10 置信区间、效应大小和统计功率
- 10.1 置信区间
- 10.2 效果大小
- 10.3 统计能力
- 10.4 阅读建议
- 11 贝叶斯统计
- 11.1 生成模型
- 11.2 贝叶斯定理与逆推理
- 11.3 进行贝叶斯估计
- 11.4 估计后验分布
- 11.5 选择优先权
- 11.6 贝叶斯假设检验
- 11.7 阅读建议
- 12 分类关系建模
- 12.1 示例:糖果颜色
- 12.2 皮尔逊卡方检验
- 12.3 应急表及双向试验
- 12.4 标准化残差
- 12.5 优势比
- 12.6 贝叶斯系数
- 12.7 超出 2 x 2 表的分类分析
- 12.8 注意辛普森悖论
- 13 建模持续关系
- 13.1 一个例子:仇恨犯罪和收入不平等
- 13.2 收入不平等是否与仇恨犯罪有关?
- 13.3 协方差和相关性
- 13.4 相关性和因果关系
- 13.5 阅读建议
- 14 一般线性模型
- 14.1 线性回归
- 14.2 安装更复杂的模型
- 14.3 变量之间的相互作用
- 14.4“预测”的真正含义是什么?
- 14.5 阅读建议
- 15 比较方法
- 15.1 学生 T 考试
- 15.2 t 检验作为线性模型
- 15.3 平均差的贝叶斯因子
- 15.4 配对 t 检验
- 15.5 比较两种以上的方法
- 16 统计建模过程:一个实例
- 16.1 统计建模过程
- 17 做重复性研究
- 17.1 我们认为科学应该如何运作
- 17.2 科学(有时)是如何工作的
- 17.3 科学中的再现性危机
- 17.4 有问题的研究实践
- 17.5 进行重复性研究
- 17.6 进行重复性数据分析
- 17.7 结论:提高科学水平
- 17.8 阅读建议
- References