## 5.9 Z 分数
```r
crimeData <-
read.table(
"data/CrimeOneYearofData_clean.csv",
header = TRUE,
sep = ","
)
# let's drop DC since it is so small
crimeData <-
crimeData %>%
dplyr::filter(State != "District of Columbia")
caCrimeData <-
crimeData %>%
dplyr::filter(State == "California")
```
以分布的中心趋势和变异性为特征后,通常有助于根据个体分数相对于总体分布的位置来表示。假设我们有兴趣描述不同州犯罪的相对水平,以确定加利福尼亚是否是一个特别危险的地方。我们可以使用来自[FBI 统一犯罪报告网站](https://www.ucrdatatool.gov/Search/Crime/State/RunCrimeOneYearofData.cfm)的 2014 年数据来问这个问题。图[5.8](#fig:crimeHist)的左面板显示了每个州暴力犯罪数量的柱状图,突出了加州的价值。从这些数据来看,加利福尼亚州似乎非常危险,当年共有 153709 起犯罪。
![Left: Histogram of the number of violent crimes. The value for CA is plotted in blue. Right: A map of the same data, with number of crimes plotted for each state in color.](https://img.kancloud.cn/5f/9c/5f9c99025a16f7e840fdc715fc09efe7_768x384.png)
图 5.8 左:暴力犯罪数量的柱状图。CA 的值以蓝色绘制。右图:一张相同数据的地图,用彩色绘制每个州的犯罪数量。
使用 r,还可以很容易地生成一个显示变量跨状态分布的地图,如图[5.8](#fig:crimeHist)右面板所示。
然而,你可能已经意识到加州在美国任何一个州的人口都是最多的,所以它也会有更多的犯罪是合理的。如果我们将这两种情况相提并论(参见图[5.9](#fig:popVsCrime)的左面板),我们就会发现人口与犯罪数量之间存在直接关系。
![Left: A plot of number of crimes versus population by state. Right: A histogram of per capita crime rates, expressed as crimes per 100,000 people.](https://img.kancloud.cn/76/01/760175ae0c82f2d7cbe9a3e28d97b50b_768x384.png)
图 5.9 左:按州划分的犯罪数量与人口的关系图。对:人均犯罪率的柱状图,以每 10 万人的犯罪率表示。
我们不应使用犯罪的原始数量,而应使用人均暴力犯罪率,即犯罪数量除以国家人口所得的比率。FBI 的数据集已经包含了这个值(以每 100000 人的比率表示)。
```r
# print crime rate statistics, normalizing for population
sprintf("rate of 2014 violent crimes in CA: %.2f", caCrimeData$Violent.Crime.rate)
```
```r
## [1] "rate of 2014 violent crimes in CA: 396.10"
```
```r
sprintf("mean rate: %.2f", mean(crimeData$Violent.Crime.rate))
```
```r
## [1] "mean rate: 346.81"
```
```r
sprintf("std of rate: %.2f", sd(crimeData$Violent.Crime.rate))
```
```r
## [1] "std of rate: 128.82"
```
从右图[5.9](#fig:popVsCrime)中我们可以看出,加利福尼亚毕竟没有那么危险——它每 10 万人的犯罪率为 396.1,略高于 346.81 的平均值,但在许多其他州的范围内。但是,如果我们想更清楚地了解它与发行版的其他部分有多远呢?
_z-score_ 允许我们以一种方式表示数据,从而更深入地了解每个数据点与整体分布的关系。如果我们知道总体平均值![](https://img.kancloud.cn/da/ae/daae94eb5dc924acf8a8609e74df9f3a_11x12.jpg)和标准差![](https://img.kancloud.cn/5a/44/5a44d08a2c46ced5dd1a8786e2d30d12_11x8.jpg)的值,则计算数据点 z 得分的公式为:
![](https://img.kancloud.cn/3c/f2/3cf25e879cda934a5f006ba99a9a751b_107x33.jpg)
直观地说,你可以把 z 值看作是告诉你离任何数据点的平均值有多远,以标准偏差为单位。我们可以根据犯罪率数据来计算,如图[5.10](#fig:crimeZplot)所示。
```r
## [1] "mean of Z-scored data: 1.4658413372004e-16"
```
```r
## [1] "std deviation of Z-scored data: 1"
```
![Scatterplot of original crime rate data against Z-scored data.](https://img.kancloud.cn/56/eb/56eba8ee51fc44ed29e783e20a610c8c_384x384.png)
图 5.10 原始犯罪率数据与 Z 评分数据的散点图。
散点图表明,z-得分的过程并没有改变数据点的相对分布(可以看到原始数据和 z-得分数据在相互作图时落在一条直线上),只是将它们移动到一个平均值为零和一个标准差。一个。然而,如果你仔细观察,你会发现平均值并不完全为零——只是非常小。这里所发生的是,计算机以一定的 _ 数字精度 _ 表示数字,这意味着有些数字不完全为零,但小到 R 认为它们为零。
```r
# examples of numerical precision
print(paste("smallest number such that 1+x != 1", .Machine$double.eps))
```
```r
## [1] "smallest number such that 1+x != 1 2.22044604925031e-16"
```
```r
# We can confirm this by showing that adding anything less than that number to
# 1 is treated as 1 by R
print((1 + .Machine$double.eps) == 1)
```
```r
## [1] FALSE
```
```r
print((1 + .Machine$double.eps / 2) == 1)
```
```r
## [1] TRUE
```
```r
# we can also look at the largest number
print(paste("largest number", .Machine$double.xmax))
```
```r
## [1] "largest number 1.79769313486232e+308"
```
```r
# similarly here, we can see that adding 1 to the largest possible number
# is no different from the largest possible number, in R's eyes at least.
print((1 + .Machine$double.xmax) == .Machine$double.xmax)
```
```r
## [1] TRUE
```
图[5.11](#fig:crimeZmap)显示了使用地理视图的 Z 评分犯罪数据。
![Crime data rendered onto a US map, presented as Z-scores.](https://img.kancloud.cn/fa/cc/facc3745991536c01f579665c8d67022_576x576.png)
图 5.11 呈现在美国地图上的犯罪数据,以 z 分数表示。
这为我们提供了一个稍微更具解释性的数据视图。例如,我们可以看到内华达州、田纳西州和新墨西哥州的犯罪率都比平均值高出大约两个标准差。
### 5.9.1 解释 z-分数
“z-得分”中的“z”源于标准正态分布(即平均值为零且标准偏差为 1 的正态分布)通常被称为“z”分布。我们可以使用标准正态分布来帮助我们了解相对于分布的其余部分,特定的 z 分数告诉我们数据点的位置。
![Density (top) and cumulative distribution (bottom) of a standard normal distribution, with cutoffs at one standard deviation above/below the mean.](https://img.kancloud.cn/79/5f/795f271039da3c2addf107bf195e0a41_576x576.png)
图 5.12 标准正态分布的密度(顶部)和累积分布(底部),在平均值以上/以下的一个标准偏差处进行截止。
图[5.12](#fig:zDensityCDF)中的上面板显示,我们预计约 16%的值会落在![](https://img.kancloud.cn/b6/c6/b6c6dfe494c103117422b2dbf67d0a7f_45x15.jpg)中,同样的比例也会落在![](https://img.kancloud.cn/0d/4e/0d4ea0c814981780118f6267889195ec_59x15.jpg)中。
![Density (top) and cumulative distribution (bottom) of a standard normal distribution, with cutoffs at two standard deviations above/below the mean](https://img.kancloud.cn/93/54/93542d031c82b2f475c6bc6d7d139eef_576x576.png)
图 5.13 标准正态分布的密度(顶部)和累积分布(底部),平均值以上/以下两个标准偏差处的截止值
图[5.13](#fig:zDensity2SD)显示了两个标准偏差的相同曲线图。在这里,我们看到只有约 2.3%的值落在![](https://img.kancloud.cn/9c/ec/9cecb9232456457fb3e9aa2cfb9f34cd_60x15.jpg)中,同样的也落在![](https://img.kancloud.cn/f2/bc/f2bc5a6680e598a231b3c50e11fd5783_46x15.jpg)中。因此,如果我们知道特定数据点的 z 值,我们可以估计找到一个值的可能性或可能性有多大,至少与该值一样极端,这样我们就可以将值放入更好的上下文中。
### 5.9.2 标准化评分
假设我们希望生成平均值为 100、标准差为 10 的标准化犯罪评分,而不是 Z 评分。这类似于用智力测验的分数来产生智力商数(IQ)的标准化。我们可以简单地将 z 分数乘以 10,然后再加 100。
```r
## [1] "mean of standardized score data: 100"
```
```r
## [1] "std deviation of standardized score data: 10"
```
![Crime data presented as standardized scores with mean of 100 and standard deviation of 10.](https://img.kancloud.cn/2a/8c/2a8cbc8f593665343c81baec2284f279_384x384.png)
图 5.14 犯罪数据以标准化分数呈现,平均值为 100,标准差为 10。
#### 5.9.2.1 使用 z 分比较分布
z 值的一个有用的应用是比较不同变量的分布。假设我们想比较暴力犯罪和财产犯罪在各州的分布情况。在图[5.15](#fig:crimeTypePlot)的左面板中,我们将这些图形绘制在一起,用蓝色绘制 CA。正如你所看到的,财产犯罪的原始率远远高于暴力犯罪的原始率,所以我们不能直接比较数字。但是,我们可以将这些数据的 z 值相互绘制出来(图[5.15](#fig:crimeTypePlot)的右面板)——这里我们再次看到数据的分布没有改变。把每一个变量的数据放入 z 值后,就可以进行比较了,让我们看到加州实际上处于暴力犯罪和财产犯罪分布的中间。
![Plot of violent vs. property crime rates (left) and Z-scored rates (right).](https://img.kancloud.cn/e0/96/e096388c452ee290703b690dd0d6ca1b_768x384.png)
图 5.15 暴力与财产犯罪率(左)和 Z 得分率(右)的曲线图。
让我们再给情节加一个因素:人口。在图[5.16](#fig:crimeTypePopPlot)的左面板中,我们使用绘图符号的大小来显示这一点,这通常是向绘图添加信息的一种有用方法。
![Left: Plot of violent vs. property crime rates, with population size presented through the size of the plotting symbol; California is presented in blue. Right: Difference scores for violent vs. property crime, plotted against population. ](https://img.kancloud.cn/31/5a/315a4d3c17a0aab9cbd5e9cd49caabbe_768x384.png)
图 5.16 左图:暴力犯罪率与财产犯罪率的对比图,人口规模以绘图符号的大小表示;加利福尼亚州以蓝色表示。对:针对人口的暴力和财产犯罪的得分差异。
因为 z 分数是直接可比的,所以我们也可以计算“暴力差异”分数,该分数表示各州暴力与非暴力(财产)犯罪的相对比率。然后我们可以将这些得分与人口进行对比(参见图[5.16](#fig:crimeTypePopPlot)的右面板)。这说明我们如何使用 z-分数将不同的变量放在一个共同的尺度上。
值得注意的是,最小的国家在两个方向上的差异似乎最大。虽然这可能会吸引我们去观察每一个状态,并试图确定为什么它有一个高或低的差异分数,但这可能反映了这样一个事实,即从较小的样本中获得的估计值必然会有更多的变量,正如我们将在几章中更详细地讨论的那样。
- 前言
- 0.1 本书为什么存在?
- 0.2 你不是统计学家-我们为什么要听你的?
- 0.3 为什么是 R?
- 0.4 数据的黄金时代
- 0.5 开源书籍
- 0.6 确认
- 1 引言
- 1.1 什么是统计思维?
- 1.2 统计数据能为我们做什么?
- 1.3 统计学的基本概念
- 1.4 因果关系与统计
- 1.5 阅读建议
- 2 处理数据
- 2.1 什么是数据?
- 2.2 测量尺度
- 2.3 什么是良好的测量?
- 2.4 阅读建议
- 3 概率
- 3.1 什么是概率?
- 3.2 我们如何确定概率?
- 3.3 概率分布
- 3.4 条件概率
- 3.5 根据数据计算条件概率
- 3.6 独立性
- 3.7 逆转条件概率:贝叶斯规则
- 3.8 数据学习
- 3.9 优势比
- 3.10 概率是什么意思?
- 3.11 阅读建议
- 4 汇总数据
- 4.1 为什么要总结数据?
- 4.2 使用表格汇总数据
- 4.3 分布的理想化表示
- 4.4 阅读建议
- 5 将模型拟合到数据
- 5.1 什么是模型?
- 5.2 统计建模:示例
- 5.3 什么使模型“良好”?
- 5.4 模型是否太好?
- 5.5 最简单的模型:平均值
- 5.6 模式
- 5.7 变异性:平均值与数据的拟合程度如何?
- 5.8 使用模拟了解统计数据
- 5.9 Z 分数
- 6 数据可视化
- 6.1 数据可视化如何拯救生命
- 6.2 绘图解剖
- 6.3 使用 ggplot 在 R 中绘制
- 6.4 良好可视化原则
- 6.5 最大化数据/墨水比
- 6.6 避免图表垃圾
- 6.7 避免数据失真
- 6.8 谎言因素
- 6.9 记住人的局限性
- 6.10 其他因素的修正
- 6.11 建议阅读和视频
- 7 取样
- 7.1 我们如何取样?
- 7.2 采样误差
- 7.3 平均值的标准误差
- 7.4 中心极限定理
- 7.5 置信区间
- 7.6 阅读建议
- 8 重新采样和模拟
- 8.1 蒙特卡罗模拟
- 8.2 统计的随机性
- 8.3 生成随机数
- 8.4 使用蒙特卡罗模拟
- 8.5 使用模拟统计:引导程序
- 8.6 阅读建议
- 9 假设检验
- 9.1 无效假设统计检验(NHST)
- 9.2 无效假设统计检验:一个例子
- 9.3 无效假设检验过程
- 9.4 现代环境下的 NHST:多重测试
- 9.5 阅读建议
- 10 置信区间、效应大小和统计功率
- 10.1 置信区间
- 10.2 效果大小
- 10.3 统计能力
- 10.4 阅读建议
- 11 贝叶斯统计
- 11.1 生成模型
- 11.2 贝叶斯定理与逆推理
- 11.3 进行贝叶斯估计
- 11.4 估计后验分布
- 11.5 选择优先权
- 11.6 贝叶斯假设检验
- 11.7 阅读建议
- 12 分类关系建模
- 12.1 示例:糖果颜色
- 12.2 皮尔逊卡方检验
- 12.3 应急表及双向试验
- 12.4 标准化残差
- 12.5 优势比
- 12.6 贝叶斯系数
- 12.7 超出 2 x 2 表的分类分析
- 12.8 注意辛普森悖论
- 13 建模持续关系
- 13.1 一个例子:仇恨犯罪和收入不平等
- 13.2 收入不平等是否与仇恨犯罪有关?
- 13.3 协方差和相关性
- 13.4 相关性和因果关系
- 13.5 阅读建议
- 14 一般线性模型
- 14.1 线性回归
- 14.2 安装更复杂的模型
- 14.3 变量之间的相互作用
- 14.4“预测”的真正含义是什么?
- 14.5 阅读建议
- 15 比较方法
- 15.1 学生 T 考试
- 15.2 t 检验作为线性模型
- 15.3 平均差的贝叶斯因子
- 15.4 配对 t 检验
- 15.5 比较两种以上的方法
- 16 统计建模过程:一个实例
- 16.1 统计建模过程
- 17 做重复性研究
- 17.1 我们认为科学应该如何运作
- 17.2 科学(有时)是如何工作的
- 17.3 科学中的再现性危机
- 17.4 有问题的研究实践
- 17.5 进行重复性研究
- 17.6 进行重复性数据分析
- 17.7 结论:提高科学水平
- 17.8 阅读建议
- References