## 2.2 测量尺度
所有变量必须至少具有两个不同的可能值(否则它们将是一个 _ 常量 _ 而不是一个变量),但变量的不同值可以以不同的方式相互关联,我们称之为 _ 测量尺度 _。变量的不同值有四种不同的方式。
* _identity_:变量的每个值都有唯一的含义。
* 【htg0】震级【htg1】:该变量的值反映了不同的震级,并且相互之间具有有序的关系,即有些值较大,有些值较小。
* _ 等间隔 _:沿测量尺度的单位是相等的。例如,这意味着 1 和 2 之间的差值在大小上等于 19 和 20 之间的差值。
* _ 绝对零点 _:刻度有一个真正有意义的零点。例如,对于许多物理量的测量,例如高度或重量,这是完全没有被测量的东西。
有四种不同的测量尺度,随着这些不同的方式,变量的值可能会有所不同。
_ 标称刻度 _。一个名义变量满足同一性的标准,这样每个变量的值代表不同的东西,但数字只是作为定性标签,如上所述。例如,我们可能会要求人们加入他们的政党,然后将其编码为数字:1=“共和党”、2=“民主党”、3=“自由主义者”等等。但是,不同的数字之间没有任何有序的关系。
_ 序数刻度 _。一个序数变量满足同一性和数量级的标准,这样就可以按数量级对值进行排序。例如,我们可能会要求患有慢性疼痛的人每天填写一份表格,用 1-7 个数字量表来评估他们的疼痛有多严重。请注意,虽然患者在报告 6 天时可能会感觉到更多的疼痛,而在报告 3 天时则感觉到更多的疼痛,但是说他们的疼痛是前者的两倍,后者的两倍,这是没有意义的;排序给了我们有关相对大小的信息,但不同的是数值之间的 CES 在量级上不一定相等。
_ 间隔刻度 _。区间标度具有序数标度的所有特征,但除此之外,测量标度上各单位之间的间隔可以视为相等。一个标准的例子是以摄氏度或法伦海特为单位测量的物理温度;10 度和 20 度之间的物理差异与 90 度和 100 度之间的物理差异相同,但每个刻度也可以取负值。
_ 比例标度 _。比例尺度变量具有上述四个特征:同一性、量值、等间隔和绝对零。比率比例变量和区间比例变量的区别在于比率比例变量具有真正的零点。比例尺度变量的例子包括物理高度和重量,以及以开尔文测量的温度。
### 2.2.1 为什么测量尺度很重要?
有两个重要的原因,我们必须注意一个变量的测量尺度。首先,尺度决定了我们可以应用于数据的数学运算类型(见表[2.2](#tab:MeasurementTypes))。只能比较名义变量是否相等;也就是说,对该变量的两个观测值是否具有相同的数值?将其他数学运算应用于一个名义变量是没有意义的,因为它们在名义变量中不是真正的数字,而是作为标签。对于序数变量,我们也可以测试一个值是否大于或小于另一个值,但我们不能做任何算术。区间变量和比率变量允许我们执行算术;对于区间变量,我们只能加或减数值,而对于比率变量,我们也可以乘和除数值。
<caption>Table 2.2 Different scales of measurement admit different types of numeric operations</caption>
| | 等于/不等于 | 大于/小于 | 加/减 | 乘/除 |
| --- | --- | --- | --- | --- |
| 名义 | 好啊 | | | |
| 依次的 | OK | OK | | |
| 间隔 | OK | OK | OK | |
| 比率 | OK | OK | OK | OK |
这些约束也意味着我们可以对每种类型的变量计算某些类型的统计信息。只需计算不同值(例如最常见的值,即 _ 模式 _)的统计信息,就可以对任何变量类型进行计算。其他统计数据是基于值的排序或排序(如 _ 中位数 _,当所有值都按其大小排序时,中位数是中间值),这些统计数据要求值至少按顺序排列。最后,涉及到值相加的统计(如平均值或 _ 平均值 _)要求变量至少在区间尺度上。尽管如此,我们应该注意到,对于研究人员来说,计算只有序数的变量的平均值是很常见的(比如人格测试的反应),但这有时会有问题。
- 前言
- 0.1 本书为什么存在?
- 0.2 你不是统计学家-我们为什么要听你的?
- 0.3 为什么是 R?
- 0.4 数据的黄金时代
- 0.5 开源书籍
- 0.6 确认
- 1 引言
- 1.1 什么是统计思维?
- 1.2 统计数据能为我们做什么?
- 1.3 统计学的基本概念
- 1.4 因果关系与统计
- 1.5 阅读建议
- 2 处理数据
- 2.1 什么是数据?
- 2.2 测量尺度
- 2.3 什么是良好的测量?
- 2.4 阅读建议
- 3 概率
- 3.1 什么是概率?
- 3.2 我们如何确定概率?
- 3.3 概率分布
- 3.4 条件概率
- 3.5 根据数据计算条件概率
- 3.6 独立性
- 3.7 逆转条件概率:贝叶斯规则
- 3.8 数据学习
- 3.9 优势比
- 3.10 概率是什么意思?
- 3.11 阅读建议
- 4 汇总数据
- 4.1 为什么要总结数据?
- 4.2 使用表格汇总数据
- 4.3 分布的理想化表示
- 4.4 阅读建议
- 5 将模型拟合到数据
- 5.1 什么是模型?
- 5.2 统计建模:示例
- 5.3 什么使模型“良好”?
- 5.4 模型是否太好?
- 5.5 最简单的模型:平均值
- 5.6 模式
- 5.7 变异性:平均值与数据的拟合程度如何?
- 5.8 使用模拟了解统计数据
- 5.9 Z 分数
- 6 数据可视化
- 6.1 数据可视化如何拯救生命
- 6.2 绘图解剖
- 6.3 使用 ggplot 在 R 中绘制
- 6.4 良好可视化原则
- 6.5 最大化数据/墨水比
- 6.6 避免图表垃圾
- 6.7 避免数据失真
- 6.8 谎言因素
- 6.9 记住人的局限性
- 6.10 其他因素的修正
- 6.11 建议阅读和视频
- 7 取样
- 7.1 我们如何取样?
- 7.2 采样误差
- 7.3 平均值的标准误差
- 7.4 中心极限定理
- 7.5 置信区间
- 7.6 阅读建议
- 8 重新采样和模拟
- 8.1 蒙特卡罗模拟
- 8.2 统计的随机性
- 8.3 生成随机数
- 8.4 使用蒙特卡罗模拟
- 8.5 使用模拟统计:引导程序
- 8.6 阅读建议
- 9 假设检验
- 9.1 无效假设统计检验(NHST)
- 9.2 无效假设统计检验:一个例子
- 9.3 无效假设检验过程
- 9.4 现代环境下的 NHST:多重测试
- 9.5 阅读建议
- 10 置信区间、效应大小和统计功率
- 10.1 置信区间
- 10.2 效果大小
- 10.3 统计能力
- 10.4 阅读建议
- 11 贝叶斯统计
- 11.1 生成模型
- 11.2 贝叶斯定理与逆推理
- 11.3 进行贝叶斯估计
- 11.4 估计后验分布
- 11.5 选择优先权
- 11.6 贝叶斯假设检验
- 11.7 阅读建议
- 12 分类关系建模
- 12.1 示例:糖果颜色
- 12.2 皮尔逊卡方检验
- 12.3 应急表及双向试验
- 12.4 标准化残差
- 12.5 优势比
- 12.6 贝叶斯系数
- 12.7 超出 2 x 2 表的分类分析
- 12.8 注意辛普森悖论
- 13 建模持续关系
- 13.1 一个例子:仇恨犯罪和收入不平等
- 13.2 收入不平等是否与仇恨犯罪有关?
- 13.3 协方差和相关性
- 13.4 相关性和因果关系
- 13.5 阅读建议
- 14 一般线性模型
- 14.1 线性回归
- 14.2 安装更复杂的模型
- 14.3 变量之间的相互作用
- 14.4“预测”的真正含义是什么?
- 14.5 阅读建议
- 15 比较方法
- 15.1 学生 T 考试
- 15.2 t 检验作为线性模型
- 15.3 平均差的贝叶斯因子
- 15.4 配对 t 检验
- 15.5 比较两种以上的方法
- 16 统计建模过程:一个实例
- 16.1 统计建模过程
- 17 做重复性研究
- 17.1 我们认为科学应该如何运作
- 17.2 科学(有时)是如何工作的
- 17.3 科学中的再现性危机
- 17.4 有问题的研究实践
- 17.5 进行重复性研究
- 17.6 进行重复性数据分析
- 17.7 结论:提高科学水平
- 17.8 阅读建议
- References