2.2 测量尺度 · 斯坦福 Stats60 21 世纪的统计思维

## 2.2 测量尺度所有变量必须至少具有两个不同的可能值（否则它们将是一个 _ 常量 _ 而不是一个变量），但变量的不同值可以以不同的方式相互关联，我们称之为 _ 测量尺度 _。变量的不同值有四种不同的方式。 * _identity_：变量的每个值都有唯一的含义。 * 【htg0】震级【htg1】：该变量的值反映了不同的震级，并且相互之间具有有序的关系，即有些值较大，有些值较小。 * _ 等间隔 _：沿测量尺度的单位是相等的。例如，这意味着 1 和 2 之间的差值在大小上等于 19 和 20 之间的差值。 * _ 绝对零点 _：刻度有一个真正有意义的零点。例如，对于许多物理量的测量，例如高度或重量，这是完全没有被测量的东西。有四种不同的测量尺度，随着这些不同的方式，变量的值可能会有所不同。 _ 标称刻度 _。一个名义变量满足同一性的标准，这样每个变量的值代表不同的东西，但数字只是作为定性标签，如上所述。例如，我们可能会要求人们加入他们的政党，然后将其编码为数字：1=“共和党”、2=“民主党”、3=“自由主义者”等等。但是，不同的数字之间没有任何有序的关系。 _ 序数刻度 _。一个序数变量满足同一性和数量级的标准，这样就可以按数量级对值进行排序。例如，我们可能会要求患有慢性疼痛的人每天填写一份表格，用 1-7 个数字量表来评估他们的疼痛有多严重。请注意，虽然患者在报告 6 天时可能会感觉到更多的疼痛，而在报告 3 天时则感觉到更多的疼痛，但是说他们的疼痛是前者的两倍，后者的两倍，这是没有意义的；排序给了我们有关相对大小的信息，但不同的是数值之间的 CES 在量级上不一定相等。 _ 间隔刻度 _。区间标度具有序数标度的所有特征，但除此之外，测量标度上各单位之间的间隔可以视为相等。一个标准的例子是以摄氏度或法伦海特为单位测量的物理温度；10 度和 20 度之间的物理差异与 90 度和 100 度之间的物理差异相同，但每个刻度也可以取负值。 _ 比例标度 _。比例尺度变量具有上述四个特征：同一性、量值、等间隔和绝对零。比率比例变量和区间比例变量的区别在于比率比例变量具有真正的零点。比例尺度变量的例子包括物理高度和重量，以及以开尔文测量的温度。 ### 2.2.1 为什么测量尺度很重要？有两个重要的原因，我们必须注意一个变量的测量尺度。首先，尺度决定了我们可以应用于数据的数学运算类型（见表[2.2](#tab:MeasurementTypes)）。只能比较名义变量是否相等；也就是说，对该变量的两个观测值是否具有相同的数值？将其他数学运算应用于一个名义变量是没有意义的，因为它们在名义变量中不是真正的数字，而是作为标签。对于序数变量，我们也可以测试一个值是否大于或小于另一个值，但我们不能做任何算术。区间变量和比率变量允许我们执行算术；对于区间变量，我们只能加或减数值，而对于比率变量，我们也可以乘和除数值。 <caption>Table 2.2 Different scales of measurement admit different types of numeric operations</caption> | | 等于/不等于 | 大于/小于 | 加/减 | 乘/除 | | --- | --- | --- | --- | --- | | 名义 | 好啊 | | | | | 依次的 | OK | OK | | | | 间隔 | OK | OK | OK | | | 比率 | OK | OK | OK | OK | 这些约束也意味着我们可以对每种类型的变量计算某些类型的统计信息。只需计算不同值（例如最常见的值，即 _ 模式 _）的统计信息，就可以对任何变量类型进行计算。其他统计数据是基于值的排序或排序（如 _ 中位数 _，当所有值都按其大小排序时，中位数是中间值），这些统计数据要求值至少按顺序排列。最后，涉及到值相加的统计（如平均值或 _ 平均值 _）要求变量至少在区间尺度上。尽管如此，我们应该注意到，对于研究人员来说，计算只有序数的变量的平均值是很常见的（比如人格测试的反应），但这有时会有问题。