🔥码云GVP开源项目 12k star Uniapp+ElementUI 功能强大 支持多语言、二开方便! 广告
## 12.8 注意辛普森悖论 上述应急表是对大量观察结果的总结,但有时会产生误导。让我们以棒球为例。下表显示了 1995-1997 年间德里克·杰特和大卫·贾斯汀的击球数据(击数/击数和平均击球数): | 玩家 | 1995 年 | | 1996 年 | | 1997 年 | | 合并 | | | --- | --- | --- | --- | --- | --- | --- | --- | --- | | 基特 | 12 月 48 日 | 0.250 | 183/582 年 | .314 条 | 190/654 年 | .291 条 | 385/1284 年 | **.300** | | 大卫·正义 | 104/411 号 | **.253** | 45/140 分 | **.321** | 163/495 年 | **.329** | 312/1046 年 | .298 条 | 如果你仔细观察,你会发现有些奇怪的事情正在发生:在每一年,正义比杰特有一个更高的击球平均值,但当我们结合所有三年的数据,杰特的平均值实际上高于正义!这是一个被称为 _ 辛普森悖论 _ 的现象的例子,在这种现象中,组合数据集中的模式可能不存在于数据的任何子集中。当有另一个变量可能在不同的子集之间发生变化时,就会发生这种情况——在这种情况下,AT 蝙蝠的数量随着时间的推移而变化,1995 年司法部的击球次数更多(击球平均数较低时)。我们把它称为一个潜伏变量(htg2),每当我们检查分类数据时,注意这些变量总是很重要的。