13.4 相关性和因果关系 · 斯坦福 Stats60 21 世纪的统计思维

## 13.4 相关性和因果关系当我们说一件事导致另一件事时，我们的意思是什么？关于因果关系意义的讨论在哲学上有着悠久的历史，但在统计学上，我们通常认为因果关系的一种方式是实验控制。也就是说，如果我们认为因子 x 导致因子 y，那么操纵 x 的值也应该操纵 y 的值。在医学上，有一套被称为[_koch 的假设 _](https://en.wikipedia.org/wiki/Koch%27s_postulates)的观点，在历史上一直被用来确定一个特定的有机体是否引起疾病。基本思想是，有机体应该存在于有疾病的人身上，而不存在于没有疾病的人身上——因此，消除有机体的治疗也应该消除疾病。此外，感染有机体的人应使他们感染该疾病。巴里·马歇尔博士的工作就是一个例子，他假设胃溃疡是由一种细菌（_ 幽门螺杆菌 _）引起的。为了证明这一点，他感染了这种细菌，很快他的胃就出现了严重的炎症。然后他用抗生素治疗自己，他的胃很快就恢复了。他后来因这项工作获得了诺贝尔医学奖。通常我们想测试因果假设，但实际上我们不能做实验，因为这是不可能的（“人类碳排放与地球气候之间的关系是什么？”）或不道德（“严重虐待对儿童大脑发育有什么影响？”）但是，我们仍然可以收集与这些问题相关的数据。例如，在后一个例子中，我们可以潜在地从遭受虐待的儿童和未遭受虐待的儿童那里收集数据，然后我们可以询问他们的大脑发育是否不同。假设我们做了这样的分析，我们发现被虐待儿童的大脑发育比未被虐待儿童差。这是否表明虐待会导致大脑发育不良？不，当我们观察到两个变量之间的统计关联时，这两个变量中的一个肯定会引起另一个。然而，这两个变量都有可能受到第三个变量的影响；在这个例子中，虐待儿童可能与家庭压力有关，家庭压力也可能通过较少的智力投入、食物压力或许多其他可能导致大脑发育不良。大道。重点是，两个变量之间的相关性通常告诉我们有什么东西导致了其他事情，但它并不能告诉我们是什么导致了什么。正如统计学家 EdwardTufte 所说，“相关性并不意味着因果关系，但它是一个很好的提示。” ### 13.4.1 因果图描述变量之间因果关系的一种有用方法是通过 _ 因果图 _，它将变量显示为圆，并将变量之间的因果关系显示为箭头。例如，图[13.5](#fig:simpleCausalGraph)显示了学习时间和我们认为应该受到影响的两个变量之间的因果关系：考试成绩和考试完成时间。图 13.5 显示三个变量之间因果关系的图表：学习时间、考试成绩和考试结束时间。绿色箭头表示一种积极的关系（即学习时间越长，考试成绩越高），红色箭头表示一种消极的关系（即学习时间越长，考试完成越快）。然而，事实上，对完成时间和成绩的影响并不是直接由花费在学习上的时间量造成的，而是由学生通过学习获得的知识量造成的。我们通常会说知识是一个潜在的（htg0）变量——也就是说，我们不能直接测量它，但是我们可以看到它反映在我们可以测量的变量中（比如成绩和完成时间）。图[13.6](#fig:latentCausalGraph)显示了这一点。图 13.6 显示了与上述相同的因果关系的图，但现在也显示了使用平方框的潜在变量（知识）。在这里，我们可以说知识（htg0）介导了学习时间和成绩/完成时间之间的关系。这意味着，如果我们能够保持知识的恒定性（例如，通过服用一种能立即引起遗忘的药物），那么学习时间的长短将不再对成绩和完成时间产生影响。请注意，如果我们简单地测量考试成绩和完成时间，我们通常会看到他们之间的负面关系，因为完成考试最快的人通常得到最高的分数。然而，如果我们将这种相关性解释为因果关系，这将告诉我们，为了获得更好的成绩，我们实际上应该更快地完成考试！这个例子说明了从非实验数据推断因果关系是多么困难。在统计学和机器学习领域，有一个非常活跃的研究团体，目前正在研究从非实验数据推断因果关系的时间和方式问题。然而，这些方法往往需要强有力的假设，通常必须谨慎使用。