统计假设检验的温和介绍 · Machine Learning Mastery 博客文章翻译

# 统计假设检验的温和介绍 > 原文： [https://machinelearningmastery.com/statistical-hypothesis-tests/](https://machinelearningmastery.com/statistical-hypothesis-tests/) 必须解释数据以增加含义。我们可以通过假设特定结构来解释数据，并使用统计方法来确认或拒绝假设。该假设称为假设，用于此目的的统计检验称为统计假设检验。每当我们想要对数据分布做出声明，或者一组结果是否与应用机器学习中的另一组结果不同时，我们必须依赖统计假设检验。在本教程中，您将发现统计假设检验以及如何解释和仔细陈述统计检验的结果。完成本教程后，您将了解： * 统计假设检验对于量化关于数据样本的问题的答案很重要。 * 统计假设检验的解释需要正确理解p值和临界值。 * 无论显着性水平如何，假设检验的发现仍可能包含错误。让我们开始吧。 * **更新于2018年5月**：添加了关于“拒绝”与“拒绝拒绝”的说明，改进了此问题的语言。 * **更新Jun / 2018** ：修正了I型和II型错误解释中的拼写错误。 ![A Gentle Introduction to Statistical Hypothesis Tests](img/f731e7f1aab9e664e4d2e317882b7810.jpg) 统计假设检验的温和介绍 [Kevin Verbeem](https://www.flickr.com/photos/kevinverbeem/33597498581/) 的照片，保留一些权利。 ## 教程概述本教程分为3个部分;他们是： 1. 统计假设检验 2. 统计测试解释 3. 统计检验中的错误 ## 统计假设检验仅数据并不有趣。这是对我们真正感兴趣的数据的解释。在统计学中，当我们希望开始询问有关数据的问题并解释结果时，我们使用统计方法来提供答案的置信度或可能性。一般来说，这类方法称为[统计假设检验](https://en.wikipedia.org/wiki/Statistical_hypothesis_testing)，或显着性检验。术语“_假设_”可能会让你思考科学，我们在那里研究一个假设。这是正确的轨道。在统计学中，假设检验在给定假设下计算一些数量。测试结果允许我们解释假设是否成立或假设是否被违反。我们将在机器学习中大量使用的两个具体例子是： * 假设数据具有正态分布的测试。 * 假设两个样本来自相同的基础人口分布的测试。统计检验的假设称为零假设，或假设0（简称H0）。它通常被称为默认假设，或者假设没有任何变化。违反测试假设通常被称为第一个假设，假设1或简称H1。 H1实际上是“_其他一些假设_”的简称，因为我们所知道的是证据表明H0可以被拒绝。 * **假设0（H0）**：测试的假设成立并且未能在某种重要性水平上被拒绝。 * **假设1（H1）**：测试的假设不成立并且在某种程度上被拒绝。在我们拒绝或不能拒绝原假设之前，我们必须解释测试的结果。 ## 统计测试解释统计假设检验的结果必须解释为我们开始提出索赔。对于初学者和有经验的从业者来说，这一点可能会引起很多混乱。统计假设检验可能会产生两种常见形式，必须以不同方式进行解释。它们是p值和临界值。 ### 解释p值我们通过解释p值来描述一个具有统计显着性的发现。例如，我们可以对数据样本执行正态性检验，并发现数据样本不太可能偏离高斯分布，不能拒绝原假设。统计假设检验可以返回称为p的值或 [p值](https://en.wikipedia.org/wiki/P-value)。这是我们可以用来解释或量化测试结果的数量，并且拒绝或不能拒绝原假设。这是通过将p值与预先选择的称为显着性水平的阈值进行比较来完成的。 [显着性水平](https://en.wikipedia.org/wiki/Statistical_significance)通常由希腊小写字母alpha引用。用于alpha的常用值是5％或0.05。较小的α值表明对零假设的更稳健的解释，例如1％或0.1％。将p值与预先选择的α值进行比较。当p值小于α时，结果具有统计学意义。这表示检测到更改：可以拒绝默认假设。 * **如果p值> alpha** ：无法拒绝原假设（即不具有重要结果）。 * **如果p值＆lt; =α**：拒绝原假设（即显着结果）。例如，如果我们正在测试数据样本是否正常并且我们计算了p值为.07，我们可以说： > 测试发现数据样本是正常的，未能以5％的显着性水平拒绝零假设。可以通过从1中减去显着性水平来反映显着性水平，以给出观察到的样本数据的假设的置信水平。 ```py confidence level = 1 - significance level ``` 因此，也可以进行如下陈述： > 测试发现数据正常，未能在95％置信水平拒绝零假设。 ### “拒绝”与“拒绝拒绝” p值是概率性的。这意味着当我们解释统计测试的结果时，我们不知道什么是真或假，只有可能。拒绝零假设意味着有足够的统计证据表明零假设看起来不太可能。否则，这意味着没有足够的统计证据来拒绝零假设。我们可以根据拒绝和接受零假设的二分法来考虑统计检验。危险在于，如果我们说“_接受_”零假设，那么该语言就表明零假设是正确的。相反，更安全地说我们“_未能拒绝_”零假设，因为没有足够的统计证据来拒绝它。当第一次阅读“_拒绝_”vs“_未能拒绝_”时，初学者会感到困惑。您可以将其视为“_拒绝_”与“_接受_”在您的脑海中，只要您提醒自己结果是概率性的，即使是“_接受_“零假设仍然存在错误的概率很小。 ### 常见的p值误解本节重点介绍统计检验结果中p值的一些[常见错误解释。](https://en.wikipedia.org/wiki/Misunderstandings_of_p-values) #### 真或假空假设对p值的解释并不意味着零假设是真或假。它确实意味着我们选择在基于经验证据和所选统计检验的特定统计显着性水平上拒绝或不能拒绝零假设。您仅限于提出概率声明，而不是关于结果的清晰二元或真/假声明。 #### p值为概率一个常见的误解是p值是给定数据的零假设为真或假的概率。在概率上，这将写成如下： ```py Pr(hypothesis | data) ``` 这是不正确的。相反，p值可以被认为是给定统计测试中嵌入的预先指定的假设的数据的概率。再次，使用概率表示法，这将写为： ```py Pr(data | hypothesis) ``` 它允许我们推断数据是否符合假设。不是相反。 p值是衡量零假设为真时数据样本观察的可能性的度量。 #### 后期调整这并不意味着您可以重新对域进行采样或调整数据样本并重新运行统计测试，直到获得所需结果。这并不意味着您可以在运行测试后选择p值。这被称为p-hacking或爬山，意味着你呈现的结果将是脆弱的而不具代表性的。在科学方面，这至多是不道德的，最糟糕的是欺诈。 ### 解释关键值某些测试不返回p值。相反，他们可能会返回[临界值列表](https://en.wikipedia.org/wiki/Critical_value)及其相关显着性水平，以及测试统计数据。这些通常是非参数或无分布的统计假设检验。返回p值或关键值列表的选择实际上是一种实现选择。结果以类似的方式解释。不是将单个p值与预先指定的显着性水平进行比较，而是将检验统计量与选定显着性水平的临界值进行比较。 * **如果检验统计量＆lt;临界值**：无法拒绝原假设。 * **如果检验统计量> =临界值**：拒绝原假设。同样，结果的含义是类似的，因为所选择的显着性水平是关于拒绝的概率决定或者在给定数据的情况下不能拒绝测试的基本假设。结果以与p值相同的方式呈现，作为显着性水平或置信水平。例如，如果计算正态性检验并将检验统计量与5％显着性水平的临界值进行比较，则结果可表示为： > The test found that the data sample was normal, failing to reject the null hypothesis at a 5% significance level. 要么： > The test found that the data was normal, failing to reject the null hypothesis at a 95% confidence level. ## 统计检验中的错误统计假设检验的解释是概率性的。这意味着测试的证据可能表明结果并且是错误的。例如，如果α为5％，则表明（最多）20次中的1次，由于数据样本中的统计噪声，零假设将被错误地拒绝或未能被拒绝。给定一个小的p值（拒绝零假设）或者意味着零假设是假的（我们做对了）或者它是真的并且已经观察到一些罕见且不太可能的事件（我们犯了一个错误）。如果发生这种类型的错误，则称为**误报**。我们错误地认为拒绝零假设。或者，给定一个大的p值（未能拒绝零假设），它可能意味着零假设为真（我们做对了）或者零假设是假的并且发生了一些不太可能的事件（我们犯了一个错误）。如果发生这种类型的错误，则称为**假阴性**。我们错误地认为零假设或统计检验的假设。这两种错误中的每一种都有一个特定的名称。 * **类型I错误**：错误拒绝真零假设或假阳性。 * **类型II错误**：拒绝假零假设或假阴性的错误失败。所有统计假设检验都有可能产生这些类型的错误。虚假的发现或错误的妄想是可能的;他们很可能。理想情况下，我们希望选择一个显着性水平，以最大限度地减少这些错误之一的可能性。例如。非常小的显着性水平。虽然0.05和0.01等显着性水平在许多科学领域都很常见，但更为科学的[，如物理学](http://www.physics.org/article-questions.asp?id=103)，更具攻击性。通常使用3 * 10 ^ -7或0.0000003的显着性水平，通常称为5-sigma。这意味着该发现是由于偶然发生实验的350万次独立重复中的概率为1。要使用这样的阈值，可能需要大量的数据样本。然而，这些类型的错误总是存在的，在呈现和解释统计测试的结果时必须牢记这些错误。这也是为什么独立验证结果很重要的原因。 ## 扩展本节列出了一些扩展您可能希望探索的教程的想法。 * 查找不使用p值显示结果的研究论文示例。 * 找一个研究论文的例子，该论文提出具有统计显着性的结果，但是对p值进行了一种常见的误解。 * 找一个研究论文的例子，该论文提出具有统计显着性的结果，并正确地解释和呈现p值和发现。如果你探索任何这些扩展，我很想知道。 ## 进一步阅读如果您希望深入了解，本节将提供有关该主题的更多资源。 ### 用品 * [维基百科上的统计假设检验](https://en.wikipedia.org/wiki/Statistical_hypothesis_testing) * [维基百科的统计意义](https://en.wikipedia.org/wiki/Statistical_significance) * 维基百科上的 [p值](https://en.wikipedia.org/wiki/P-value) * [维基百科的重要价值](https://en.wikipedia.org/wiki/Critical_value) * [维基百科上的I型和II型错误](https://en.wikipedia.org/wiki/Type_I_and_type_II_errors) * [维基百科上的数据挖掘](https://en.wikipedia.org/wiki/Data_dredging) * [对维基百科上的p值的误解](https://en.wikipedia.org/wiki/Misunderstandings_of_p-values) * [5 sigma是什么意思？](http://www.physics.org/article-questions.asp?id=103) ## 摘要在本教程中，您发现了统计假设检验以及如何解释和仔细陈述统计检验的结果。具体来说，你学到了： * 统计假设检验对于量化关于数据样本的问题的答案很重要。 * 统计假设检验的解释需要正确理解p值。 * 无论显着性水平如何，假设检验的发现仍可能包含错误。你有任何问题吗？在下面的评论中提出您的问题，我会尽力回答。