## 17.3 科学中的再现性危机
人们可能希望布莱恩·万辛克是一个罕见的异类,但越来越清楚的是,在科学中,再现性问题比以前想象的要普遍得多。这一点在 2015 年变得清晰起来,当时一大群研究人员在名为“评估心理科学的再现性”的杂志 _Science_ 上发表了一项研究(开放科学合作 2015)。在这项研究中,研究者们选取了 100 项已发表的心理学研究成果,并试图复制论文最初报道的结果。他们的发现令人震惊:尽管 97%的原始论文报告了具有统计学意义的发现,但在复制研究中只有 37%的这些影响具有统计学意义。尽管心理学中的这些问题受到了广泛关注,但它们似乎存在于几乎所有科学领域,从癌症生物学(Errington 等人 2014 年)和化学(Baker 2017 年)到经济学(Christensen 和 Miguel 2016 年)和社会科学(Camerer 等人 2018 年)。
2010 年之后出现的再现性危机实际上是由斯坦福大学的一位医生约翰·伊奥尼迪斯预测的,他在 2005 年写了一篇题为“为什么大多数发表的研究结果都是错误的”(伊奥尼迪斯,2005 年)的论文。在本文中,伊奥尼迪斯认为,在现代科学的背景下使用零假设统计检验必然会导致高水平的错误结果。
### 17.3.1 阳性预测值及统计意义
ioannidis 的分析侧重于一个被称为 _ 阳性预测值 _ 的概念,定义为阳性结果(通常翻译为“统计显著结果”)的比例,这是正确的:
![](https://img.kancloud.cn/31/f3/31f3f28b496ed59f587f00cd4c7bd372_456x43.jpg)
假设我们知道我们的假设是正确的概率(![](https://img.kancloud.cn/1b/ad/1bad6f088814d12500ba77cc9cef270d_91x18.jpg)),那么一个真正的正结果的概率就是![](https://img.kancloud.cn/1b/ad/1bad6f088814d12500ba77cc9cef270d_91x18.jpg)乘以研究的统计能力:
![](https://img.kancloud.cn/b1/26/b1265e17af2cc92ac0703c652182cc4c_367x18.jpg)
were![](https://img.kancloud.cn/76/d0/76d0eb69ba026a58bbe3edd275fee712_11x16.jpg)为假阴性率。假阳性结果的概率由![](https://img.kancloud.cn/1b/ad/1bad6f088814d12500ba77cc9cef270d_91x18.jpg)和假阳性率![](https://img.kancloud.cn/38/9a/389a9983ea24ad0b3af0559c2aca381b_11x8.gif)决定:
![](https://img.kancloud.cn/fc/91/fc9187bd64ea2cc901f4f3ba3b5a102c_377x18.jpg)
PPV 的定义如下:
![](https://img.kancloud.cn/cd/59/cd59e8680d44741130cefac5e1a8843c_420x43.jpg)
我们先举一个例子,假设为真的概率很高,比如说 0.8——但是请注意,一般来说,我们不能真正知道这个概率。假设我们使用标准值![](https://img.kancloud.cn/46/c0/46c01e385788ea8e97a8ea63fdbc8d70_68x13.jpg)和![](https://img.kancloud.cn/0a/4a/0a4aff61f7335321b6e246045a51ea99_58x16.jpg)进行研究。我们可以将 ppv 计算为:
![](https://img.kancloud.cn/f2/1e/f21eb2eda6994cf01c674ba0d9ad1c27_374x43.jpg)
这意味着,如果我们在一项假设很可能是真实的、权力很高的研究中发现一个积极的结果,那么它成为真实的可能性很高。然而,请注意,假设具有如此高的真实可能性的研究领域可能不是一个非常有趣的研究领域;当研究告诉我们一些新的东西时,它是最重要的!
让我们对一个字段进行相同的分析,其中![](https://img.kancloud.cn/df/91/df91ed02a3c4c6689acaa5e56e14ce44_138x18.jpg)——也就是说,测试的大多数假设都是错误的。在这种情况下,PPV 是:
![](https://img.kancloud.cn/c1/d7/c1d74da88003cb2b24213134e6cbe63c_383x43.jpg)
这意味着,在一个大多数假设都可能是错误的领域(也就是说,一个有趣的科学领域,研究人员正在测试风险假设),即使我们发现了一个积极的结果,也更可能是错误的,而不是真的!事实上,这只是我们在假设检验中讨论的基础利率效应的另一个例子——当结果不太可能出现时,几乎可以肯定的是,大多数积极的结果将是假阳性。
我们可以模拟这一点,以显示 ppv 与统计功率的关系,作为假设为真的先验概率的函数(参见图[17.1](#fig:PPVsim))
![A simulation of posterior predictive value as a function of statistical power (plotted on the x axis) and prior probability of the hypothesis being true (plotted as separate lines).](https://img.kancloud.cn/91/a4/91a4ed8e2ab5a6ebc785f72c4385445b_576x384.png)
图 17.1 后验预测值作为统计功率函数(绘制在 x 轴上)的模拟,假设的前验概率为真(绘制为单独的线)。
不幸的是,许多科学领域的统计能力仍然很低(Smaldino 和 McElreath,2016 年),这表明许多已发表的研究结果都是错误的。
### 17.3.2 胜利者的诅咒
另一种错误也可能发生在统计能力较低的时候:我们对影响大小的估计将被夸大。这种现象经常被称为“赢家的诅咒”,它来自经济学,它指的是,对于某些类型的拍卖(每个人的价值都是一样的,就像一罐 25 美分的硬币,而竞拍是私人的),赢家几乎总是支付比好的东西更高的价格。.在科学中,赢家的诅咒是指根据重大结果(即赢家)估计的效果大小几乎总是高估真实效果大小的事实。
我们可以对此进行模拟,以了解重要结果的估计效果大小与实际潜在效果大小之间的关系。让我们生成真实效果大小为 0.2 的数据,并在检测到显著效果的情况下估计这些结果的效果大小。图[17.2](#fig:CurseSim)显示,当功率较低时,与实际效果大小相比,显著结果的估计效果大小可能会大大膨胀。
![A simulation of the winner's curse as a function of statistical power (x axis). The black line shows the estimated effect size, and the red dashed line shows the actual effect size. ](https://img.kancloud.cn/e8/a7/e8a74a1cbee6f28e8592825fc5238047_384x384.png)
图 17.2 胜利者诅咒作为统计幂函数(x 轴)的模拟。黑线显示估计的效果大小,红色虚线显示实际的效果大小。
![A histogram showing sample sizes for a number of samples from a dataset, with significant results shown in blue and non-significant results in red.](https://img.kancloud.cn/69/5a/695a9561899f1bd50ed2b668807f56cd_384x384.png)
图 17.3 一个柱状图,显示数据集中若干样本的样本大小,显著结果以蓝色显示,非显著结果以红色显示。
我们可以通过一个模拟来了解为什么会出现这种情况。在图[17.3](#fig:curseSimSingle)中,您可以看到 1000 个样本的估计效果大小的柱状图,通过测试是否具有统计意义来分隔。从图中可以清楚地看到,如果我们仅仅根据显著的结果来估计效果大小,那么我们的估计就会膨胀;只有当大多数结果都是显著的(即功率高,效果相对较大)时,我们的估计才会接近实际的效果大小。
- 前言
- 0.1 本书为什么存在?
- 0.2 你不是统计学家-我们为什么要听你的?
- 0.3 为什么是 R?
- 0.4 数据的黄金时代
- 0.5 开源书籍
- 0.6 确认
- 1 引言
- 1.1 什么是统计思维?
- 1.2 统计数据能为我们做什么?
- 1.3 统计学的基本概念
- 1.4 因果关系与统计
- 1.5 阅读建议
- 2 处理数据
- 2.1 什么是数据?
- 2.2 测量尺度
- 2.3 什么是良好的测量?
- 2.4 阅读建议
- 3 概率
- 3.1 什么是概率?
- 3.2 我们如何确定概率?
- 3.3 概率分布
- 3.4 条件概率
- 3.5 根据数据计算条件概率
- 3.6 独立性
- 3.7 逆转条件概率:贝叶斯规则
- 3.8 数据学习
- 3.9 优势比
- 3.10 概率是什么意思?
- 3.11 阅读建议
- 4 汇总数据
- 4.1 为什么要总结数据?
- 4.2 使用表格汇总数据
- 4.3 分布的理想化表示
- 4.4 阅读建议
- 5 将模型拟合到数据
- 5.1 什么是模型?
- 5.2 统计建模:示例
- 5.3 什么使模型“良好”?
- 5.4 模型是否太好?
- 5.5 最简单的模型:平均值
- 5.6 模式
- 5.7 变异性:平均值与数据的拟合程度如何?
- 5.8 使用模拟了解统计数据
- 5.9 Z 分数
- 6 数据可视化
- 6.1 数据可视化如何拯救生命
- 6.2 绘图解剖
- 6.3 使用 ggplot 在 R 中绘制
- 6.4 良好可视化原则
- 6.5 最大化数据/墨水比
- 6.6 避免图表垃圾
- 6.7 避免数据失真
- 6.8 谎言因素
- 6.9 记住人的局限性
- 6.10 其他因素的修正
- 6.11 建议阅读和视频
- 7 取样
- 7.1 我们如何取样?
- 7.2 采样误差
- 7.3 平均值的标准误差
- 7.4 中心极限定理
- 7.5 置信区间
- 7.6 阅读建议
- 8 重新采样和模拟
- 8.1 蒙特卡罗模拟
- 8.2 统计的随机性
- 8.3 生成随机数
- 8.4 使用蒙特卡罗模拟
- 8.5 使用模拟统计:引导程序
- 8.6 阅读建议
- 9 假设检验
- 9.1 无效假设统计检验(NHST)
- 9.2 无效假设统计检验:一个例子
- 9.3 无效假设检验过程
- 9.4 现代环境下的 NHST:多重测试
- 9.5 阅读建议
- 10 置信区间、效应大小和统计功率
- 10.1 置信区间
- 10.2 效果大小
- 10.3 统计能力
- 10.4 阅读建议
- 11 贝叶斯统计
- 11.1 生成模型
- 11.2 贝叶斯定理与逆推理
- 11.3 进行贝叶斯估计
- 11.4 估计后验分布
- 11.5 选择优先权
- 11.6 贝叶斯假设检验
- 11.7 阅读建议
- 12 分类关系建模
- 12.1 示例:糖果颜色
- 12.2 皮尔逊卡方检验
- 12.3 应急表及双向试验
- 12.4 标准化残差
- 12.5 优势比
- 12.6 贝叶斯系数
- 12.7 超出 2 x 2 表的分类分析
- 12.8 注意辛普森悖论
- 13 建模持续关系
- 13.1 一个例子:仇恨犯罪和收入不平等
- 13.2 收入不平等是否与仇恨犯罪有关?
- 13.3 协方差和相关性
- 13.4 相关性和因果关系
- 13.5 阅读建议
- 14 一般线性模型
- 14.1 线性回归
- 14.2 安装更复杂的模型
- 14.3 变量之间的相互作用
- 14.4“预测”的真正含义是什么?
- 14.5 阅读建议
- 15 比较方法
- 15.1 学生 T 考试
- 15.2 t 检验作为线性模型
- 15.3 平均差的贝叶斯因子
- 15.4 配对 t 检验
- 15.5 比较两种以上的方法
- 16 统计建模过程:一个实例
- 16.1 统计建模过程
- 17 做重复性研究
- 17.1 我们认为科学应该如何运作
- 17.2 科学(有时)是如何工作的
- 17.3 科学中的再现性危机
- 17.4 有问题的研究实践
- 17.5 进行重复性研究
- 17.6 进行重复性数据分析
- 17.7 结论:提高科学水平
- 17.8 阅读建议
- References