企业🤖AI智能体构建引擎,智能编排和调试,一键部署,支持私有化部署方案 广告
## 12.7 超出 2 x 2 表的分类分析 分类分析也可以应用于应急表,其中每个变量有两个以上的类别。 例如,让我们看一下 nhanes 的数据,比较变量 _depressed_,它表示“参与者感到沮丧、沮丧或绝望的自我报告天数”。此变量编码为`None`、`Several`或`Most`。让我们测试这个变量是否与 _sleeptrouble_ 变量相关,这个变量报告个人是否向医生报告了睡眠问题。 ```r # summarize depression as a function of sleep trouble depressedSleepTrouble <- NHANES_adult %>% drop_na(SleepTrouble, Depressed) %>% count(SleepTrouble, Depressed) %>% arrange(SleepTrouble, Depressed) depressedSleepTroubleTable <- depressedSleepTrouble %>% spread(SleepTrouble, n) %>% rename( NoSleepTrouble = No, YesSleepTrouble = Yes ) pander(depressedSleepTroubleTable) ``` <colgroup><col style="width: 16%"> <col style="width: 23%"> <col style="width: 23%"></colgroup> | 沮丧的 | 无阻力 | 是的,可重复 | | --- | --- | --- | | 无 | 2614 个 | 676 个 | | 几个 | 418 个 | 249 个 | | 大多数 | 138 个 | 145 个 | 简单地看一下这些数据,我们就可以知道这两个变量之间可能存在某种关系;特别是,尽管睡眠问题患者的总数比没有睡眠问题的患者要少很多,但对于大多数时间都处于抑郁状态的患者来说,睡眠问题患者的数量更大。比没有的要水。我们可以直接使用卡方检验对其进行量化;如果我们的数据框只包含两个变量,那么我们可以简单地将数据框作为参数提供给`chisq.test()`函数: ```r # need to remove the column with the label names depressedSleepTroubleTable <- depressedSleepTroubleTable %>% dplyr::select(-Depressed) depressedSleepChisq <- chisq.test(depressedSleepTroubleTable) depressedSleepChisq ``` ```r ## ## Pearson's Chi-squared test ## ## data: depressedSleepTroubleTable ## X-squared = 200, df = 2, p-value <2e-16 ``` 这项测试表明,抑郁和睡眠问题之间有很强的关系。我们还可以计算贝叶斯因子来量化有利于替代假设的证据的强度: ```r # compute bayes factor, using a joint multinomial sampling plan bf <- contingencyTableBF( as.matrix(depressedSleepTroubleTable), sampleType = "jointMulti" ) bf ``` ```r ## Bayes factor analysis ## -------------- ## [1] Non-indep. (a=1) : 1.8e+35 ±0% ## ## Against denominator: ## Null, independence, a = 1 ## --- ## Bayes factor type: BFcontingencyTable, joint multinomial ``` 在这里,我们看到贝叶斯系数非常大,这表明支持抑郁和睡眠问题之间关系的证据非常有力。