💎一站式轻松地调用各大LLM模型接口,支持GPT4、智谱、星火、月之暗面及文生图 广告
## 2.1 什么是数据? 关于数据的第一个重要点是数据 _ 是 _——意思是“数据”这个词是复数(尽管有些人在这一点上不同意我的观点)。你也可能想知道如何发音“data”——我说“day-tah”,但我认识许多说“dah-tah”的人,尽管如此,我仍然可以和他们保持朋友关系。现在如果我听到他们说“数据是”,那将是更大的问题… ### 2.1.1 定性数据 数据由 _ 变量 _ 组成,其中变量反映唯一的度量或数量。有些变量是 _ 定性的 _,这意味着它们描述的是质量而不是数字量。例如,在我的统计课程中,我通常会做一个介绍性的调查,既可以获取课堂上使用的数据,也可以了解更多关于学生的信息。我问的问题之一是“你最喜欢吃什么?”其中一些答案是:蓝莓、巧克力、玉米粉蒸肉、意大利面、披萨和芒果。这些数据本质上不是数字;我们可以为每个数据分配数字(1=蓝莓,2=巧克力等),但我们只会将数字用作标签,而不是实数;例如,在这种情况下,将数字相加是没有意义的。但是,我们通常会使用数字对定性数据进行编码,以使它们更易于使用,稍后您将看到。 ### 2.1.2 定量数据 在统计学中,我们更常用于 _ 定量 _ 数据,这意味着数据是数字的。例如,这里的表[2.1](#tab:WhyTakingClass)显示了我在入门课上问的另一个问题的结果,即“你为什么要上这门课?” <caption>Table 2.1 Counts of the prevalence of different responses to the question "Why are you taking this class?"</caption> | 你为什么要上这门课? | 学生人数 | | --- | --- | | 满足学位计划要求 | 105 | | 满足通识教育广度要求 | 32 | | 不需要,但我对这个话题感兴趣 | 11 个 | | 其他 | 4 | 请注意,学生的回答是定性的,但我们通过计算每个回答的学生数得出了他们的定量总结。 #### 2.1.2.1 数字类型 我们在统计中处理的数字有几种不同的类型。理解这些差异很重要,部分原因是像 R 这样的编程语言经常区分它们。 **二进制数**。最简单的是二进制数——也就是零或一。我们经常使用二进制数字来表示某个事物是真是假,是存在还是不存在。例如,我可能会问 10 个人他们是否经历过偏头痛。如果他们的答案是: ```r # create variable containing responses to migraine question everHadMigraine <- c('Yes','No','Yes','No','No','No','Yes','No','No','No') everHadMigraine ``` ```r ## [1] "Yes" "No" "Yes" "No" "No" "No" "Yes" "No" "No" "No" ``` 相反,我们可以使用==符号将这些值重新编码为真值,该符号是对相等性的测试,如果这两个值相等,则返回逻辑值“真”,否则返回“假”。 ```r # create truth values from everHadMigraine variable everHadMigraineTF <- everHadMigraine == 'Yes' everHadMigraineTF ``` ```r ## [1] TRUE FALSE TRUE FALSE FALSE FALSE TRUE FALSE FALSE FALSE ``` r 同等对待真值和二进制数: ```r # evaluate truth of a set of assertions # 1 is equal to TRUE - should return TRUE TRUE == 1 ``` ```r ## [1] TRUE ``` ```r # 0 is equal to FALSE - should return TRUE FALSE == 0 ``` ```r ## [1] TRUE ``` ```r # 0 is equal to true - should return FALSE TRUE == 0 ``` ```r ## [1] FALSE ``` 我们还可以将真值列表显式地转换为整数: ```r # create integer values from truth values using as.integer() everHadMigraineBinary <- as.integer(everHadMigraineTF) everHadMigraineBinary ``` ```r ## [1] 1 0 1 0 0 0 1 0 0 0 ``` 当我们谈到概率论时,我们会看到一种方法,在这种方法中,这种表示是非常有用的。 **整数**。整数是不含小数部分或小数部分的整数。我们在计算事物时最常遇到整数,但在心理测量中也经常遇到整数。例如,在我的介绍性调查中,我处理了一组关于统计学态度的问题(例如“统计学对我来说似乎很神秘”),在这些问题上,学生的回答是 1(“强烈反对”)到 7(“强烈同意”)。 **实数**。在统计学中,我们通常使用实数,实数有小数/十进制部分。例如,我们可以测量某人的体重,从整磅到微克,精确到任意水平。