第二章附录统计附录 · 心理学与生活

统计附录理解统针：分析数据和形成结论 ■分析数据描述统计推论统计 ■成为一个明智的统计学用户关键术语在第2章中，我们注意到心理学家运用统计学来解释他们收集的数据，同时也运用统计为他们得出的结论提供量化的基础。因此，了解统计学的一些知识有助于认识心理学知识的获得进程。从个人角度来讲，对统计学有基本的了解有利于你通过分析数据能够在摇摆不定的观点和行为中做更好的决定。大多数学生把统计学看做是乏味的、无趣的课程。然而，统计学在你的生活中有许多至关重要的应用。为了证明这个观点，我们将追踪一项研究，从追踪它怎样来源于真实世界到为得出一般的结论而使用统计学。这项研究最初要求对一个刊登在报纸头版的故事做出反应，这是一个关于畏缩的人突然成为杀人犯的故事。故事如下： “亲戚、同事和熟人形容弗雷德·考恩是一个正派的、恬静的人，一个喜欢孩子的绅士，一个真正的和蔼可亲的人。考恩上小学时的地方学校校长介绍考恩从前在礼貌、合作和信仰方面得了A。根据他的同事的介绍，考恩“从来不谈论任何人，他是你能随意摆布的人”。然而，考恩令每个认识他的人都很惊讶，在情人节，他手提半自动步枪来到工厂，开枪射击杀死4名同事、一名警员，最后自杀。这个故事有个通常的情节：一个害羞的、恬静的人突然变成杀人犯，令每个认识他的人都很展惊。弗雷徳·考恩与其他突然从绅士转变成暴力残忍的人有什么共同之处呢？这些人的个性品质与我们有什么区别呢？一组研究者怀疑害羞以及其他的个性特征与暴力行为间可能存在一定的联系（Lee et al.，1997)。因此，这些研究者开始着手收集可能揭示这种联系的数据。研究者推论，表面上非暴力却突然犯谋杀罪的人很可能是非常害羞的、不具有攻击性的人，他们能很好地控制自己的情感和冲动。在大部分生活中，他们都忍气吞声。无论他们感觉多么气愤，他们都很少表达出自己的愤怒。从外表看，他们表现出与自己不相干，但是他们的内心可能正在为了控制强烈的愤怒而斗争。他们给人的印象是恬静的、被动的、有责任心的儿童或成人。由于他们是害羞的，他们可能不让其他人接近，所以没有人知道他们的真正情感。然后，突然爆发出来。最轻微的刺激——很小的侮辱，轻微的拒绝，一点点社会压力——点燃了导火索，他们释放出长久以来累积的那些受压抑的暴力。由于他们没学会通过讨论和言语谈判来解决人际间的矛盾，所以这些突然的谋杀者们把他们的愤怒付诸物质行动上。研究者基于这些推理做出假设：与习惯性的杀人犯相比，害羞更可能是突然谋杀者特有的特性，这些人杀人但先前没有暴力历史或反社会行为，而习惯性的杀人犯先前有暴力犯罪行为的记录。另外，突然杀人犯比习惯暴力分子更能控制自己的冲动。最后，与习惯犯罪的罪犯相比，突然谋杀者的被动性和依赖性更被表现在女性化和双性化(androgynous)的特性上，标准的性别角色调查已测量了这一点。为了检验这些关于突然谋杀者的观点，研究者已获得批准对加州监狱的一组杀人犯施测心理问卷。19名狱犯(都是男性）同意参加这项研究。犯谋杀之前，一些人已犯过罪，而样本中的其他人先前没犯过罪。研究者从这两类被试身上收集三类数据：羞怯分数、性别角色认同分数和冲动控制分数。使用斯坦福羞怯调查（Stanford Shyness Survey)收集羞怯分。问卷中最重要的项目是询问被试是否害羞；答案为是或否。量表中其他项目询问害羞的程度和类型，以及有关害羞起因的各种维度。第二个问卷是贝姆性别角色问卷（Bem Sex-Role Inventory，BSRI)，给被试呈现一系列形容词，如好斗的、深情的，要求被试评估每个形容词适合描述自己的程度(Bern，1974，1981)。一些形容词典型地与女性化有关，这些形容词的总分为被试的女性化分数。其他形容词评占男子气概，这些形容词的总分为被试的男性化分数。女性化分数减去男性化分数做为最终性别角色分数，这个分数反映了被试女性化与男性化的差异。男性化与女性化分数的结合表明了被试的两性化分数。第二个问卷是明尼苏达多项人格测验（Minnesota Multiphasic Personality Inventory，MMPI)，这个问卷用于测量个性的不同方面（见14章）。这个研究仅使用“自我过度控制”（ego-overcontrol)量表，这个量表测量了个体控制冲动的程度。被试这个量表的得分越高，被试越表现出过分的自我控制。研究者预期，与先前有犯罪记录的杀人犯相比，突然杀人者（1）经常在羞怯调查中描述自己是害羞的；（2)在性别角色最表中选择更多的女性化特性；（3)自我过度控制的分数更高。他们发现了什么呢？在你得出结论之前，你要理解一些分析数据的基本程序。研究者收集的真实数据将作为原始材料，用于教你一些不同类型的统计分析和一些可能得到的结论。 ■分析数据对于大多数心理学研究者来说，分析数据是令人兴奋的一步——统计分析使研究者得以发现他们的预期是否正确。在这一部分，我们将一步步分析来自突然杀人者研究的数据。如果你已做了预见，那么你将看到一些数字和方程。记住数学是工具；数学符号是一种为了阐明观点和概念操作的简略表达方法。原始数据——实际分数或其他测量——来自于突然杀人者研究的19名狱犯的数据列在表S.1。由表可看出，突然杀人组有10名狱犯，习惯性罪犯组有9名狱犯。乍看这些数据，研究者能感受到你所体会到的困惑。这些分数意味着什么？在各种人格测验中，这两组杀人犯有什么差异？仅仅检验这种无组织的数据排列是很难知道的。心理学家依据两类统计方法：描述统计和推论统计来解释数据并得出有意义的结论。描述统计（descriptive slaklics)在客观的、同一的方法基础上使用数学程序描述数字数据的不同方面。如果你曾计算过你的年级平均成绩，那么你就使用过描述统计。推论统计(inferential statistics)利用概率论做出可靠的推论：什么样的结果可能仅仅是由于随机变异而产生的。 ■描述统计描述统计是数据的概要描述模式。它用于描述来自于一个实验被试或几组被试的数据。它也能描述变请间的相关。因而，研究者不必努力记住每个被试的所有得分，而是要得到每组被试的典型分数指标。研究者也要测墩典型分数是如何变化的——这些是发散的还是成族聚集在一起的。让我们看一看研究者如何推导这些测量。表S.1研究突然杀人犯的原始数据 BSHI MMPI 狱犯羞怯女性化-男性化自我的过度控制组1: 突然谋杀犯 1 是 +5 17 2 否 -1 17 3 是 +4 13 4 是 +61 17 5 是 +19 13 6 是 +41 19 7 否 -29 14 8 是 +23 9 9 是 -13 11 10 是 +5 14 组2: 惯犯谋杀者 11 否 -12 15 12 否 -14 11 13 是 -33 14 14 否 -8 10 15 否 -7 16 16 否 +3 11 17 否 -17 6 18 否 +6 9 19 否 -10 12 频次分布你将如何总结表S.1的数据呢？为了清楚描述各种分数的分布情况，我们得出频次分布（frequency distribution)状态——总结每类分数出现的频次。羞怯分数很容易总结。19个分数中，9个是10个否；在组1中几乎所有的反应都为是，在组2中几乎所有的反应都为否。然而，自我过度控制和性别角色分数并不容易区分成是和否两类。为了解这些数字反应的频率分布，我们可以比较两组被试的信息，我们主要讨论性别角色分数。看表S.1中的性别角色数据。最高分是+61(最女性化），最低分是-33(最男性化）。19个得分中，9个是正的，10个是负的——这意味着杀人犯中有9人描述自己是相对女性化的。10人描述自己是相对男性化的。但这些分数在两组被试中是如何分布的呢？对一组数据进行频率分布统计的第一步是把分数从高到低进行等级排序。对性别角色分数的等级排序如表S.2。第二步把这些排列后的分数进行分类，组成一些数目更小的类别称为组距。本研究分了10类，每一类可能包括10个分数。第三步是建构频次分布表，由高到低列出组距并记录频次——落入每组的个数通过频次分布我们能看出性别角色分数大部分在-20到+9间（见表S.3)。大部分狱犯的得分都不太偏离，即他们的得分既不十分正也不十分负。现在已把数据排列成几类。下一步研究者将使用图解表示频次分布。表S.2 性别角色差异分数的等级排列最高 +61 -1 +41 -7 +23 -8 +19 -10 +6 -12 +5 -13 +5 -14 +4 -17 +3 -29 -33 最低注：+分表示更女性化； -分表示更男性化。 —————— 表S.3 性别角色差异分数的频次分布类别频次 +60——+69 1 +50——+59 0 +40——+49 1 +30——+39 0 +20——+29 1 +10——+19 1 0——+9 5 -10——-1 4 -20——-11 4 -30——-21 1 -40——-31 1 ![](https://box.kancloud.cn/2016-08-14_57affd1a8c525.jpg) 图S.1 两组谋杀犯的羞怯感得分（直条图) 图当用图来表示数据分布时，常常可以让人更容易理解它们。最简单的一类图是直条图。这种图使我们能够看到数据中存在的模式。我们可以用一幅直条图表示出把自己描述为容易感到害羞的偶然杀人犯比杀人惯犯多出多少(见图S.1)。对于更复杂的数据，如性别角色得分等，我们可以使用直方图。这种图类似于直条图，只是类别换成了间距——数据类别，而不是直条图中使用的名称类别。直方图以视觉方式提供了各间距中得分的数量。从直方图中的性别角色得分可以很容易地看出，这两组杀人犯的得分分布是有差别的（见图S.2)。根据图S.1和图S.2可以看出，数据的基本分布情况服从研究者的两个假设。与惯犯相比，偶然的谋杀犯更可能会把自己描述成容易感到害羞，也更可能会用带有女性色彩的特质来描述自己。 ![](https://box.kancloud.cn/2016-08-14_57affd1a9ffaf.jpg) 图S.2 性别角色得分（直方图）集中趋势的度量到现在为止，我们对这些数据的分布情况已经有了一个大致的印象。表和图增进了我们对研究结果的理解，但我们希望能了解更多一例如，最能代表这一组数据的数值。当我们比较两组或更多组数据时，这样的一个数值是非常有用的；比较两组数据中有代表性的数值要比比较整个数据分布容易得多。只用一个有代表性的分数来作为通过对组被试的测量所获得的多数典型分数的指标被称为集中趋势的度量（measure of central tendency)(它应该位于分布的中央，其他分数则分布在其周围。）心理学家主要使用三种不同的集中趋势测量方法：众数、中数和平均数。众数(mode)是一个比其他数出现次数都要多的数值。对于羞怯感的测量值来说，突然杀人犯的众数反应是yes——10个人中有8个报告说自己是容易感到害羞的。而在惯犯当中，众数反应是no。在突然的谋杀犯中，性别角色得分的众数为+5。你能够计算出他们的自我过度控制分数的众数吗？众数是最容易得出的集中趋势的指标，但常常又是用处最小的。如果你能够注意到过控得分中只有一个分数高于众数17但却有6个分数低于它这一情况的话，你就可能体会出众数用处很小的一个原因了。尽管17是频次敁高的一个得分，但却不符合我们关于“代表性”或“集中趋势”的概念。中数（median)更明显的也是一个代表集中趋势的度量；它将一组数据中高分的一半与低分的另一半区分开来。高出中数分数的数量与低于它分数的数量相等。当分数的个数为奇数时，中数是位于数据分布中间的那个分数；当分数的个数为偶数时，研究者常常以最中间的两个分数的平均值作为中数。例如，如果将杀人惯犯的性别角色得分按照高低顺序排列在单独的一张纸上，可以看出中数是-10，分别有四个分数高于和低于这一数值。在突然的杀人犯中，中数是+5——第五和第六个分数的平均攸，这两个分数恰巧都是+5。中数不受极值的影响。例如，即使突然杀人犯中最高的性别角色得分是+129而不是这里的+61，中数将仍然是+5。这个分数仍然会把数据中高分的一半和低分的一半区分开来。中数始终处在数据分布的之间位置。平均数（mean)是多数人听到平均这个词时常常会想到的。它同时还是最常用到的描述一组数据的统计景，要计算平均数的话，我们需要把所有数据加在一起，然后再除以这些数据的个数。这一操作可以用下面这个公式来表示： M=(ΣX)/N 在该公式中，M代表平均数，X是单个的分数，Σ(希腊字母sigma)表示把它后面的内容加在一起，N则是所有分数的个数。由于所有性别角色分数的总和（ΣX)是115，而分数的个数（N)是10，所以突然杀人犯的性别角色得分的平均数（M)可以这样计算出来： M=115/10=11.5 可以试着自己计算一下这些犯人的过控得分的平均值。结果将会得到14.4。与中数不同，平均数会受到数据分布中特定分数的影响。改变某个极值的数值的确会改变平均值。例如，如果4号罪犯的性别角色得分是+101而不是这里的+61，那么整组罪犯的分数平均值就会从11.5增加到15.5。离散性除了了解哪一个分数最能代表整个数据分布外，了解这种集中趋势度量的代表性究竟如何也是很有用处的。其他分数大部分距离它很近还是非常分散？离散性的度量(measures of variability)是描述围绕在某些集中趋势度量周围的分数分布情况的统计量。你能看出为什么关于离散性的度量非常重要吗？举个例子有助于说明这一点。假定你是一名小学教师。现在是一学年的开始，你将教授30名小学生阅读。了解到本班的儿童一般能够阅读一年级水平的课本，这将有助于你安排自己的课程。不过，如果你还了解这30名儿童的阅读能力的相同或不同程度的话，你就可以安排得更好。他们是否处在同一个水平上呢（低离散性）？如果是这样的话，那么你就可以安排一门很标准的二年级的课程。但如果有一些儿童能够阅读更深的材料而其他人却几乎不能看懂它们（高离散性）的话，该怎么办呢？平均水平现在已经不能够代表整个班级的情况，因此你需要安排多种课程以满足这些儿童的不同需要。关于离散性的最简单的一类度量是全距(range)，即频率分布中高值与最低值之间的差值。对于突然杀人犯的性别角色得分来说，全距是90:(+61）-(-29)。过控得分的全距则是10:(+19)-(+9)。在计算全距时，我们只需要知道两个数值：最高值和最低值。全距易于计算，怛心理学家常常更喜欢用那些更敏感的、将听有数据都考虑进来而不是只考虑极端数值的度量。一个普遍使用的度量是标准差(standard deviation，SD)，它代表着所有分数与其平均数之间的平均差值。要计算标准差，我们需要知道数据的平均值和单个的具体分数。一般的步骤包括先用各个分数减去均值，然后再确定出这些离均差的平均值。公式如下： ![](https://box.kancloud.cn/2016-08-14_57affd1ab8542.jpg) 你应该能够根据计算平均数的那个公式认出这里的大多数符号。(X-M)这个表达式的意思是“分数减去平均值”，通常称之为离均差。先从各个分数中减去平均值，然后将得到的结果进行平方（以消除负值）。把这些数值相加（Σ)，然后再除以观测值的数目(N)，就得到了方差的均值。这个符号要求我们对包括在符号内的数值取平方根以抵消前面的平方操作。表S.4中计算出了突然杀人犯过控得分的标准差。回忆一下，这些分数的平均值是14.4。由此，它就是那个必须用各个分数来进行相减以得出相应的离均差的数值。 ![](https://box.kancloud.cn/2016-08-14_57affd1acda02.jpg) 表S.4计算突然杀人犯自我一过控分的标准差标准差可以告诉我们一组分数的离散程度。标准差越大，则数据分布越分散。突然杀人犯中性别角色得分的标准差是24.6，惯犯的标准差却只有10.7。这表明，惯犯组的数据离散程度要低一些。与突然杀人犯相比，他们的分数距离平均值更紧密。当标准差很小时，平均数是整个数据分布的一个很好的代表值。而当标准差很大时，它对整组数据的代表性将减小。相关解释心理学研究数据的另一个有用的工具是相关系数(correlation coefficient)，它是关于两个变量(如身高与体重或者性别角色得分与自我-过控得分）之间相关程度和性质的一个度量。相关系数可以告诉我们在某种度量上的分数与另一种度量上的分数之间的联系程度。如果在某个变量上获得高分数的人倾向于在另一个变量上也获得高分，那么相关系数将为正值（大于0)。如果在一个变量上获得高分的多数人在另一个变量上却倾向于得到低分，相关系数将会为负值（小于0)。如果两个分数间不存在一致的关系，则相关系数将接近于0(也请参见第2章)。相关系数的取值范围从+1(完全正相关）到0再到-1(完全负相关）。在两个方向上离0越远，两个变量之间或正或负的联系就越紧密。相关系数越高，则根据一个变量的信息，可以更好的预测另一个变量。在突然杀人犯中，性别角色得分与过控分数之间的相关（以r表示）为+0.35。因此，这两者之间是正相关的——总的来说，那些认为自己具有更高的女性气质的人同时还倾向于具有高过控特征。不过，与可能出现的最高相关+1.00相比，这一相关只有中等水平，因此我们知道在这两者之间的关系中有很多例外情况。如果我们同时还测量了罪犯的自尊感，并且在过控分数与自尊感得分之间发现有-0.68的相关，这将意味着这两者之间存在着负相关。如果确实是这样的话，我们就可以说，那些具有获得高过控得分的个体往往自尊感较低。这将是一个比性别角色得分与过控得分之间相关系数更高的相关，因为-0.68比+0.35距离0这一代表着没有相关的点更远一些。 ■推论统计我们已经使用了很多描述统计量来描述突然杀人犯研究所得到的数据，现在我们对这些结果的情况有了一定的了解。不过，仍然有一些基本问题没有得到回答。回忆一下，研究者曾经设想突然杀人犯可能比惯犯更容易感到害羞、更具有过控特征以及女性气质更重。在用描述统计比较了这两组罪犯的平均反砬与离散程度后，看起来他们之间确实存在着一些差异。但我们怎么样才能够知道这种差异已经大到足够的程度而具有一定的意义了呢？如果我们以其他一些突然杀人犯和惯犯重复这项研究的话，能够预期会得到同样模式的结果吗？或者，已经得到的那些结果只是随机现象的产物？如果我们能够用某种方法对全部突然杀人犯与惯犯进行测量，所得到的平均值和标准差会和我们用小样本研究所得到的结果相同吗？推论统计被用来回答上面这些问题。它们能够告诉我们可以根据样本研究做出什么样的推论，以及根据我们的数据可以合理地得出什么结论。推论统计利用概率论来确定一组数据完全由随机变化所得出的可能性。正态曲线要想理解推论统计是如何进行的，我们首先必须来看一下一种称之为正态曲线的数据分布的特别之处。当从大量个体身上收集关于某个变量（如身高、智商或过控性等）的数据时，数据的个数常常符合一条大致类似于如图S.3所示的曲线。注意，这条曲线是左右对称的（左半部分是右半部分的一个镜像），呈钟型——中间高，多数数据处于这一位置，离均值越远，曲线高度越低。这类曲线称之为正态曲线（normal carve)，或者叫做正态分布。（偏态分布是一条数据集中在某一端而不是围绕在中央位置的曲线。） ![](https://box.kancloud.cn/2016-08-14_57affd1b2571f.jpg) 图S.3正态曲线在正态曲线中，中数、众数以及平均数都是同一个数。可以预测，某个分数所占的具体百分比将落在曲线的不同区间里。图S.3给出了斯坦福-比奈智力测验所得到的智商分数。这些分数的均值是100，标准差为16。如果以沿坐标底线距离平均值的距离来表示标准差的话，我们可以发现，在平均值100上下1个标准差的范围内集中了68%多一点的分数。剩下的分数中，约有27%位于平均值下第一和第二标准差（IQ分数68和84之间）以及平均值上第一和第二标准差（IQ分数116和132之间）之间。另有不到百分之五的分数落入高于和低于平均值的第三个标准差范围内。很少有数据落在这个范围以外——只有约0.25%。推论统计指明了所得到的特定分数样本与你所要测量的内容之间存在着真正关联的概率，或者说它们是否只是由随机因素所产生的概率。例如，一个人的智商更有可能是105而不是140，但140的智商出现的可能性又要高于智商35出现的可能性。正态曲线也可以通过收集一系列完全由随机因素造成差异的度量来获得。如果你把同一枚硬币连续抛10次并分别记录下正反面朝上的次数，就很有可能各得到5次——多数时候是这样。如果像这样连续抛100组的话，有可能会得到一些全部为正面朝上或没有正面朝上的情况，也会得到更多的次数介于这两个极端数值之间的情况，其中最多的是正面或反面为五次左右的情况。如果把这1000次抛硬币的情况做成一幅图的话，将会得到一条非常吻合正态的曲线，正如图中所示的那样。统计显著性当研究者在两组样本的均值之间发现有差异后，他肯定想知道这是一个真正的差异还是只是因随机因素而出现的差异。由于随机差异服从正态分布，研究者可以用正态曲线来回答这个问题。举个简单的例子可以说明这一点。假定你的心理学教授希望知道监考人的性别对于男女学生的考试成绩是否会有影响。为此，教授随机把一半学生分配给一位男监考老师，另一半分配给一位女监考老师。他然后比较了两组学生的平均成绩。这两个平均数很可能会非常相似；如果有一些微小的差异，也很可能是随机出现的。这是为什么呢？如果只有随机因素在起作用且两组学生来自同一个总体（无差异）的话，那么男监考老师和女监考老师这两组样本的分数均值在大多数时候都应该是相当接近的。根据正态分布中不同区间里分数所占的百分比，我们知道，男监考老师组中只有不到三分之一的学生成绩会比女监考老师组中学生的平均成绩高出或低出一个标准差。男监考老师组中学生的平均成绩比女监考老师组中学生的平均成绩高出或低出三个标准差的可能性是非常小的。如果某位教授确实得到了这么大的一个差异，那么他可以相当有把握地认为这是一种真实的差异，在某种程度上与监考老师的性别有关。接下来的问题将是这个变童是如何影响测验成绩的。如果男女学生被随机分配给两类监考人，就有可能来分析监考人之间出现的差异在两组学生中是否一致或者只是局限于某性别的学生。假定有数据表明，男监考老师给女学生的评分高于女监考老师的评分，而两者对男学生的评分却相同。教授就可以利用统计推论程序来估计某个观测到的差异因随机因素而出现的概率。这种计算的依据是差异量的大小和数据的分布情况。根据已经达成的一致认识，当由随机因素导致的概率不足5%(以p<.05来表示）时，心理学家将接受这个差异为“真”。显著差异（significant difference)是指符合这一标准的差异。不过，在某些情况下可能还会使用更严格的概率标准如p<.01(100中不足1个）和p<.001(1000中不足1个）。当出现了统计意义上显著的差异时，研究者可以对所考察的行为做出一个结论。有很多不同的检验方法可以用来估计数据的统计显著性。选择何种检验方法将取决于研究设计、数据类型以及样本的大小。我们在这里只介绍一种最常使用的检验，即t检验。当研究者希望知道两组数据的均值差异是否达到统计上的显著性时，就可以使用这种检验。我们可以用t检验来考察突然杀人犯的性别角色得分均值与惯犯的得分均值之间是否有显著差异。它使用一种数学程序来验证你可能已经根据图s.2得出的一个结论：两组罪犯性别角色得分的分布差异已经达到了为“真”的程度。如果我们做一项恰当的计算——它将两个均值之间的差异作为这些均值之间离散性的函数来进行处理——我们会发现，如果不存在真正差异的话，获得这样一个t值的概率很小，不足5%(p<.05)。因此，这种差异在统计上是显著的，我们可以很肯定地认为这两组罪犯之间存在着一个真正的差异。与惯犯相比，突然杀人犯确实把自己评价为女性气质更重一些。另一方面，两组罪犯过控分数的差异并没有达到统计的显著性（P<.10)，因此我们在讨论这个差异时必须非常谨慎。在研究者所预测的方向上出现了一个趋势——这是一个在100次中会出现10次的差异。但是，这一差异并不在标准的5%的范围内。（在用另外一种统计检验对得分频率进行分析时，害羞感的差异达到了显著水平。）因此，通过使用推论统计，我们能够回答在开始进行研究时提出的一些基本问题，能够更深入地了解那些突然从性情温和、容易害羞的人变成杀人犯的个体心理。但是，任何结论都只是一种关于所研究的事件之间可能存在的相互关系的论断；它永远不会是确定性。科学研究中的真理都是暂时的，总会有后来更好的研究资料而被修正，由更好的假设而发展。 ■成为一个明智的统计学用户既然我们已经学习什么是统计、如何使用统计以及它们的意义，就应该简要地讨论一下它们可能被错误使用的情况。很多人往往会接受那些没有得到证实而只是由关于某种统计量的权威个人的看法所支持的“事实”。其他人则会简单地相信或者否定统计处理的结果，而根本不知道该如何考察那些用来支持某种产品、政治家或提案的数据。在第2章末尾，我们曾经提出了如何成为一位明智的研究使用者的建议。报据本章对统计学的简短介绍，我们可以将这牲建议拓展到进行统计判断的情景中。在进行统计分析时，有很多方面会给人造成一些有误导的印象。研究工作的各个阶段中所做的决策——从如何选择被试到如何设计研究、选择何种统计方法以及如何进行统计等各方面——对于从这吟数据中得出的结论都有着复杂的影响。在报告研究结果时，使用哪些被试往往会造成很大的差异，而这种差异很容易被忽略。例如，在调査人们关于堕胎权的观点时，在南部一个原教旨主义小社区里做这项研究会得到和在纽约市的大学里做这项研究很不同的结果。同样，职业生活组在调查成员的意见时所得出的结论很可能会和职业选择组在做同一调查时所得到的结论不同。即使通过一定的方法对被试进行了随机选择而没有出现偏倚，如果不能满足统计学的基本假设，统计分析也会得出一些误导结果。例如，假定有20个人参加智力测验；其中有19个人的得分在90-110之间，另有1人的得分是220。这组分数的均值将会因为这个偏离多数而极高的分数而被大大地抬高。在这类数据中，中数或众数能更准确地反映这组人的平均智力，而平均数却会使得结果看上去好像是这组人中的一般人都具有高智商。但另一方面，如果这组人的数量是2000而不是20的话，一个极端数沮并不会造成很大的影响，此时平均数将是对该组人智力的一个合理概括。避免出现此类错误的一个好方法是检查样本的大小——大样本比小样本出现误导结果的可能性要小。另一个方法是同时检查中数、众数以及平均数——当这三者近似而不是有很大差别时，可以更有把握地对结果进行解释。我们应该始终仔细地检査所使用的方法和报告出的研究结果。要注意研究者是否报告有样本大小、离散性的度量以及显著性水平。试着去检查他们所使用的方法是否准确且一致地测量了他们自己声称正在研究的内容。统计是心理学研究的支柱。它们被用来理解观测到的结果，并被用来确定这些发现是否正确。运用我们介绍的这些方法，心理学家能够整理出数据的频次分布，并计算出这些分数的集中趋势和离散性。他们还可以用相关系数确定出几组分数间相互联系的强度和方向。最后，心理学研究者能够确定出观测值对总体的代表程度以及它们是否与总体有显著差异。统计学也有可能会被错误地使用，误导那些不了解的人。但通过正确且合乎道德地应用统计学，它们将使得研究者能够扩展关于心理学的知识。关键术语相关系数推论统计众数描述统计平均数正态曲线频次分布集中趋势的度量全距离散性的度量显著差异中数标准差（SD)