6.2 绘图解剖 · 斯坦福 Stats60 21 世纪的统计思维

## 6.2 绘图解剖绘制数据的目的是以二维（有时是三维）表示形式呈现数据集的摘要。我们将尺寸称为 _ 轴 _——水平轴称为 _X 轴 _，垂直轴称为 _Y 轴 _。我们可以按照突出显示数据值的方式沿轴排列数据。这些值可以是连续的，也可以是分类的。我们可以使用许多不同类型的地块，它们有不同的优点和缺点。假设我们有兴趣在 nhanes 数据集中描述男女身高差异。图[6.3](#fig:plotHeight)显示了绘制这些数据的四种不同方法。 1. 面板 A 中的条形图显示了平均值的差异，但没有显示这些平均值周围的数据分布有多广——正如我们稍后将看到的，了解这一点对于确定我们认为两组之间的差异是否足够大而重要至关重要。 2. 第二个图显示了所有数据点重叠的条形图——这使得男性和女性的身高分布重叠更加清晰，但由于数据点数量众多，仍然很难看到。一般来说，我们更喜欢使用一种绘图技术，它可以清楚地显示数据点的分布情况。 1. 在面板 C 中，我们看到一个清晰显示数据点的例子，称为 _ 小提琴图 _，它绘制了每种情况下的数据分布（经过一点平滑处理）。 2. 另一个选项是面板 D 中显示的 _ 方框图 _，它显示了中间值（中心线）、可变性测量值（方框宽度，基于称为四分位范围的测量值）和任何异常值（由线条末端的点表示）。这两种方法都是显示数据的有效方法，为数据的分发提供了良好的感觉。 ![Four different ways of plotting the difference in height between men and women in the NHANES dataset. Panel A plots the means of the two groups, which gives no way to assess the relative overlap of the two distributions. Panel B shows the same bars, but also overlays the data points, jittering them so that we can see their overall distribution. Panel C shows a violin plot, which shows the distribution of the datasets for each group. Panel D shows a box plot, which highlights the spread of the distribution along with any outliers (which are shown as individual points).](https://img.kancloud.cn/a7/90/a790ea9b8b8f8be8b9db0e8172cdab89_576x576.png) 图 6.3 nhanes 数据集中绘制男女身高差异的四种不同方法。面板 A 绘制了两组的平均值，这无法评估两个分布的相对重叠。面板 B 显示了相同的条，但也覆盖了数据点，使它们抖动，以便我们可以看到它们的总体分布。面板 C 显示了小提琴图，显示了每组数据集的分布。面板 D 显示了一个方框图，它突出了分布的分布以及任何异常值（显示为单个点）。