# 1 简介
> 原文: [1 Introduction](https://serialmentor.com/dataviz/introduction.html)
> 校验:[飞龙](https://github.com/wizardforcel)
> 自豪地采用[谷歌翻译](https://translate.google.cn/)
数据可视化是部分艺术和部分科学。挑战在于让艺术变得正确而不会让科学出错,反之亦然。首先,数据可视化必须准确地传达数据。它绝不能误导或扭曲。如果一个数字是另一个数字的两倍,但在可视化中它们看起来大致相同,那么可视化就是错误的。同时,数据可视化应该是美学上令人愉悦的。良好的视觉呈现倾向于增强可视化的信息。如果图形包含不和谐的颜色,不平衡的视觉元素或其他分散注意力的特征,那么观察者将发现更难以检查图形并正确解释它。
根据我的经验,科学家经常(虽然并非总是如此!)知道如何可视化数据而不会产生严重的误导。然而,它们可能没有良好的视觉美感,并且它们可能无意中做出视觉选择,从而减损了他们想要的信息。另一方面,设计师可能制作看起来漂亮,但可能简单和松散地使用数据的可视化。我的目标是为两个群体提供有用的信息。
本书试图涵盖可视化出版物,报告或演示文稿数据所需的关键原则,方法和概念。因为数据可视化是一个广阔的领域,并且在其最广泛的定义中可能包括各种主题,如技术原理图,3D 动画和用户界面,我必须限制本书的范围。我特别报道了在印刷品,在线或幻灯片中呈现的静态可视化的情况。除了可视化不确定性章节中的一个简短部分外,本书不包括交互式视觉效果或电影。因此,在本书中,我将互换使用“可视化”和“图形”这两个词。本书也没有提供如何用现有的可视化软件或编程库制作图形的任何指导。本书末尾的带标注的参考书目,包含了涵盖这些主题的适当文本的引用。
这本书分为三个部分。第一个“从数据到可视化”描述了不同类型的绘图和图形,例如条形图,散点图或饼图。它的主要重点是可视化科学。在这一部分中,我不是试图提供所有可想象的可视化方法的百科全书,而是讨论一组核心的视觉效果,您可能会在出版物和/或您自己的工作中遇到这些视觉效果。在组织这一部分时,我试图通过它们传达的消息类型,而不是可视化数据的类型,来对可视化进行分组。统计文本通常按数据类型描述数据分析和可视化,按数量和变量类型组织材料(一个连续变量,一个离散变量,两个连续变量,一个连续变量和一个离散变量等)。我相信只有统计学家才会觉得这个组织很有帮助。大多数人都会根据消息来思考,比如某事物有多大,它是如何由部分组成的,它与其他事物的关系等等。
第二部分“图形设计原理”讨论了制作数据可视化时出现的各种设计问题。它的主要但不是唯一的重点,是数据可视化的美学方面。一旦我们选择了适合我们数据集的正确类型的绘图或图形,我们就必须对视觉元素做出美学选择,例如颜色,符号和字体大小。这些选择可以影响可视化的清晰程度和外观的优雅程度。第二部分的章节讨论了在实际应用中反复出现的最常见问题。
第三部分“杂项主题”涵盖了一些不符合前两部分的遗留问题。它讨论了常用于存储图像和绘图的文件格式,它提供了有关可视化软件选择的想法,并解释了如何将单个图形放入更大文档的上下文中。
## 丑陋,不好的和错误的图形
在本书中,我经常展示相同图形的不同版本,一些作为如何制作良好可视化的示例,一些作为反面示例。为了提供一个简单的视觉指南,说明哪些例子应该被模仿,哪些应该被避免,我明确地将有问题的图形标记为“丑陋”,“不良”或“错误”(图 1.1):
* **丑陋** - 有审美问题的图形,但其他方面很清楚,信息量很大。
* **不良** - 与感知有关的问题;它可能不清楚,混乱,过于复杂或误导性。
* **错误** - 有数学问题的图形;这是客观上不正确的。
![](https://img.kancloud.cn/e7/ff/e7fffe21928a6c1c5cf36812cc80d7e7_1152x864.jpg)
图 1.1:丑陋,不良和错误图形的例子。
(a)显示三个值(`A = 3`,`B = 5`和`C = 4`)的条形图。这是一个合理的可视化,没有重大缺陷。
(b)(a)的丑陋版本。虽然绘图在技术上是正确的,但它在美学上并不令人愉悦。颜色太亮而且没用。背景网格太突出了。使用三种不同尺寸的三种不同字体显示文本。
(c)(a)的不良版本。每个条都显示有自己的`y`轴刻度。由于刻度不对齐,这使得图形有误导性。人们可以很容易地得到三个值比实际值更接近的印象。
(d)(a)部分的错误版本。如果没有明确的`y`轴刻度,则无法确定由条形表示的数字。条形似乎长度为 1,3 和 2,即使显示的值为 3,5 和 4。
我没有明确标明好的图形。任何未明确标记为有缺陷的图形都应假定为至少可以接受。这是一个信息丰富的图形,看起来很吸引人,并且可以按原样打印。请注意,在好的图形中,质量仍然存在差异,一些好的图形会比其他图形更好。
我通常会提供具体评级的理由,但有些是品味问题。一般来说,“丑陋”评级比“不良”或“错误”评级更主观。而且,“丑陋”和“不良”之间的界限有点模糊。有时糟糕的设计选择会干扰人类的感知,以至于“不良”评级比“丑陋”评级更合适。无论如何,我鼓励你开发自己的眼睛并批判性地评估我的选择。
- 数据可视化的基础知识
- 欢迎
- 前言
- 1 简介
- 2 可视化数据:将数据映射到美学上
- 3 坐标系和轴
- 4 颜色刻度
- 5 可视化的目录
- 6 可视化数量
- 7 可视化分布:直方图和密度图
- 8 可视化分布:经验累积分布函数和 q-q 图
- 9 一次可视化多个分布
- 10 可视化比例
- 11 可视化嵌套比例
- 12 可视化两个或多个定量变量之间的关联
- 13 可视化自变量的时间序列和其他函数
- 14 可视化趋势
- 15 可视化地理空间数据
- 16 可视化不确定性
- 17 比例墨水原理
- 18 处理重叠点
- 19 颜色使用的常见缺陷
- 20 冗余编码
- 21 多面板图形
- 22 标题,说明和表格
- 23 平衡数据和上下文
- 24 使用较大的轴标签
- 25 避免线条图
- 26 不要走向 3D
- 27 了解最常用的图像文件格式
- 28 选择合适的可视化软件
- 29 讲述一个故事并提出一个观点
- 30 带注解的参考书目
- 技术注解
- 参考