《数据可视化基础》:比例可视化的原则
以下部分是基于《Fundamentals of Data Visualization》学习笔记,要是有兴趣的话,可以直接看原版书籍:https://serialmentor.com/dataviz/
比例墨水原理(The principle of proportional ink)
比例墨水原理: 在可视化中阴影区域的大小需要与它们所代表的数据值成比例。
在很多的可视化场景当中,我们通过图形元素的范围来表示数据值。例如,在条形图当中,我们绘制一个从0开始并以他们所代表的数据值结束的条形图。在这种情况下,数据值不仅体现了条形图的顶点,同时也代表了条形图的高度/长度。如果我们画了一个不是0开始的条形图。那么这个条形图的柱子的长度和端点就会传递矛盾的信息。作者认为这种可视化不仅是坏的,而且还是错误的。因为他们内部的数据和和可视化的信息不一致。
沿直线轴的可视化
这里我们首先考虑最常见的场景,沿着坐标轴的数量可视化。例如,下图是显示了夏威夷五个县的平均收入的条形图。快速浏览一下数据就会发现,夏威夷县非常贫穷,而火奴鲁鲁县却比其他县富裕得多。然而,图17.1很容易引起误解,因为所有的柱状图都是从50,000美元的收入中位数开始的。因此,虽然每个柱的端点正确地代表了每个县的实际收入的中位数,但柱高则代表了收入中位数超过$50,000的差值。这个差值是一个相对数字。但是对于人类的感官而言,相较于条形图的端点,条形图的高度就是我们更敏感的信息。
对这些数据进行适当的可视化会使故事不那么激动人心(👇)。虽然两国之间的中间收入存在差异,但并不像👆所示的那么大。总的来说,不同县的收入中值有一定的可比性。
线性尺度上的条形图必须总是从0开始。
类似的可视化问题在时间序列的可视化中也经常出现,例如股票价格的可视化。👇显示在2016年11月1日左右,Facebook股价大幅下挫。在这个图当中,我们使用了曲线和阴影来表示数据的变化。但是,阴影强调了从x轴位置到所显示的特定y值的距离,因此它创建了一个视觉印象,即阴影区域在某一天的高度代表了当天的股票价格。然后这个图的Y轴不是从0开始的,所以也就导致显示的内容和实际的内容不符。
假如,我们把数据正确的显示之后,会发现其实变化幅度没有那么大。
通过上面的两个例子,我们发现条形图和阴影区域对于表示随时间的微小变化或条件之间的差异并不有用。因为我们总是必须从0开始绘制整个条形图或区域。然而,事实并非如此,使用条形图或阴影区域来表示条件之间的差异是完全有效的,只要我们清楚地说明我们要显示的是哪些差异。例如,我们可以用条形图来显示2010年至2015年夏威夷各县的收入中值的变化。通过2015-2010获得相对应的差值来进行可视化。通过下图可以看出,对除卡拉瓦奥以外的所有县来说,这一变化不到5000美元。而夏威夷县的变化是负的,也就是说,2015年的收入中值低于2010年。我们通过画相反方向的条来表示负值,也就是说,从0向下延伸而不是向上。
同样,我们可以绘制出Facebook股价随时间的变化,在这里,我们把计算每一个时间点与2016年10月22日临时高点的差值。通过用阴影表示从最高点到最高点的距离,我们准确地表示了价格下跌的绝对值。
沿对数轴的可视化
当我们沿着线性比例可视化数据时,条形、矩形或其他形状的区域会自动与数据值成比例。如果我们使用对数刻度,则不会出现同样的情况,因为数据值不是沿轴线线性间隔的。因此,有人可能会说,例如,对数尺度上的柱状图天生就有缺陷。另一方面,每个柱状图的面积将与数据值的对数成比例,因此对数尺度的柱状图满足对数变换坐标中比例墨水的原理。
在第3章中,对于对数尺度是将比率可视化的自然尺度有一些解释,然而,在实践中,对数尺度通常不是专门用于可视化比率,而是用来可视化跨度特别大的一组数据。以大洋洲国家的国内生产总值为例。2007年,这一数字从不足10亿美元增长到3000多亿美元。将这些数字以线性尺度可视化是行不通的,因为gdp最大的两个国家(新西兰和澳大利亚)将主导影响这个图形的整体长度。
但是,带有对数尺度(log)上的条形图(👇)也不适用。这些柱状图从3亿美元开始,这个图也遇到和上面相同的问题,即柱状图的长度不能代表数据值。
然而,对数尺度的另一个问题是,我们不能简单地让条从0开始。如果我们从0开始的话,那么条形图的起点到端点之间就很远。
对于上面的数据,作者认为条形图就不合适了。相反,我们可以简单地为每个国家的GDP在刻度上适当的位置上放一个点,从而避免杆长问题。通过将国家名称放在点的旁边而不是沿着y轴,我们避免了从国家名称到点的距离所产生的视觉上的大小感知。
但是,如果我们想要可视化比率而不是数量,对数坐标轴(log)上的条形图是一个完美的选择。举个例子,让我们想象一下大洋洲国家的GDP与巴布亚新几内亚的GDP之间的关系。由此得出的数字很好地突出了各国gdp之间的关键关系。我们可以看到,新西兰的GDP超过巴布亚新几内亚的八倍,而澳大利亚则超过了64倍,而汤加和密克罗尼西亚联邦的GDP不到巴布亚新几内亚的十六分之一。法属波利尼西亚和新喀里多尼亚相距较近,但国内生产总值略低于巴布亚新几内亚。
从上面的图可以看出,对数坐标轴的自然坐标轴位于1的位置上。条形表示1以上的数字在一个方向上,条形表示1以下的数字在另一个方向上。对数尺度上的条形图表示比率,并且必须从1开始;线性尺度上的条形图表示数量,并且必须从0开始。
直接区域可视化
上面的例子基本上都是有明确的X和Y轴的,我们可以基于一定的数字在坐标轴上的定位的来表示数值的。除了这类的可视化方法,其他的可以通过区域来表示数据值,最常见的如饼状图这样的。尽管从技术上讲,数据值被映射到角度上(角度由沿圆形轴的位置表示),但在实践中,我们通常不会判断饼图的角度。相反,我们注意到的主要视觉属性是每个扇形图的面积大小。
由于每个饼形楔形的面积与它所代表的数据值成比例,饼形图满足了比例墨水的原则。然而,我们对饼图中的区域与柱状图中的相同区域的感知是不同的。最根本的原因是人类的感知主要判断距离而不是区域。对于这样的问题同样也体现在树形图上。树形图可以被认为是一个正方形的饼状图。同样,条形图相比,树状图显示各县居民人数的差异似乎不那么明显。