平衡数据和图片上文字
我们可以将任何可视化中的图形元素广泛地细分为表示数据的元素和不表示数据的元素。前者是一些元素,比如散点图中的点、柱状图或条形图中的条,或者热图中的阴影区域。后者则是类似坐标轴,坐标轴刻度,图例以及注释这些的元素。每当绘制图形的时候,考虑用于图形和文字的比例会很有帮助的。一个常见的建议是减少非数据比例,遵循这个建议通常可以产生更少的混乱和更优雅的可视化效果。与此同时,背景和视觉结构也很重要。
1. 提供适当数量的上下文
爱德华·塔夫特(Edward Tufte)在他的《定量信息的视觉显示》(The Visual Display of Quantitative Information)一书中推广了区分数据墨水(data ink)和非数据墨水(non-data ink)的方法。Tufte引入了数据墨水比例(data-ink ratio)的概念,他将其定义为图形墨水用于非冗余数据信息显示的比例。然后他强调到:在合理范围内,最大限度地提高数据墨水比率。
然后对于这个比率的的具体占比,并不是很容易把握的。
为了探索极端的情况,让我们考虑一个明显有太多非数据墨水的图形(👇)。绘图面板中的彩色点(包含数据点的框架中心区域)是数据墨水。其他的都是非数据墨水。非数据墨水包括围绕整个图形的框架、围绕绘图面板的框架和围绕图例的框架。
我们还看到一个突出而密集的背景网格,将注意力从实际的数据点上转移开。因此,通过删除框架和次要网格线,并将主要网格线绘制成浅灰色,我们得到了👇的图。在这个版本的图中,实际的数据点更加突出,它们被认为是图中最重要的组成部分。
在另一个极端,是👇这个。它是👆最低限度版本。在这张图中,轴上的标签和标题被做得非常模糊,以至于很难看到。如果我们只是粗略的看一下图,我们不会立即看出实际显示的数据是什么。我们只能看到漂浮在空间中的点。此外,由于图形区域和图例之间没有明显的间隔,可能会将图例中的点误认为数据点。
在👆的👆的图中,作者使用了一个开放的背景网格,在图片面板周围没有轴线或框架。这种设计向读者传达了一种可能有的数据会超过图片当中轴的限制的的信息。尽管图中显示没有超过210厘米的运动员,但这样的运动员是可能存在的。然而,有些作者更喜欢通过在图形面板周围画一个框架来描述它的范围(👇)。这两种选择都是合理的,哪一种更可取主要是个人意见的问题。加框版本的一个优点是,它清楚地将图例与情节面板分开。
另外。非数据墨水用得太少的图形通常会产生图形元素漂浮在空中的效果,没有清晰的联系。这一问题在多面板图形当中尤其严重。例如下图,👈的就没有👉的看着清晰。
2. 背景网格
图背景中的网格线可以帮助读者辨别特定的数据值,并将图中一部分的值与另一部分的值进行比较。与此同时,网格线会增加视觉噪声,特别是当它们明显或密集的时候。
R软件ggplot2普及了一种风格,它使用灰色背景上的白色线条作为非常突出的背景网格。图23.7显示了这种风格的一个例子。该数据显示了四家主要科技公司的股价在2012年至2017年五年窗口期的变化。然而,在作者看来,灰色的背景会降低实际数据的质量,并且网格可能会太过密集。同时作者还发现图例中的灰色方块令人困惑。
支持灰色背景的论点包括:1) 灰色背景可以把图形当作一个整体以及2) 同时也防止图片当中出现白框和黑色的文本。对于第一点,作者完全同意。这个也在前面分面的图当中的进行绘制了。对于第二点,其实文本的暗度取决于字体大小、字体和行间距,而图像的暗度取决于所使用墨水的绝对数量和颜色,包括所有数据墨水。例如,5个黄色点的散点图比1万个黑色点的散点图看起来要浅得多。因此,如果想使用灰色图形背景,请考虑图形前景的颜色强度,以及图形周围文本的预期布局和排版,并相应地调整背景灰色的选择。
同样的,我们可以沿着相反的方向移除所有的背景和网络线(👇)。在这种情况下,我们需要可见坐标轴来区分图形的整体。👇这样绘图是一个糟糕的选择。因为在没有任何的背景网络的情况下,图中的曲线很难和坐标轴进行对应。
对了进行比较,我们在绝对最小值处添加一条水平参考线。这样对于比较和最低值的变化很有帮助。
或者,由于我们只是关注Y轴的变化,所以我们可以只使用Y轴的网络线。同时由于使用网络线已经足够了,所以对于具体的坐标轴就可以省略了。
对于这样的辅助网络线,我们通常只是沿着感兴趣的数目变化方向绘制,并不需要绘制X和Y轴都有的网络线。例如👇这个值需要绘制垂直的网络线就行了。
同样的,对于👆的网络线,Tufte建议推荐使用在条形上面白色的网络线,在不是在条形下面的网络线。对于这样两种分割。可以根据个人的喜好选择。
另外,散点图是最适用于两个方向的网络线的。例如下图。当一个图有一个完整的背景网格时,轴线通常是不需要的。
3. 配对数据
对于用x = y线进行比较的图形,比如成对数据的散点图,绘制对角线比绘制网络线更好一些。例如,在比较突变病毒和非突变病毒基因表达的时候。通过画这条对角线,我们可以立即看到与野生型相比,哪些基因在突变型中表达更高或更低。
同样的,如果图中只有网络线没有对角线的时候,对于结果的观察就会困难得多。