《数据可视化基础》:使用颜色的常见陷阱
以下部分是基于《Fundamentals of Data Visualization》学习笔记,要是有兴趣的话,可以直接看原版书籍:https://serialmentor.com/dataviz/
颜色是增强数据可视化的一种非常有效的工具。与此同时,糟糕的颜色选择也会破坏原本优秀的视觉效果。颜色的使用必须是基于某一个目的的,而不是用来分散注意力的。
编码过多或无关信息
使用颜色的一个常见的错误是给太多的分组分配太多的颜色。例如👇,它展示了美国所有的50个州当中哥伦比亚人口的增长和人口规模的对比。在这里,我们把每个州赋予一个颜色。从图片的结果来看,其可视化的效果不是很好。尽管我们可以通过观察图上的颜色以及图例的对比来了解哪个颜色代表哪个州,但是两者之间的来回切换还是很费精力的。另外,这里的很多颜色都是相似的,有时候我们很难通过颜色来确定具体的哪个州,这就让我们的图形解析变得困难。
根据以往的经验,当有三到五个不同的类别需要着色时,定性的颜色刻度效果最好。一旦我们达到了8到10个或更多的不同类别,尽管可以在颜色的选择上仍然可以区分,但是这样分类变量的着色也会变得繁琐而且无用。例如👆,我们最好可以使用颜色来表示 每个州的地理区域,并通过直接标记的方式来识别各个州(👇)。
一般来说,如果数据点过多,我们只需要标记我们想要说明内容的数据点即可。如果想确保读者能够完整地访问底层数据,我们可以把数据作为表的形式提供。
当你需要着色的分类变量有八个以上的分组的时候,直接使用文本来进行标记而不是使用颜色来进行区分
第二个常见的问题是为了上色而上色,对颜色没有明确的目的。例如👇,我们给每个条形分配了一个不同的颜色。这样的结果是创建一个彩虹效果。这可能看起来像一个有趣的视觉效果,但它并没有创造任何新的数据形式或使图形更容易阅读。
除了不必要地使用不同的颜色之外,图19.3还有一个与颜色有关的问题:这些颜色太过饱和和强烈。这种色彩饱和度使这个图形变得看不清楚。
避免使用过度饱和的颜色填充大面积区域。它们使你的读者很难仔细审视你的图片
使用非单一的颜色尺度来编码数据值
之前作者提到过两个用颜色代表数据值顺序的的标准:1. 颜色需要清楚地表明哪些数据值比其他数据值大或小;2. 颜色之间的差异可以反映数据值之间相应的差异。不幸的是,一些现有的颜色标度,包括一些非常流行的颜色标度,都违反了其中的一个或两个条件。最流行的是彩虹刻度。它贯穿了色谱中所有可能的颜色。这意味着规模实际上是循环的;开始和结束的颜色几乎是一样的(暗红色)。
在实际数据的可视化中,彩虹标度倾向于掩盖数据特征和/或突出显示数据的任意方面(👇)。顺便说一句,彩虹色的颜色也过于饱和。长时间查看图19.5可能会非常不舒服。