《数据可视化基础》两个或多个连续性变量相关可视化(一)
以下部分是基于《Fundamentals of Data Visualization》学习笔记,要是有兴趣的话,可以直接看原版书籍:https://serialmentor.com/dataviz/
相关图
当我们有超过三到四个连续性变量的时候,如果我们还要使用散点图矩阵的话就显得比较笨拙了。在这种情况下,对多个变量之间关系的量化就很有用了。这种量化关系常见的方法是计算相关系数。相关系数(r)是一个在-1和1之间的数字,用来衡量两个变量共变的程度。r = 0表示没有相关性,1或-1表示完美相关。另外数字的正负代表是正相关还是负相关。为了对数据相关系数的有一个正确的认识,👇的图是随机的一些数字计算得到的相关系数。
知道了相关系数,因此对相关系数的可视化则成为相关图。为了说明相关图,我们使用了200多块玻璃碎片成分的数据集。这个数据集检测了200多块玻璃有的各个物质成分的占比。最后总共检测到了7种氧化物。因此这其中氧化物产生了21种关系。利用相关图,我们就展示了这21种物质的关系。从图中可以看出:镁和几乎所有其他氧化物呈负相关,铝和钡呈强正相关
👆相关图的一个弱点是即使是相关系数绝对值接近于零,在视觉上没有受到应有的抑制。例如:镁(Mg)和钾(K)没有任何相关性,但上图没有立即显示这一点。为了克服这个限制,我们可以同时把相关关系显示为彩色圆,并用相关系数的绝对值来缩放圆的大小。这样,低相关性被抑制,而高相关性被突出。因此就产生了👇这个图。
11.3 降维
有时候我们在尝试找出多个数据集当中的主要关系的时候,就需要进行降维处理。这个时候最常见的降维处理的最PCA分析。关于PCA分析。目前原理讲的最好的还是STATQUEST上面的讲解。这里B站有搬运过来的翻译办法。有兴趣的可以去看一下。B站ID是:BV1T4411T73S
11.4 配对数据
在多定量数据的一种特殊情况就是配对数据,例如:对每个受试者进行两项可比较的测量;在不同时间点对同一受试者重复测量,或者测量两个密切相关的对象。对于配对的数据,我们的零假设是每对测量都相同或几乎相同,而各对之间却存在很大差异。两个双胞胎的身高大致相同,但与其他双胞胎的身高不同。因此,我们需要选择可视化来突出显示与该零假设的偏差。
配对数据的绝佳选择是在标记x = y的对角线上方的简单散点图。如果我们的零假设是正确的,则样本中的所有点将围绕该线对称地分散。相反,相对于对角线,数据点的向上或向下的系统移位将显示出与零假设的系统偏差。
例如,在1970年和2010年,166个国家/地区进行测量的人均二氧化碳(CO2)排放量数据可视化当中,我们可以突出的观察到配对数据的两个共同特征。首先,大多数点都相对靠近对角线。尽管各国之间的CO2排放量变化了近四个数量级,但在整个40年的时间范围内,每个国家的CO2排放量都相当稳定。第二,这些点相对于对角线系统地向上移动。因此说明在40年的时间中,大多数国家的二氧化碳排放量都有所增加。
当我们有大量的数据同时只是对配对数据的零假设感兴趣的时候,上图所示的散点图将很好地工作。但是如果我们的数据量不大,同时关注的是个体之间的变化的时候,那么倾斜图(slopegraph)可能是更好的选择了。在倾斜图当中,我们将单个测量绘制为单独的两列,并且同一个样本的前后两次测量通过直线相连。这样连线的斜率就能很好的显示变化的幅度和方向了。
例如,下图就是显示了2000年至2010年人均二氧化碳排放差异最大的十个国家的倾斜图。
斜线图相对于散点图具有一个重要优势:可用于一次比较两个以上的测量。例如下图就是显示了三个时间的变化结果。