盒须图(Excel和Tableau)
盒须图又叫箱线图,是一种常用的统计图形,用以显示数据的位置、分散程度、异常值等,主要包含6个统计量:下限、第一四分位数、中位数、第三四分位数、上限和异常值。
中位数:数据按照大小顺序排列,处于中间位置,即总观测数的50%的数据。对于一组有限个数的数据来说,它们的中位数是这样的一种数:这群数据里的一半的数据比它大,而另外一半数据比它小。计算有限个数的数据的中位数的方法是:把所有的同类数据按照大小的顺序排列。如果数据的个数是奇数,则中间那个数据就是这群数据的中位数;如果数据的个数是偶数,则中间那2个数据的算术平均值就是这群数据的中位数。
第一四分位数、第三四分位数:数据按照大小顺序排列,处于总观测数25%位置的数据为第一分位数,处于总观测数75%位置的数据为第三分位数。四分位全距是第三分位数与第一分位数之差,简称IQR。
上限、下限:一般上限是第三分位数与1.5倍的IQR之和的范围之内最远的点,下限是第一分位数与1.5倍的IQR之和的范围之内最远的点。也可以直接设置上限为最大值,设置下限为最小值。
异常值:在上限和下限之外的数据。
下面我们来看看Excel中怎样制作盒须图。
原始数据如图1:
图1
Step1:选中A1:C10,点击“插入”→“推荐的图表”,选择所有图表的“箱型图”,
图2
Step2:选中图表,在图表样式中选择样式5,得到图3的图表。
图3
Step3:选中每个箱型,右键添加数据标签,设置数据标签格式如图4,得到如图5所示图表。
图4
图5
我们可以用函数QUARTILE.INC验证一下中位数和第一四分位和第三四分位,公式图6所示:
图6
公式结果如图7,和图表的数据标签完全一致。
图7
我们再来看看Tableau中怎样制作盒须图。
Step1:把原始数据转换为一维表,如图8所示。
图8
Step2:在tableau中打开excel文件,把月份拉到列功能区,销售额拉到行功能区,在智能推荐中选中盒须图,填充颜色设置如图10。标记选中圆,把显示标记标签打勾。
图9
图10
Step3:点击左上方的“分析”→“自定义”→“参考线”,如图11,参考线设置如图12,得到图表如图13。
图11
图12
图13