JASP系统聚类:树状图暂无标签注释

12月17日,JASP官方发布了 V 0.14.1 版本。今天咱们就用这个版本来练习完成聚类分析案例。
收集到我国某年31个地区城镇居民平均每人家庭收入来源的统计数据,试对全国各地区的收入来源结构进行分类。
菜单:【machine learning】→【clustering】→【hierarchical】。
聚类依据有4个指标,分别是工薪收入、经营净收入、财产性收入和转移性收入,这四个数据均是连续型数值,符合hierarchical聚类的数据要求。聚类的对象是全国主要省市地区,比如北京市、甘肃省等,是字符串定义。
JASP默认是基于欧式距离来做点与类间的距离测量,并采用类平均法进行聚类,此法即SPSS中默认使用的组间连接法。
如果你想更改聚类核心算法,那么就是在上图的【distance】和【linkage】进行调整。当然默认的状态其实就是普遍来说好的选择。
不像SPSS,JASP在聚类中提供AIC,BIC,还有轮廓系数等指标用于评估聚类类别,默认是采用BIC最为最佳聚类个数K的判断依据。
还有一点,JASP默认对原始数据做Z得分法的标准化处理。
此时,JASP已经给出了聚类的结果,聚类总体评价如上表所示。
总31个地区被聚成5个类,平均的轮廓系数0.46,这个系数的范围是 [-1,1] ,越是接近1越好。
这些指标在SPSS里面是没有提供的,这是JASP系统聚类的一个优点。
各类的成员数或类规模大小,见上表的size行。那我们就发现,有两个地区是被单独聚成一个类别的。最大的一个类包含了24个地区。
肘部图,给出了之所以聚成5个类的依据,主要是BIC,AIC,还有组内平方和,从图形上看,聚成5类是相对合适的。
当然,以上结果是JASP智能化的结果,你也可以自己制定聚成几个类。
然后我们命令JASP输出各类在聚类依据上的平均值表格,如上所示。这个表格有用处,而且是大有用处。
咱们把它复制到Excel表格中,然后用热力图方案对其进行简单修改编辑,最终结果如上。
聚类是否成功呢?最终还是要以各类的特征。专业 认识可以通过上表来对各类的特征、含义进行提炼总结。
最后咱们来看看系统聚类最“重要”的结果,树状图。为什么说树状图“重要”是加引号?因为我遇到很多读者,他们说就是为了得到这个树状图才使用系统聚类,嗯,好一个理直气壮的理由。我服气。
不过,JASP给的这个树状图,比较寒酸。没有给文字标签或数字标签,你都无法从图上看出哪个地区和哪个地区合并为类,树状图如果没有标签注释做标记,那么基本就是无用的。没什么用,希望以后能改进完善一下。

JASP是一个全新的统计分析工具,完全免费、开源开放、兼容并蓄。它让用户可以在电子表格数据上,轻松的点击、拖放菜单对话框来完成统计分析。它包含经典统计分析方法,比如描述统计、t检验、方差分析、相关与回归分析、因子分析等,而且令人兴奋的是,它还包含有最新的贝叶斯统计方法。

说得通俗一点,JASP就像SPSS那样容易操作,不用写语法代码,通过鼠标点击菜单完成统计分析,更为关键的是,它是免费的,完全免费。

某种意义上看,JASP未来有望替代、超越SPSS。

我一边测试使用JASP,一边准备课件录制小视频发布课程,应该来说是国内第一个JASP视频课程了。

当前课程有23课时,已经系统介绍JASP描述统计、t检验以及相关分析,对免费开放的JASP感兴趣的读者可以关注这套视频。欢迎一起来学习和使用。

(0)

相关推荐