从解决问题的角度看JMP和Minitab的差异
举一个实际的例子:我们要分析影响产品合格率波动的主要原因在哪里,如何提出有效的改进措施,而且相关的生产数据记录都收集好了(如图1 )。其中,合格率代表最终的质量结果,电流、清洁度、厚度、设备、操作员等列代表可能影响生产过程中的变化因素。这种问题在工作中非常常见,正好也可以让统计分析工具一展身手。现在,我们来看看Minitab 和 JMP 的分析差异。
先用 Minitab16 版来分析一下,先确定这个问题的 Response 响应是连续变量,Factor因子有连续变量,也有离散变量,因此我们需要用到方差分析和回归的方法。从 Minitab 的菜单中进行选择,用“统计>方差分析>单因子”和“统计>回归>回归”的方法可以分别观察每个潜在因素对于合格率的重要程度,分析报告如图 2 所示。从结果上来看,操作员、电流和厚度很有可能是关键因素,设备和清洁度则很可能不是。
进一步,还可以用 Minitab 的“统计>方差分析>一般线性模型”的功能对合格率与操作员、电流、厚度之间的关系建立一个多元回归,以确认这几个因素的重要性。根据图3的分析报告,发现真正起作用的是操作员和电流,厚度其实没有起很大的作用。
再用 JMP9 版来分析一下,同样是这个问题,由于是分别研究单个变量对响应值的影响(factor 对 Response),需要到 JMP 主菜单“分析>以 X 拟合 Y”下对这些因素作一次分析。
然后与上面类似地用多元回归建立模型(同时考虑一个响应值 Y 和多个因素 X),可以到 JMP主菜单“分析>拟合模型”下实现。纯统计层面的分析报告和 Minitab 中的相似,得到的结论也一样,就不花篇幅显示了。区别较大的是 JMP 的分析报告中含有很多图形化分析结果,对于解释和交流分析结果以及将其转化成行动比较有用。如图4所示的预测刻画器。
从图中可以看出,操作员和电流对合格率的影响很明显,相比之下,厚度对合格率的影响就小很多了。此外,JMP 基于这个模型还提供了一个蒙特卡洛(Monte Carlo)模拟器来模拟因子的波动会如何传递到响应值,限于篇幅,这里就不赘述了。
除了上述主菜单选项外,发现 JMP 中还有其他一些适合分析这种问题的方法,如“分析>分布”、“分析>建模>分割”和“分析>建模>神经”等等。后两者都是专业数据挖掘 DataMining 工具,解释起来比较啰嗦,就以相对最简单的“分析>分布”为例,具体展开一下。用“分析>分布”可以得到一个包含所有变量直方图的窗口。粗看起来似乎用 Minitab 多操作几步也能做出来。不过这只是第一步,有意思的是用 JMP 制作出来的图形之间可以动态链接(如下图所示,一个直方图中的高亮部分能在其他直方图中找到对应的位置)。这对于我所了解的一些不太懂统计、对数字不太敏感的技术人员特别有用,比如图5中可以看出:大于 6 的电流设置和让 1、2 号操作员操作是确保产生高合格率的重要条件,3 号操作员有可能需要培训一下了。而在 Minitab 中,各个图形只能是独立的,没办法这么用。
以上研究得出结论:
1、从基本统计工具的使用上来看,Minitab 和 JMP 都能实现,两者的功能差不多(高级统计功能不在此讨论之列)。只是用 Minitab 的人需要对统计工具有一定的了解,不然可能不知道该用哪种统计方法;JMP 的菜单设计比较人性化(或者说“傻瓜化”),对统计一点也不懂的人也能自己摸索出些门道来。
2、JMP 比 Minitab 更注重使用图形等直观手段,图形的表现形式也更灵活,对于企业里对统计理解不深、但又需要和数据打交道的工程师来说应当更合适。