逻辑回归实战应用——铸造缺陷改善案例解析

【编者按】这是一个真实的质量改善案例。要改善的指标是废品率,数据是离散型的,而且不良现象有很多种,有10个因子可能会对废品率有影响,其中包括6个连续型因子和4个离散型因子。如何通过对这些因子的取值进行优化来大幅度降低废品率,这类问题对于很多质量人员来说是非常有挑战性的。且看本文作者在实战中如何通过回归分析巧妙的解决问题的。

1.项目背景

实战企业属金属铸造(iron casting)行业,给世界五百强欧洲卡车公司生产底盘关键铸造零件。某个铸造零件长期以来的废品率高达8%,需要解决的问题是如何快速降低铸造废品率,将废品率从8%降低至1%以内。
该产品的SIPOC流程如下图所示:

2.测量阶段

2.1缺陷分析

对缺陷数据用柏拉图进行分析,我们发现前三大缺陷为冷隔、多肉、粘砂,前三项累计百分比达到了78.1%;因此我们把分析焦点将集中在这前三大缺陷上。
主要缺陷的详细信息如下:

2.2 因子分析及快赢措施

团队进而对影响外观缺陷的因子开展了分析,经过CE矩阵分析筛选后,剩余10个因子;其中有6个连续因子和4个离散因子;如下图所示:
经过团队分析和讨论,我们对这4个因子的水平进行优化并进行标准化。改善后铸造废品率从8%降低到了6.3%。
团队进一步从生产过程和技术机理的角度进行分析,发现上述各因子对多肉都不影响。用5Why的方法进行分析后发现造成多肉的根本原因是砂壳厚度偏低。于是乎团队立即维修了砂箱模具内部尺寸,加大了砂箱厚度。改善后多肉不良率降低为0.

2.3 数据收集

现在要解决的主要问题是冷隔和粘砂了。团队进一步收集了过程参数数据以及相应的废品数据,数据汇总如下。

(部分数据)

3.分析及改善阶段

现在要解决的问题是识别出哪些因子对废品率有显著影响,每个因子取什么值时可以让废品率最低,如何以最快的速度来完成?当然,很多朋友可能会立即想到用DOE来解决。用DOE是一个很好的方法,但对于这种指标为离散型变量的问题,用DOE需要很大的样本量,耗资巨大且时间长。前面我们已经收集了很多有关的历史数据,因此我们优先考虑用对历史数据进行回归分析的方法来解决问题。当然,应用历史数据回归分析不一定每次都能解决问题,如果用回归分析无法解决问题则需要进行DOE。整个问题分析与解决的流程如下:
接下来问题来了,面对这么多密密麻麻的数据,有6个x和两个y,而且y是离散型数据,这个要怎么分析呢?如何从千头万绪的数据中找到最优参数组合呢?
针对这种y为离散型变量x为连续型变量的情况,我们通常用逻辑回归的方法来进行分析。常用的逻辑回归有以下三种。

· 二值逻辑回归(Binary LR):  Y有两个水平, 二项式Y (良品, 不良品)- 了解X 的设定与良品率发生概率的关系;

· 名义型逻辑回归(Nominal LR): Y有两个以上不带有顺序特征的类别,名义类Y (绿、红、黄) – 了解X 的设定与红、绿、黄发生概率的关系;

· 顺序型逻辑回归(Ordinal LR): Y有超过两个的带有顺序特征的类别, 序数型Y (严重、一般、轻微) – 了解X 的设定与严重、一般、轻微发生概率的关系。

其中二值逻辑回归和名义型逻辑回归比较适合我们这个问题的的分析,因此本文尝试着分别用二值逻辑回归和名义型逻辑回归两种方法来解决问题。

3.1 二值逻辑回归:

现在我们要解决的缺陷有两种:冷隔和粘砂。因此我们分别以冷隔和粘砂的废品率为响应变量对上述六个因子进行二值逻辑回归,目的是找出对缺陷率有显著影响的因子以及各因子的最佳水平,从而降低缺陷率。我们使用Minitab的二值逻辑回归进行分析,采用逐步法,删除和入选的a水平都取默认值0.15。

3.1.1 对冷隔进行二值逻辑回归:

结果如下:

回归方程:

P(1)=exp(Y')/(1 + exp(Y'))

Y'=295 - 0.2184 X1_浇注温度 + 0.1062 X2_浇注时间 + 0.1307 X3_造型温度 - 0.219 X4_砂箱温度

3.1.2 对粘砂进行二值逻辑回归:

结果如下:

回归方程:

P(1)=exp(Y')/(1 + exp(Y'))

Y'=103.7 - 0.1121 X2_浇注时间 - 0.616 X5_固化时间

我们发现X1,X2,X3,X4对冷隔有显著影响,X2,X5对粘砂有显著影响。现在最终确定显著影响因子为X1,X2,X3,X4,X5。
用测量的历史数据先做逻辑回归,只是一个初步分析,虽然这里的二值逻辑回归的偏差R-sq不是很好但拟合优度比较好,我们决定还是继续对参数进行优化然后做验证看看实际效果怎么样,如果验证效果不是很理想,那么下一步就会做离散型响应变量的DOE,实验预测模型才会更具有可解释度。

3.1.3 优化

现在问题来了,我们如何找到X1,X2,X3,X4,X5的最佳水平,来使得缺陷率最低呢?这里的y有两个,单独针对一个y进行优化,结果可能会使另一个y变差,局部优化不等于整体优化。那怎么进行优化实现综合效果最优呢?
我们使用Minitab里的响应优化器可以很好的解决这个问题。通过二值逻辑回归并使用响应优器功能进行优化从而找到的最优参数组合如下:

多响应预测

变量设置

X1_浇注温度1425

X2_浇注时间254

X3_造型温度205

X4_砂箱温度248

X5_固化时间150

响应拟合概率拟合值标准误95% 置信区间

缺陷数量_粘砂0.0000000.000000(0.000000, 0.976792)

缺陷数量_冷隔0.0000000.000000(0.000000, 0.000770)

最优参数汇总如下(单位略)

3.1.4 效果确认:

按照上述最优参数试生产29炉, 一共261箱(每箱一件), 一共发现1件冷隔,没有粘砂缺陷;废品率为0.4%。有显著改善效果,并且达到了改善目标。
验证效果较为理想,因此没有必要继续进行DOE了。

3.2 名义型逻辑回归:

3.2.1 名义型逻辑回归分析

在收集到的数据中,我们的响应变量有三个水平“冷隔”,“粘砂”,“无冷隔无粘砂”;我们定义冷隔缺陷率为P1,粘砂缺陷率为P2,无冷隔无粘砂百分率为P3;根据实际经验,同一产品同时有冷隔和粘砂的情况非常少见,因此本文中不考虑这种情况,所以认为P3=1-P1-P2。(如果要考虑同时有冷隔和粘砂的百分率,我们需要多定义一个响应变量水平“同时有冷隔和粘砂”,即定义P3为同时有冷隔和粘砂的百分率,P4为合格率,P4=1-P1-P2-P3;响应变量多一个水平,其余的分析方法相同;《孙子兵法》云:“治众如治寡”,用在这里就是分析多个水平的响应变量和分析少数水平的响应变量的分析原理和方法一样,反正是用电脑计算,电脑不怕麻烦不怕累)。用响应变量对X1~X6进行名义型逻辑回归,结果如下:
剔除不显著因子X5再进行名义型逻辑回归,结果如下:
再剔除不显著因子X6,重新进行名义型逻辑回归,结果如下:
现在模型里的所有因子都显著了,无法再继续剔除了。我们确定X1,X2,X3,X4都有显著影响。
上述回归结果如何解读呢?在名义型逻辑回归里,我们这里以P3(合格率)作为参照,分别以P1/P3的自然对数(即ln(P1/P3))和P2/P3的自然对数(即ln(P2/P3))作为响应变量对X1,X2,X3,X4进行回归分析,在上表中的系数一栏里可以看到各个X的系数和常量值。令ln(P1/P3)=t1,ln(P2/P3)=t2;用方程表示的结果如下:

3.2.2 优化

我们要优化的目标是让P3最大化。可惜的是Minitab没有对名义型逻辑回归进行优化的功能,也没有规划求解功能。怎么办呢?眼前的这点困难是吓不倒我们的,自己动手丰衣足食,经过一番冥思苦想后我们想到了用Excel来进行规划求解了。希望Minitab后续能开发出对名义值逻辑回归进行优化的功能。
规划求解的思路如下:

(1)已知P3的函数如上图所示;

(2)已知约束条件为:

1397⩽X1⩽1425;

254⩽X2⩽347;

205⩽X3⩽243;

216⩽X4⩽248。

约束条件来源于正常工艺参数范围。

(3)求各个X在上述范围内取什么值时可以让P3最大。

经过规划求解得出最佳参数组合如下,单位略(因篇幅有限,Excel规划求解的步骤省略,感兴趣的朋友可以通过本文最后的联系方式申请加入实战交流群讨论):

3.2.3 效果确认

      经过试生产15炉产品,一共135箱, 一箱一件产品,实际结果为没有废品, 废品率为零,达到了改善目标。后续将进一步安排试生产以验证最佳参数组合的可靠性。

用测量的历史数据先做逻辑回归,只是一个初步分析,这里的名义值逻辑回归的拟合优度很好,当然更重要的是要看实际效果,因此我们对效果进行了验证。如果验证结果不是很理想,那么下一步就会做离散型响应变量的DOE,实验预测模型才会更具有可解释度。
从名义型逻辑回归的模型来看,4个X对P1和P2的相关系数正好相反,大概率的可能不需要做爬坡试验,如果做实验设计的话,可能会在目前参数的范围内做更精细的优化设计。
这里实际验证结果较为理想,所以团队决定不必花资源进行费而不惠的DOE实验了。

4. 总结

本实战案例成功的使用了焦点疗法, 首先将问题聚焦在缺陷占比最高的前三大缺陷粘砂、冷隔和多肉上, 进而将影响外观缺陷的主要因子成功的聚焦在少数因子上。在快赢阶段对离散因子进行优化和标准化,此外找到了多肉的根本原因并采取有效措施进行解决。在分析和解决阶段通过逻辑回归的方法结合响应优化器或规划求解对因子进行优化,找到了最优参数组合,成功的解决了问题。

整个项目最大的技术上的难点在于如何对响应变量为离散型数据而且有多个响应变量的数据进行分析。本案例分别采用了二值逻辑回归和名义型逻辑两种方法来进行解决。在进行二值逻辑回归分析时,我们先独立对两种缺陷率进行分析,然后用Minitab的响应优化器功能找出了最优参数组合。在名义型逻辑回归时我们创造性的使用了用ln(P1/P3)和ln(P2/P3)做响应变量来进行回归分析,然后再用Excel规划求解功能寻找最优参数组合。两种方法得出的最优参数组合有些不一样,但殊途同归,效果都非常好,成功解决了困扰我们很久的难题了,让我们再一次感受到了统计工具的强大力量。

在整个项目进行过程中,多次得到Oliven大师和詹志炜老师、孙玲老师、刘欧飞老师的专业指导,非常感谢!!!
对本案例感兴趣或者对逻辑回归、规划求解感兴趣的朋友可以通过最下方的联系方式加入我们公众号配套的实战交流群进行交流。

【编者后记】本案例创造性的用对历史数据进行回归分析的方法,找出对废品率有显著影响的因子,并且回归出废品率和关键影响因子的函数关系,然后利用响应优化器或规划求解的方法找出最优参数,成功的解决了问题。但需要注意的时,回归分析研究的是响应y和变量x的相关关系而不是因果关系。在实战中,得出y和x的函数关系后,优化x不一定能优化y;如果优化x后不能优化y时还需要进一步从机理的角度进行深入研究或做DOE。

责任编辑:余治国

作者简介:

荣靖华:

  • 德尔拓认证MBB;

  • 摩托罗拉大学认证BB;

  • 任职世界顶级卡客车公司供应商管理高级经理;

  • 负责团队日常管理并带领和推动团队及供应商开展六西格玛改善;

  • 热爱供应商管理工作,具有丰富的质量管理及供应商管理经验。

(0)

相关推荐