张驰咨询:趣说正态分布(2)- 六西格玛管理

本篇解读正态分布的基础知识总体和样本,举几个简单的例子说说概率的用途。

PS:对正态分布的深度理解有助于我们日后理解几个σ,长期能力和短期能力,漂移,假设检验,拒绝域,中心极限定理等等知识,后续将一一呈文。

小潘对小王神一般地脱口而出说小潘下厂时间在59.655.719即区间(53.931,65.369)的概率是0.68非常感兴趣,那感觉简直有点象小时候看刘谦在央视春晚表演魔术般神奇,这种被冲击的感觉已经是久违了。

书上讲正态分布硬梆梆的一副官宣的姿态,没有小王说的这么引人入胜,小潘好想跟着感觉继续打破砂锅问到底,但是,自从小潘得知小王记录了她下厂检查工艺的时间脸红了一下下以后,心里很是忐忑,小潘想问又不敢问,深怕自己会错意,更怕自己亲手破坏了同事尤其是值得尊敬的同事之间的友谊,转念一想也许是自己庸人自扰了,好学的小潘最后决定还是老办法以认真学习的态度去面对小王。于是趁午间休息,小潘早早到饭堂把饭吃完又来找小王。

小王说:咱们今天讲书,下次讲均值和方差。(上一篇的内容:首先,为什么称之为“正态分布”。)

第二,总体与样本

翻开第三版《六西格玛管理》第148页,帮你理解书上的内容。

研究对象的全体称为总体,构成总体的每个基本单元(书上写单位,区别于工作单位,咱们讲单元好了)称为个体。

总体可以用随机变量(大写的)X表示,随机变量X的分布就是总体分布。

从总体中抽取一部分个体进行观察,被抽到的个体组成了总体的一个样本。如果总体的每一个个体都有相同的机会被抽到,这样得到的样本称为简单随机样本。样本个数就叫样本量,常用n表示。

来了,容易混淆的地方:

n个样本记为X1,X2,...,Xn。有理由认为X1,X2,...,Xn是独立且与总体具有相同分布的随机变量。样本的观测值用x1,x2,...,xn表示。

这段3句话包含了多层意思:

第1层意思:随机变量X,这个X只是一个符号,不用害怕这个符号,可以理解成要进行研究的对象的名称而已,就好比我的名字叫王一君,随机变量叫X。上篇我们研究你下厂检查工艺的时间,X=下厂时间。

第2层意思:随机变量X可以是1个数,也可以是1组数,甚至是无限数,把它理解成一个集合里面的任意数就好。举例说,研究我,X=王一君,1个在你面前的活生生的人,X=质管部,就是包含你和我的10来号人;X=抛硬币的结果,抛1次作为一个研究对象,集合就包含1个数据,抛1万次作为研究对象,集合里这1组数就有1万个数据,假如自从盘古开天地有人抛硬币到如今生命不息还抛硬币不止,就形成一个无限的数集。

第3层意思:我们分析随机变量X无非是想掌握其规律,即研究其分布情况,分布情况不好理解,就是运行轨迹加出现频率呗。先不管分布不分布的,先理解概率,依然这样拟人化地想:X=王一君,现阶段不请假不出差不出意外的话正常上班时间这个X出现在咱们公司的概率=100%,不请假不出差不出意外的话正常上班时间这个X出现在大街上的概率=0%=0;

再举个正态分布的例子,X=我们身边的人的身高,是不是中等身高的人特别多,分布在两端特别高特别矮的比较少,画过一次箱线图,想想身边人,脑海中自然就形成了一条优美的钟型曲线啦。

(身高的直方图)

第4层意思:X1,X2,...,Xn是独立且与总体具有相同分布的随机变量。关于独立和同分布,第三版《六西格玛管理》第147页写得很清楚:独立,书上举了抛硬币的例子,每一次抛硬币的结果都是独立的不会互相影响;

同分布,我们只说正态分布的情况,其实数学很简单,单刀直入,公式中不会有多余的东西出现,也不会丢三落四的,呵呵,更不用去考虑那复杂的人情世故,X服从正态分布记为X~N(μ,σ2),你看,简简单单,括号里只出现2个符号:均值μ和方差σ2,呵呵,套用数学语言叫做“有且仅有2个符号”,自然而然地,思路往这2个符号去想,X1,X2同分布就是有相同的均值μ和方差σ2。对正态分布来说,均值和方差很重要,后面再举例。

小王说:其实讲到正态分布就应该条件反射的想到均值μ和方差σ2,或者说自觉不自觉地去寻找该正态分布的均值和方差是多少。给你讲的铺垫太多了,到现在还没进入正题。要不你自己看书,我直接讲均值和方差。

刚才没有举实际应用的例子,小潘确实听得有点犯困,不过基本上还是听进去了,急忙说:别呀,你讲的大白话书上没这么白,讲吧讲吧,拜托,我睁只眼闭只眼听。

大白话不假,可啥叫睁只眼闭只眼听,小王刚想发作,扭头看小潘真的闭起了一只眼睛,萌萌的,很可爱,也不好跟小女生计较,只好继续说:

第5层意思:大X和小x,X是随机变量,我们已经理解了,小x是具体的样本的观测值,每个或每组具体的观测值组成了单个具体的X。老规矩,在第2层意思中咱们说X理解成集合,钱钟书的《围墙》看过吧?大X在集合外,小x是集合里面的具体数,区别是集合里的没想冲出来,集合外的也没想冲进去。

小潘呵了呵,那只本来半闭着的眼睛被小王这个不恰当的比喻给笑开了。

第6层意思:这段话里的大X和小x后面都跟着一个长得一模一样的n,其实是不同的。为方便理解,我们举有具体数量的有限总体例子(总体有有限总体和无限总体之分),用颜色来区分2个不同的n。

你来咱们公司工作100天,下厂检查工艺的时间这个总体包含100个数据,从100个数据中我们现在用电脑随机抽样,抽3次,区别开来,第一次随机抽10个数据,第二次9个数据,第三次12个数据。得到3组样本X1,X2,X3。第一组有10个观测值x1,x2,...,x10,第二组,第三组依此类推。见下表:

(抽样数据图)

小潘还是觉得有点枯燥,打断小王说:王工,这都是些数学符号,那你说说概率,跟我的工作生活有什么关系呢?

小王呵呵一笑,说:概率用处可大了,身边比比皆是也许你用而不自知而已。一般来说,种种原因不会花大量的时间精力对总体的每一个体进行测量,而是会采用合理抽样的形式从所有个体中抽取一部分来估算总体。

小潘白了小王一眼,心想,我都打岔了,你怎么就绕不出总体和样本呢。

小王接着说:就象我们公司日常做编织袋拉力试验,这是个破坏性试验,试验时需要把袋子裁剪开来,无法再装产品了,全检的话就没有袋子可以用了,不得不按规定比例数量进行抽样。抽样多了吧成本高咱们质管部的检测人员也累,抽样少了吧数据没有说服力,这抽样比例就是用概率按以往的不合格率算出来的。

再举个你的例子,前2天我们部门开会挤掉了一些工作时间,离下班时间只有70分钟了,你还要下厂去检查工艺,你担心检查回来赶不上下班班车,问我需不需要约加班车,当时我说不用,我可不是拍脑袋乱说的,因为你下厂时间在48~71分钟的概率是95%,快走2步完全可以不用约加班车。

这些只是在我们公司应用的例子,在极端环境下,比如抽样环境温度很高,甚至是历经千辛万苦才能抽到样本的,那概率的应用就更有意义了。

现在都大数据时代了,日常应用的例子也很多呀。

比如你平时出行选择坐公交还是坐地铁考虑两者的耗时和拥挤概率,出差坐高铁还是坐飞机衡量两者包含误点的总耗时概率,飞机坐哪一班考虑其误点概率,现在好多售票系统都会显示准点率供你选择,就连上网买个东西,你都会衡量其质量好坏的概率,呵呵,其实你满脑子都是概率。

就连人工智能,阿尔法狗赢棋的原因都是坚持按照获胜概率指引去走每一步棋,咱们公司坚持不断推行六西格玛管理也是因为项目成功概率的指引呀。

原创声明:未经作者同意,如有转发需要必须在文章中给出原文链接,否则必究!

(0)

相关推荐