概率,是分析我们的主观偏差、衡量事情的不确定性的精确方式。直觉上,每个人都明白“(某件事)发生的可能性有多大?”的问题是什么意思。随机过程则是考虑随“时间”(或者“位置”之类)变化的事件的概率问题的。有大量经典的或者优秀的教材讨论概率与随机过程。依我之见,概率和随机过程,对于一个应用数学家或者工程师而言,是需要最先学会的;这些知识,也是我对这一类学生进行口头测验最偏爱的内容。
当然,以我的经验,对很多学生来说,这也是最让人迷惑的课程。
抛开理论的重要程度和严谨性,让我们从实用的观点出发,引入一个使理论简化的假设:有限性假设。
有限性假设(Finiteness Assumption ,简记为FA):我们假定,不存在无限大的数。
虽然不是无限大,但可以存在非常大的数,比如10^100(这个数比整个我们所在的宇宙的原子的数目总和还要大)。如果一个人只是用数字计算机做计算,那么在这个领域,是碰不到“无限大”的,所以这个假设是自动满足的。引入这个假设以后,我们就可以避开众多相关文献中的测度论术语,不至于让初学者迷惑。
在有限性假设下,我们现在定义什么是随机变量。
随机变量(random variable,简记为r.v.):
随机变量是这样的一个变量,当我们观察它的取值情况或者对它的值进行抽样检查的时候,发现它可以是某个有限范围的任意数值。我们可以用直方图(histogram)来描述随机变量。比如图1
图1. 博文(2009-2013)点击率的直方图:x坐标是点击数, y坐标是在某个点击数范围内的文章数。
注意在直方图中每个竖条表示的是位于此点击率的博文数目占整个四年所有博文数量的百分比,这个百分比正好是被称为“博文点击率”的随机变量取某个点击率值的概率。因为使用了有限性假设(FA),这个随机变量的取值范围是可以确定下来的。当然,这个范围可以是个非常大的数,可以容纳非常大量的数据。(事实上,我用了三个小时来完成我四年来的博客点击率的统计。数据量太大,我没有足够精力来处理五年多的数据-那是我从开博到现在的时段。)用直方图做计算很不方便,所以我们提出了两个粗略的参数来简化对随机变量的描述:从直觉上讲,你可以想象将一个纸卡片剪成直方图的形状。如果纸卡片质地是均匀的,你在一个刀口上放置纸卡片,让刀口与x轴垂直,这个时候纸卡片放置后正好平衡而不掉落,那么刀口对应的x值就是随机变量x的均值。从数学上讲,这个x的均值就是每篇博文点击率的平均值。科学网事实上计算了所有博主的每篇博文的平均点击率,即每个博主的每篇博文点击率的均值,并显示了前100位博主的每篇博文平均点击率。图中的平均点击率是4130次/博文,排在名单上的第26位。方差是直方图的竖条的分散程度的衡量。一个小的方差大致意味着随机变量主要分布在在期望附近一个小的区域;而大的方差则意味着随机变量以期望为中心分布得很开。方差是一个随机变量的变动性的衡量。以股票市场的术语论,一只股票的b值就是一支股票每日变化值的方差,是对其容易变化的程度的衡量。数学上,方差称为一个直方图的二阶中心矩(second central moment)。当然我们可以采用更高阶的中心矩,以更粗略的方式来描述直方图的特征,比如采用直方图的偏度(skewness),就是三阶中心距。但是在实际应用中,这样的高阶矩是很少用的。对于单个的随机变量,我们就说这么多。但是,我们时常碰到不止一个随机变量的情况。比如我们考虑一下有两个随机变量x和y的情况。现在我们画一个关于两个随机变量的三维直方图。从图像上看,直方图看起来像个有多个峰的地形图。(想象一下广西桂林的风景或者纽约曼哈顿岛的高楼)但是这里加入了新概念。这个概念包括“联合概率”(joint probability),以及x与y的“相关系数/协方差”(correlation/covariance) (视大致情形不同而使用“相关系数”或者“协方差”的概念)。这些参数刻画了随机变量间的关系。我们都知道“龙生龙,凤生凤,老鼠儿子打地洞。”如果我们用随机变量x代表家长的智力,用随机变量y代表子女的智力,数学上,我们就说,y与x正相关。如果俯瞰x与y构成的3维直方图,我们就可以看见“山峰”们沿东北-西南向座落,如图2。
图2. x与y的相关性的俯视图
换言之,取不同的x值,则取不同y值的概率会受影响。更一般的讲法,是说,x和y不独立(NOT independent) ,彼此相关(correlated)。数学上,我们用一个三维的函数,即联合概率p(x,y)(这就是直方图的函数表达)来表达x和y的相关性。我们还可以定义条件概率来表达x和y的相关性。在给定y的某个取值的情况下,x取某个值的条件概率是:p(x|y)=p(x,y)/p(y)p(x|y)=p(x,y)/p(y)或者,在给定x的某个取值的情况下,y取某个值的条件概率是:p(y|x)=p(x,y)/p(x)p(y|x)=p(x,y)/p(x)这里,p(y)和p(x)叫做边际概率,相当于将三维的直方图在py平面或者px平面上挤扁而得到的二维直方图。而从图像上看,条件概率p(x|y)相当于在3维直方图上沿某个y值切开一个剖面,这个剖面对应的2维直方图。数学上,我们要用p(x,y)除以p(y)来计算p(x|y),所以我们将p(x|y)的直方图归一化,也就是将其面积归一化为1(或者100%),以满足直方图的定义。现在可以考虑一种可能性,就是图2的俯视图形不是现在的样子,而是边分别与x和y轴平行的矩形。这时,不论y取何值,总是有p(x|y)=p(x)。这样的话,p(x,y)=p(x)p(y)。因此我们说x和y是相互独立的。直觉上,我们知道了y的取值,对x取某值的概率没有任何影响;同样,知道了x,也影响不了y取某值的概率。从计算的角度讲,将一个有两个自变量的函数转化两个只有单自变量的函数的乘积,将简化计算;而对于有n个随机变量的联合概率,在这些变量彼此独立的情况下,将大大减少计算量。对于有两个随机变量的情况的性质的粗略描述,我们可以采用一个均值矢量[Ex,Ey]来描述;也可以用一个协方差矩阵来描述其方差性质:其中矩阵对角上的元素分别是x和y的方差,而反对角上的两个元素是对称的协方差。再讨论一下n个随机变量 [ x1 , x2 , . . . , xn ],当然仍然使用我刚才谈论的方式。那么,其概率可以用n 1维直方图表示,其均值可以用n维矢量表示,而其协方差矩阵将是n乘n方阵。其联合概率可以记为 p(x1 , x2 , . . . , xn),如果这些随机变量彼此独立,那么p(x1 , x2 , . . . , xn )=p(x1) p(x2). . . p(xn)。这里没有新概念出现。