机器学习入门2
写在前面的话,我希望能够一起学习,但是事情总是计划赶不上变化,两个德国人退出了。孟萌在南德实习,李媛和张鲁津还有别的Project要忙,大家都很忙。我这一学期就两门课,所以我有足够的时间。幸好这门课还是蛮好玩的,内容丰富多彩。也许我选这门课还有一个非常任性的原因,我觉得天底下没有我征服不了的东西,除非我不想,也许就是我的个人性格吧,Das Schicksal, my destiny。
之前讲了线性分类器和贝叶斯分类器,以及相应的判别式,也就是决策函数, 极大似然估计。现在时间应该进入了80年代后期了,主成分分析,聚类,EM 期望最大,核函数,Modelslection,决策树,强化学习,以及神经网络。
我找到一句话, maximum a posteriori estimates can be regarded as regularization of the maximum likelihood estimate。
极大似然估计,就是对似然函数求导,regularization 正则化就是在最小二乘估计的基础上引入惩罚参数, penalty,增强鲁棒性,robust,说白了就是不因为一个突然出现的不符合分类条件的点而导致某处参数骤变。用ppt里面的话说,对参数引入限制使得结果更加稳定。
PCA问题通过最大化signal或者最小化noise,会发现其实本质上是一回事,再通过构造拉格朗日函数,转换成了求特征值的问题。编程的时候,会直接用矩阵的奇异值分解来求主成分,其实就是特征值,也可以按照上面的给的方法x乘以x的转置得到 scatter matrix,求这个matrix的特征值。特征值和特征向量在线性代数里面有着及其重要的意义,这个意义使得我们可以通过一次次迭代,同样可以求到特征值。
聚类,这应该是我觉得最好玩的了。说实话,它其实和EM一样,expectation maximum。先求每个类质心,也就是期望,然后根据质心进行全局的优化,也就是求最大值,这里最大最小并没绝对的区别,都是极值问题。然后就是更新质心,进行迭代。可以这样做的一个根本原因就是密度分布的不均匀。
上图是也是一个EM过程,两个简单的二项式分布,各自权重不一样,但各自正反的概率一大一小,所以初始的分布是一左一右高度一样的高斯分布,验证了二项分布的极限是高斯分布. 随着不断进行EM, 理论值逐渐接近实际值, 误差在越来越小.
对于Fischer Discriminant 我觉得上图并没有很好的说明问题,公式倒是比图更容易看懂. 于是我又翻回了,我的Mustererkennung, 找到下面这张图:
简单明了,一目了然,类间方差除以类内方差之和,数值越大说明分类分的越好。
这里的误差用均方差表示MSE,可以证明等于偏差的平方加方差。我特别讨厌这些乱七八糟的中文名字,我更喜欢看公式。方差比较的是估计值和均值,均方差比较的是估计值和真实值,所以两者还缺一个东西,那就是偏差。当采用均值作为估计值,偏差为零。
最后就是决策树和随机森林了, random forest。没啥好说的,跳过。名字倒是起的蛮有意思的。重要的原理,可能就是能够很好的避免同质化,不人云亦云,这样错误就不会被放大。
最后就是我神秘的高斯过程了,有趣在于,distribution不仅仅关于random varible,而是 function 了,这就无形中基于函数,又构造了一个函数关系。问题变得复杂而有趣。
以上是历次作业编程题目生成的图片,看起来还是蛮有意思的。
最后想说一下,我对人工智能的理解。我特别欣赏一种看法,所谓智能,是在不知情人看来无法理解的东西被其称为智能。这可以让我们对待人工智能更为理性一些,不要抱有太高期望,像什么上传下载意识啊,性伴侣啊,用刘慈欣的话讲,这会从根本上改变人类文明的进程。人工智能模仿人类的智能,比如感知和运动,还有推理。我觉得在开始幻想之前,每个人都应该先问问自己,你内心的欢喜是什么。
后记: 有一种忧伤叫做不能自已,失去的东西已经失去,不可挽回的就是不可挽回。唯一能做的就是把握现在。