浅谈机器学习里面的距离问题

本来想直接写浅谈数据结构的,但是发现这是一个计算机专业的术语,里面涉及了堆栈,数组,队列,图什么的,和我想说的并没有太大的关系,我可能更想说的是算法这一块。

算法太多了,就我了解的比较经典的就有线性回归,SVM,PCA,ICA,CCA,CNN等等,不一而足,懒得赘述。我想说一个最本质的东西,这应该是我在写了几十张草稿纸的计算,写了几个月代码之后,感觉最为重要的东西。就是一个词,距离。

这里的距离不是距离产生美的距离,也不是实实在在的距离,不是线上的距离,不是面上的距离,不是空间上的距离,而是数学里面抽象的距离。我没办法说的更形象一些,但是数学里面有明确的定义,一个是非负性,一个是你到我的距离等于我到你的距离,一个是满足三角不等式。笛卡尔给出了直角坐标系,向量的内积便是投影。如果我们把不同的向量往同一个方向投影,是不是就可以将不同的投影值看作是在该方向上的距离。PCA的主要问题就是寻找这个投影方向,教材也许有个很专业的说法叫做将方差最大化。当然求解时候得算特征值特征向量,遇到奇异矩阵还得做一些变换,都是题外话。

我自己这样总结,距离是个标量,所以用来比较大小再合适不过。多维的数据本质上是个多维的向量,要进行大小的比较自然很不方便,这里有个高大上的词,赋范向量空间,简言之就是个映射,将一个向量对应到一个非负实数,然后就可以比较大小了,这就是我理解的距离。测度论里面类似的映射还有一个,分布,注意了,这里还不是常说的分布函数,分布的常用形式是分布函数和特征函数。分布,是一个定义域为波雷尔事件域的一个实值函数。按照的我的理解,我们所说的概率的大小其实本质上经过了两次变换,单纯的概率是没有办法比较大小的,它必须映射到一个实数,比如抛掷硬币正面朝上的概率是0.5,买彩票中奖的概率是0.01,那我可以说为了获得些许成就感,我会选择抛硬币玩,而不是买彩票玩,这个时候,我们其实已经将距离比较完大小,回到波雷尔事件域了。

如果PCA是比较哪个方向的方差最大,那么CCA就是比较哪个方向的相关性最大,都是映射到非负实数集合。除了比较谁大,自然可以比较谁小,线性回归问题就是研究实际值与回归值的距离问题,自然是彼此越近越好了。同样的,我们需要从向量空间转身,来到赋范向量空间。利用矩阵的乘法,假设我们已经找到解,可以很快得出回归的参数。但是很多时候,我们想另辟蹊径,导数这么好的东西干嘛不用呢。线性回归可以求导,毕竟Convex的问题,不至于会出现两个极值点。SVM则是将求导运用到了更高的境界,这个方法有个专门的名字,叫做拉格朗日乘数法。拉格朗日告诉我们一个真理,我们可以找到一个点,一阶导为零的同时满足约束条件,我们可以用一个参数或者一组参数描述这个约束条件在范数空间的移动。

前面说过CCA要算两个向量之间的相关性,CNN里面则计算信号之间互相关和卷积。一般我们把神经网络比作黑匣子,因为信号之间卷积后,人类很难再从直观上进行解释,将中间层的卷积结果拿出来看会显得非常鬼畜。如果说哪里还用到距离的话,我们可以对训练结果进行打分,比较和理想值的距离,从而调整训练参数,哈哈哈,开始胡扯了。

(0)

相关推荐

  • R语言 PCA(主成分分析),CA(对应分析)夫妻职业差异和马赛克图可视化

    原文链接:http://tecdat.cn/?p=22762 主成分分析法是数据挖掘中常用的一种降维算法,是Pearson在1901年提出的,再后来由hotelling在1933年加以发展提出的一种多 ...

  • 传说中的数据挖掘工程师,究竟是做什么的?

    数据挖掘,从字面上理解,就是在数据中找到有用的东西,哪些东西有用就要看具体的业务目标了.最简单的就是统计应用了,比如电商数据,如淘宝统计过哪个省购买泳衣最多等. 进一步,可以基于用户的浏览.点击.收藏 ...

  • Rethinking batch effect removing methods—CCA

    PS. 最近和组里的同学一起发现去 batch effect 的一些方法都可以由一个比较统一的框架来理解.(包括 CCA, MNN,LIGER),就想着先用中文梳理一遍顺便也是和大家分享一下.个人认为 ...

  • 捞偏门?浅谈机器学习的一些小众方向

    随着 DeepMind 的 AlphaGo 在 2016 年战胜了李世石,"人工智能"这个词开始进入大众的视野.从那时起,不管是大型互联网公司还是初创企业都开始大规模招聘机器学习的 ...

  • 浅谈什么是机器学习

    退休后的AlphaGo,赢了柯洁,也赢了围棋五虎上将,标志着人工智能算法达到了一个新的高度,人工智能.深度学习.机器学习等话题也成为了大家讨论的话题,成为了茶余饭后的话题.这篇文章是关于"比 ...

  • 浅谈乡村治理模式发生了哪些变化?

    随着乡村现代化的发展,越来越多的乡村走上了建设数字乡村的道路,从传统的乡村治理到使用互联网数字化治理的模式,乡村的风貌和农民的生活也发生了巨大的变化,接下来就让我们一起来了解一下乡村治理模式到底发生了 ...

  • 汽车是怎么开发出来的?浅谈汽车开发流程

    许良  汽车话题下的优秀答主你知道汽车是怎么开发出来的吗?你的脑海中很可能浮现出来这样一个画面:一个非常有艺术气息的设计师,在草图上帅气的描绘着看起来非常犀利的线条.对,但不全对.对于汽车工程师的我而 ...

  • 浅谈办公室装修的发展前景和趋势

    未来办公室装修的发展趋势会是怎样的?这是这个行业未来前景的重要话题.在这样一个新时代里,所有的事物都会以最新颖的方式出发.科技的发展也让每个行业都转遍了方向,同时对行业的要求和品质也有了更高的要求. ...

  • 颧骨浅谈

    ​骨过高 颧骨过于发达的人,单从脸部看上去就给人以高傲的感觉.而他们也得确有这种个性,常固执已见,虚张声势或显得自负是他们的特色.在工作上,也不愿意接受他人的忠告,总认为自己的就是最好的,这一点不利于 ...

  • 浅谈地龙在治疗咳喘中的运用

    浅谈地龙在治疗咳喘中的运用 笔者从事中医临床工作十多年来,在运用地龙治疗痰湿壅肺型.肺络瘀阻型.心肺两虚型.肾不纳气型的咳喘上有了一些心得,现介绍如下.   咳喘是现代医学中呼吸系统.心血管系统疾病的 ...

  • [鉴史释疑]曹操是英雄还是汉贼 浅谈曹操的英雄之处

    时间:2021-04-16 08:30:03    来源:本站(吾爱诗经网)整理       作者:魁哥说历史 在不同人眼里,曹操的形象和品格都是不一样的.有人觉得曹操是汉贼,但也有人说曹操是英雄,其 ...

  • 油车的教学真能开电车? 从驾校角度浅谈电动汽车事故

    可能是因为电动汽车正处汽车变革的"风口"中,所以因为电动汽车造成的事故在今年都能成为热搜榜的常客,刨去产品本身的原因不谈,在驾校的培训体系中有没有需要提升的部分? 我们都知道目前驾 ...