《生命·觉者》王小川：AlphaGo打败李世石背后的三种算法

嘉宾简介

王小川

搜狗公司CEO

前搜狐高级副总裁

首席技术官

▲点击视频观看《生命·觉者》

王小川第一辑

精彩对话

什么是“深度学习”？

梁同学 :

大家好，欢迎收看《生命·觉者》系列，我是梁冬。

“生命”这个词似乎一直以来和上苍的意志有关，但是人是不是会创造某一种类生命的智慧呢？以前我们觉得这很遥远，现在发现这件事情变得越来越近，比如说前段时间阿尔法狗（AlphGo）和地球上最高级的围棋选手之间的博弈。

在此之前，很多人不相信阿尔法狗（AlphGo）会赢，但是有一位在中国的年轻科学家，他透过一篇论文，认为阿尔法狗（AlphGo）必赢。这个年轻人叫王小川。

在这件事情上来说，我们相信如果你理解了它背后的机制，你就能够看到它的未来。

小川你好，你可不可以跟我讲讲，在你理解的什么叫做人工智能？

王小川：

“人工智能”这个词天生就跟计算机连在一块儿了，其实计算机在发明的时候，最早是用来做军事用途。很快地就开始变成了人把自己的智慧交给机器，让机器它能够在里面做决策做判断。所以在这种情况里面，但凡机器能去做判断、做决策，我们就可以认为它是一种很原始的人工智能。

人工智能从上个世纪60年代到现在经历了三个阶段。第一个阶段是我们人试图去写规则，把自己对世界的理解翻译成一种计算机语言，让它学会“如果这样就怎样”，所以那时候我们称它“专家系统”。

我觉得“专家系统”也是人工智能的一部分，但是这样的做法最后失败了。我们用二十年的时间，看到了人是没有办法通过写程序，把自己的聪明才智、对世界的认知告诉机器的，这个规则机器学不会。

随后就开始走向了一种学习的方法，就是我们不要尝试把自己的意志告诉机器，而是给它一个算法规则之后，让它向真实的数据学习。

我告诉它这个是谁的声音，这是谁的脸，让机器在里面通过数据驱动得到这样一种智慧，这就是人工智能的第二个阶段，我们称之为“学习算法”。

到今天我们发现，在这种统计规则里面找到了更先进的做法，就是“深度学习”。可能行内很多人都听到这个词，但是也不知道它是啥。

梁同学 :

对，那什么是“深度学习”？我也听过。

王小川：

第二个阶段是我们人设法把世界建模，把一个人脸，一个声音，我们提取出中间有效的特征（人主动找到特征），然后把这个特征交给机器，并且告诉机器答案是什么。

这也遇到一个瓶颈——人去找特征的时候，也想不清楚最好的特征是什么。比如说做人脸识别，我们看梁冬兄，该怎么认出你来呢？是用脸的轮廓去描述，还是鼻子的大小。但凡我们在里面描述特征的时候，其实我们丢掉了其它的信息，描述不准确。

这就像围棋的棋盘，围棋里全是棋子，都长的一样。而象棋不一样，象棋很清晰描述里面的一个车一个马在什么位置。所以这种情况下，我们发现用原来的学习方法很难去描述这个事物。

直到2000年后，我们用深度学习方法，采用更大的数据规模，更多计算。我们不要人去找特征，而是把原始数据给机器，告诉它就有这么多点，然后让数据量变得更大，让机器在里面去做计算。

所以它是在学习系统当中，模拟人脑的神经元的结构。模拟，并不完全一样。用这种方法——试图像人的思维方法，让机器来学习，以适应不用靠人去描述这个世界的特征，让它们自己在里面去找规律，这叫“深度学习”。

AlphGo打败李世石的三种算法

梁同学 :

那阿尔法狗（AlphGo），它是如何变成一个比专业的顶尖围棋高手还要高的人工智能的呢？它是怎么进化的呢？

王小川：

如果单从今天的监督学习这个方法，AlphGo其实是没法超过我们最顶尖的人的。

阿尔法狗（AlphGo）里面其实是很变通的，它有一个大的创新就是把三种不同的算法做了融合。

一种算法是我们今天最倡导的“深度学习”，就是把三千万户，六段选手以上的棋做了学习和记忆。就是人在这三千万局棋局里面每一步怎么走的，就让机器学会这个做法，而且能举一反三。但是这样做下来只能达到六段水平。

阿尔法狗（AlphGo）还配合了两个其他的算法，其中一个算法是更经典，原始的算法，我们称为“空间的搜索”。

这个搜索的意思是说，如果拿不准哪步的走法更好，我可能会做一种仿真、一种模拟，让机器把每个走法都走下去，然后再模拟对手接下来会怎么走。之前的“深蓝”就是完全用的空间搜索的方法去做的。

但是空间搜索最大的难点是，每一步棋可能有若干个走法，它像指数一样的，当你到了三步四步……十步之后，这个空间就太大了。所以阿尔法狗（AlphGo）结合了不同的算法。

可能人的一个走法只有一个结，但是机器在系统里面还有排名第二的走法怎么样，排名第三的走法怎么样。

当AlphGo不确定的时候，它会把几种走法按照某种概率都去实践，所以除了每一步怎么走以外，它也带来了一个对未来的推理。人其实也会做这种事情，但这件事情通常机器是比人更擅长的。

梁同学 :

速度和数量级是人所不能想象的。

王小川：

对，会扩大很多。

但是人的优点在于能剪枝，就是我会认为有些特别不靠谱的走法，我先天的判断就不做了。

梁同学 :

但是有没有可能，好象觉得不靠谱的做法其实是有价值的？

王小川：

会，第四局棋局就遇到这个问题。

李世石很精妙的一步棋，AlphGo先是预判人会走这个棋的概率会大概是在千分之零点零零七，基本觉得人不会走这步棋，所以实际上AlphGo就没有去研究这步棋往下之后可能会带来的变化，就没有找到后面的答案，就忽略了这步棋。

恰巧李世石走了一步它没有想到的棋，这是AlphGo在深度学习剪枝的过程当中，忽略掉的一件事情，变成了李世石的一个深击。

但阿尔法狗（AlphGo）能赢其实不止这两个算法，其实还有重要的第三个算法，我们称之为“强化学习”。

这个开创性的做法是，我试图让机器很傻地走到底，就是两个机器互相玩，玩到最后。然后我们只需要把规则告诉机器，说这个机器赢了，那个机器输了。

然后机器它就开始倒着往回去计算，在赢的路径里面，它会做一个参数的加权，输的走法上做降权。然后反复去做迭代，这样机器它内部的算法更接近去赢。

这样就摆脱了我们需要告诉机器的每一步的答案，而是只需要给它一个目标，赢或者输，我把这个学习称之为“强化学习”。

所以阿尔法狗（AlphGo）是第一次把这三种算法引入到一个系统。

今天的主流是深度学习；空间搜索是更老的算法，用进去了；然后强化学习就是给了你最终的一个目标，但是不用人提供答案，而机器自己去通过目标（输了/赢了），去倒推回来我自己的每一步走棋走的好不好。把这样的一个算法放进去，构成了阿尔法狗（AlphGo）完整的走法。

梁同学 :

这很高级呀，反身求成。

就是说我先有这个结果，然后倒推出来所有的步骤，然后去看倒推过来的步骤哪一条路是最合适的，然后不断地调权重，调比例。

王小川：

其实我们教小孩子也是类似的，我们的一种教法首先是告诉孩子规则：这个东西不让碰，红色的东西不让碰，有个火的东西不让碰。这就好比我们把规则教给机器。

而且告诉他火是什么东西，温度有多高，火苗的颜色是怎样的，告诉它怎么描述个火这套规则。所以这个时候小孩子其实是不会超过你的，你只是把你经验传递给他了。

但是如果我们再往下走一步，我们是说这个东西不能碰，也不告诉他这个火是什么东西，要他自己去琢磨怎么描述这个火，让他和事物中间产生他自己完整的一种特征的理解学习，这就是我们今天讲的“深度学习”。

但是从最高的地方的话，你就不告诉他，碰完之后他被烫伤了，这时告诉他，碰这个东西是不对的，会受伤的。

这种情况我们称之为“强化学习”，就是告诉你一个目标，你的体验完了，你做了一堆的动作，最后发现你受伤了。

梁同学 :

对，在这件事情上机器比人有优势，机器可以一晚上几百万次试错。

意识的上传下载有可能吗？

梁同学 :

Black Mirror 《黑镜》里面，讲到玛莎老公死了，然后玛莎把她老公以前在网络上发的文章、邮件全部导到一个数据库里面去，生成一套灵魂系统装到一个机器里人里面。你觉得这件事情靠谱吗？

这是否意味着就理论上来说，也许有一天我们虽然肉体死了，但是我们所有的记忆、我们的社会关系、我们的情绪反应模式，我们的音容相貌都可以还原。这样的话装回任何一个3D打印的肉身里面，我们就轮回转世了？

王小川：

这其实是两个技术，《黑镜》里面的做法还只是模拟最后的结果，因为它能得到的数据，不是你大脑真正的活动和你原始的思维结构。它只是在什么情况下，你说了什么话，它叫“其然不知其所以然”。

你刚才讲的这种东西，更多是真正地要把人的大脑的意识上传。最近其实我们都知道有两个人在干这个事：一个是埃隆·马斯克，建立了一家公司，试图把人的大脑中间的神经元活动上传上去。还有一个是新加坡的陈天桥，之前他说是要投十亿美金，来做这样的事情。

但是意识上传这件事，我认为现在还只停留在科幻层面。这个科幻的原因，不仅是技术不成熟，而且我们对人脑的思维方法是缺乏了解的。

今天我们认为的人工智能，说是在模仿人，其实也是被人的神经元结构所激励我们找到一个方法，就是鸟的飞法和飞机是不一样的。现在我们所谓机器的神经元模型，跟人的神经元是不一样的。

人的神经元自己是带有生长能力的，遇到新事物学习之后人的神经元会生长，而且人的神经元是带有一种循环的。

我原来觉得是这个结果，但是今天变了，人会在这个误差里面马上去做一个反省。而机器学习的这样一个神经元系统是单向的，在内部它没有一个数据的循环。所以到目前为止，我们认为只停留在科幻里面。

人工智能还不足以产生威胁

王小川：

我们现在在这一步里面大家还认为，挺难有一个真正像人一样的，具有生命力，具有推理能力，甚至对人的生命产生威胁的人工智能。

梁同学 :

现在还看不到？

王小川：

看不到。

我们举个简单的例子，像阿尔法狗（AlphGo）大家觉得它很厉害了，搜狗也做了一个回答问题的机器人，有人问我们说你们回答问题的机器人跟阿尔法狗（AlphGo）哪个厉害呀？

梁同学 :

对，你们在《一站到底》里面做了这个是吧？

王小川：

对，我们在《一站到底》做的，我们是靠视觉听觉去把一个问题得到，甚至能抢答，把整个互联网当成一个数据库，去搜索这个答案。但是我刚才说的这个不可比较，两个系统都属于专用系统。

阿尔法狗（AlphGo）它没法回答问题，甚至于如果你把这棋盘从19乘于19变成20乘20，那机器就什么都做不了了，但是我们人是可以的。一个优秀的围棋选手，这个棋盘大一点，甚至小一点，他的水平是会接近的。那机器就会变成白痴，什么都不会。

所以今天的人工智能，只是在原有的数据和训练样本当中，找到了这个领域中间的一个规律。这是今天人工智能遇到的很大的瓶颈。

梁同学 :

所以从你的角度来看，似乎我们对未来过度悲观了。

很多人都觉得可能十五年二十年之后整个世界基本上就变了，大部分的人都没什么用了，现在的教育也是没有意义的了。

王小川：

我会觉得科技的发展可能会超出我们这样的一个预期，很难说二十年后的机器就没有大的突破。

但是我认为，人作为在地球上进化了几千万年，这样智慧的一种生命，人类本身具有的能力，不只是具有一点点智慧这件事情，他还具有对于环境适应的能力，甚至具有生育能力，具有情感。

所以这个智是建立在生命体基础之上的。我们认为，离开这个生命体，单独考虑这样一点智能，是非常局限的。

我不认为脱离生命体的这样一个局部智慧，能够对人类的生存、繁衍带来大的冲击。

梁同学 :

刚才我跟小川聊天的时候，真的给我莫大的安慰。

因为在过往的两三年的时间里面，投资圈的朋友都在讲人工智能对未来的影响和改变，所以让我隐隐约约地产生一种强烈的恐惧。

但是现在我发现，其实人的能力远不只在知识上，人的价值很可能是在知识以外。

《生命·觉者》王小川

总共 2 辑

关注自在睡觉

每周六晚九点准时收看

点击图片，回顾《生命·觉者》

吴岩老师第二辑

任晓光老师亲授

钟繇小小进阶班

《生命·觉者》王小川：AlphaGo打败李世石背后的三种算法 | 第一辑

相关推荐