《生命·觉者》王小川:AlphaGo打败李世石背后的三种算法 | 第一辑
嘉 宾 简 介
王小川
搜狗公司CEO
前搜狐高级副总裁
首席技术官
▲点击视频观看《生命·觉者》
王小川 第一辑
精 彩 对 话
01
什么是“深度学习”?
梁同学 :
大家好,欢迎收看《生命·觉者》系列,我是梁冬。
“生命”这个词似乎一直以来和上苍的意志有关,但是人是不是会创造某一种类生命的智慧呢?以前我们觉得这很遥远,现在发现这件事情变得越来越近,比如说前段时间阿尔法狗(AlphGo)和地球上最高级的围棋选手之间的博弈。
在此之前,很多人不相信阿尔法狗(AlphGo)会赢,但是有一位在中国的年轻科学家,他透过一篇论文,认为阿尔法狗(AlphGo)必赢。这个年轻人叫王小川。
在这件事情上来说,我们相信如果你理解了它背后的机制,你就能够看到它的未来。
小川你好,你可不可以跟我讲讲,在你理解的什么叫做人工智能?
王小川:
“人工智能”这个词天生就跟计算机连在一块儿了,其实计算机在发明的时候,最早是用来做军事用途。很快地就开始变成了人把自己的智慧交给机器,让机器它能够在里面做决策做判断。所以在这种情况里面,但凡机器能去做判断、做决策,我们就可以认为它是一种很原始的人工智能。
人工智能从上个世纪60年代到现在经历了三个阶段。第一个阶段是我们人试图去写规则,把自己对世界的理解翻译成一种计算机语言,让它学会“如果这样就怎样”,所以那时候我们称它“专家系统”。
我觉得“专家系统”也是人工智能的一部分,但是这样的做法最后失败了。我们用二十年的时间,看到了人是没有办法通过写程序,把自己的聪明才智、对世界的认知告诉机器的,这个规则机器学不会。
随后就开始走向了一种学习的方法,就是我们不要尝试把自己的意志告诉机器,而是给它一个算法规则之后,让它向真实的数据学习。
我告诉它这个是谁的声音,这是谁的脸,让机器在里面通过数据驱动得到这样一种智慧,这就是人工智能的第二个阶段,我们称之为“学习算法”。
到今天我们发现,在这种统计规则里面找到了更先进的做法,就是“深度学习”。可能行内很多人都听到这个词,但是也不知道它是啥。
梁同学 :
对,那什么是“深度学习”?我也听过。
王小川:
第二个阶段是我们人设法把世界建模,把一个人脸,一个声音,我们提取出中间有效的特征(人主动找到特征),然后把这个特征交给机器,并且告诉机器答案是什么。
这也遇到一个瓶颈——人去找特征的时候,也想不清楚最好的特征是什么。比如说做人脸识别,我们看梁冬兄,该怎么认出你来呢?是用脸的轮廓去描述,还是鼻子的大小。但凡我们在里面描述特征的时候,其实我们丢掉了其它的信息,描述不准确。
这就像围棋的棋盘,围棋里全是棋子,都长的一样。而象棋不一样,象棋很清晰描述里面的一个车一个马在什么位置。所以这种情况下,我们发现用原来的学习方法很难去描述这个事物。
直到2000年后,我们用深度学习方法,采用更大的数据规模,更多计算。我们不要人去找特征,而是把原始数据给机器,告诉它就有这么多点,然后让数据量变得更大,让机器在里面去做计算。
所以它是在学习系统当中,模拟人脑的神经元的结构。模拟,并不完全一样。用这种方法——试图像人的思维方法,让机器来学习,以适应不用靠人去描述这个世界的特征,让它们自己在里面去找规律,这叫“深度学习”。
02
AlphGo打败李世石的三种算法
梁同学 :
那阿尔法狗(AlphGo),它是如何变成一个比专业的顶尖围棋高手还要高的人工智能的呢?它是怎么进化的呢?
王小川:
如果单从今天的监督学习这个方法,AlphGo其实是没法超过我们最顶尖的人的。
阿尔法狗(AlphGo)里面其实是很变通的,它有一个大的创新就是把三种不同的算法做了融合。
一种算法是我们今天最倡导的“深度学习”,就是把三千万户,六段选手以上的棋做了学习和记忆。就是人在这三千万局棋局里面每一步怎么走的,就让机器学会这个做法,而且能举一反三。但是这样做下来只能达到六段水平。
阿尔法狗(AlphGo)还配合了两个其他的算法,其中一个算法是更经典,原始的算法,我们称为“空间的搜索”。
这个搜索的意思是说,如果拿不准哪步的走法更好,我可能会做一种仿真、一种模拟,让机器把每个走法都走下去,然后再模拟对手接下来会怎么走。之前的“深蓝”就是完全用的空间搜索的方法去做的。
但是空间搜索最大的难点是,每一步棋可能有若干个走法,它像指数一样的,当你到了三步四步……十步之后,这个空间就太大了。所以阿尔法狗(AlphGo)结合了不同的算法。
可能人的一个走法只有一个结,但是机器在系统里面还有排名第二的走法怎么样,排名第三的走法怎么样。
当AlphGo不确定的时候,它会把几种走法按照某种概率都去实践,所以除了每一步怎么走以外,它也带来了一个对未来的推理。人其实也会做这种事情,但这件事情通常机器是比人更擅长的。
梁同学 :
速度和数量级是人所不能想象的。
王小川:
对,会扩大很多。
但是人的优点在于能剪枝,就是我会认为有些特别不靠谱的走法,我先天的判断就不做了。
梁同学 :
但是有没有可能,好象觉得不靠谱的做法其实是有价值的?
王小川:
会,第四局棋局就遇到这个问题。
李世石很精妙的一步棋,AlphGo先是预判人会走这个棋的概率会大概是在千分之零点零零七,基本觉得人不会走这步棋,所以实际上AlphGo就没有去研究这步棋往下之后可能会带来的变化,就没有找到后面的答案,就忽略了这步棋。
恰巧李世石走了一步它没有想到的棋,这是AlphGo在深度学习剪枝的过程当中,忽略掉的一件事情,变成了李世石的一个深击。
但阿尔法狗(AlphGo)能赢其实不止这两个算法,其实还有重要的第三个算法,我们称之为“强化学习”。
这个开创性的做法是,我试图让机器很傻地走到底,就是两个机器互相玩,玩到最后。然后我们只需要把规则告诉机器,说这个机器赢了,那个机器输了。
然后机器它就开始倒着往回去计算,在赢的路径里面,它会做一个参数的加权,输的走法上做降权。然后反复去做迭代,这样机器它内部的算法更接近去赢。
这样就摆脱了我们需要告诉机器的每一步的答案,而是只需要给它一个目标,赢或者输,我把这个学习称之为“强化学习”。
所以阿尔法狗(AlphGo)是第一次把这三种算法引入到一个系统。
今天的主流是深度学习;空间搜索是更老的算法,用进去了;然后强化学习就是给了你最终的一个目标,但是不用人提供答案,而机器自己去通过目标(输了/赢了),去倒推回来我自己的每一步走棋走的好不好。把这样的一个算法放进去,构成了阿尔法狗(AlphGo)完整的走法。
梁同学 :
这很高级呀,反身求成。
就是说我先有这个结果,然后倒推出来所有的步骤,然后去看倒推过来的步骤哪一条路是最合适的,然后不断地调权重,调比例。
王小川:
其实我们教小孩子也是类似的,我们的一种教法首先是告诉孩子规则:这个东西不让碰,红色的东西不让碰,有个火的东西不让碰。这就好比我们把规则教给机器。
而且告诉他火是什么东西,温度有多高,火苗的颜色是怎样的,告诉它怎么描述个火这套规则。所以这个时候小孩子其实是不会超过你的,你只是把你经验传递给他了。
但是如果我们再往下走一步,我们是说这个东西不能碰,也不告诉他这个火是什么东西,要他自己去琢磨怎么描述这个火,让他和事物中间产生他自己完整的一种特征的理解学习,这就是我们今天讲的“深度学习”。
但是从最高的地方的话,你就不告诉他,碰完之后他被烫伤了,这时告诉他,碰这个东西是不对的,会受伤的。
这种情况我们称之为“强化学习”,就是告诉你一个目标,你的体验完了,你做了一堆的动作,最后发现你受伤了。
梁同学 :
对,在这件事情上机器比人有优势,机器可以一晚上几百万次试错。
03
意识的上传下载有可能吗?
梁同学 :
Black Mirror 《黑镜》里面,讲到玛莎老公死了,然后玛莎把她老公以前在网络上发的文章、邮件全部导到一个数据库里面去,生成一套灵魂系统装到一个机器里人里面。你觉得这件事情靠谱吗?
这是否意味着就理论上来说,也许有一天我们虽然肉体死了,但是我们所有的记忆、我们的社会关系、我们的情绪反应模式,我们的音容相貌都可以还原。这样的话装回任何一个3D打印的肉身里面,我们就轮回转世了?
王小川:
这其实是两个技术,《黑镜》里面的做法还只是模拟最后的结果,因为它能得到的数据,不是你大脑真正的活动和你原始的思维结构。它只是在什么情况下,你说了什么话,它叫“其然不知其所以然”。
你刚才讲的这种东西,更多是真正地要把人的大脑的意识上传。最近其实我们都知道有两个人在干这个事:一个是埃隆·马斯克,建立了一家公司,试图把人的大脑中间的神经元活动上传上去。还有一个是新加坡的陈天桥,之前他说是要投十亿美金,来做这样的事情。
但是意识上传这件事,我认为现在还只停留在科幻层面。这个科幻的原因,不仅是技术不成熟,而且我们对人脑的思维方法是缺乏了解的。
今天我们认为的人工智能,说是在模仿人,其实也是被人的神经元结构所激励我们找到一个方法,就是鸟的飞法和飞机是不一样的。现在我们所谓机器的神经元模型,跟人的神经元是不一样的。
人的神经元自己是带有生长能力的,遇到新事物学习之后人的神经元会生长,而且人的神经元是带有一种循环的。
我原来觉得是这个结果,但是今天变了,人会在这个误差里面马上去做一个反省。而机器学习的这样一个神经元系统是单向的,在内部它没有一个数据的循环。所以到目前为止,我们认为只停留在科幻里面。
04
人工智能还不足以产生威胁
王小川:
我们现在在这一步里面大家还认为,挺难有一个真正像人一样的,具有生命力,具有推理能力,甚至对人的生命产生威胁的人工智能。
梁同学 :
现在还看不到?
王小川:
看不到。
我们举个简单的例子,像阿尔法狗(AlphGo)大家觉得它很厉害了,搜狗也做了一个回答问题的机器人,有人问我们说你们回答问题的机器人跟阿尔法狗(AlphGo)哪个厉害呀?
梁同学 :
对,你们在《一站到底》里面做了这个是吧?
王小川:
对,我们在《一站到底》做的,我们是靠视觉听觉去把一个问题得到,甚至能抢答,把整个互联网当成一个数据库,去搜索这个答案。但是我刚才说的这个不可比较,两个系统都属于专用系统。
阿尔法狗(AlphGo)它没法回答问题,甚至于如果你把这棋盘从19乘于19变成20乘20,那机器就什么都做不了了,但是我们人是可以的。一个优秀的围棋选手,这个棋盘大一点,甚至小一点,他的水平是会接近的。那机器就会变成白痴,什么都不会。
所以今天的人工智能,只是在原有的数据和训练样本当中,找到了这个领域中间的一个规律。这是今天人工智能遇到的很大的瓶颈。
梁同学 :
所以从你的角度来看,似乎我们对未来过度悲观了。
很多人都觉得可能十五年二十年之后整个世界基本上就变了,大部分的人都没什么用了,现在的教育也是没有意义的了。
王小川:
我会觉得科技的发展可能会超出我们这样的一个预期,很难说二十年后的机器就没有大的突破。
但是我认为,人作为在地球上进化了几千万年,这样智慧的一种生命,人类本身具有的能力,不只是具有一点点智慧这件事情,他还具有对于环境适应的能力,甚至具有生育能力,具有情感。
所以这个智是建立在生命体基础之上的。我们认为,离开这个生命体,单独考虑这样一点智能,是非常局限的。
我不认为脱离生命体的这样一个局部智慧,能够对人类的生存、繁衍带来大的冲击。
梁同学 :
刚才我跟小川聊天的时候,真的给我莫大的安慰。
因为在过往的两三年的时间里面,投资圈的朋友都在讲人工智能对未来的影响和改变,所以让我隐隐约约地产生一种强烈的恐惧。
但是现在我发现,其实人的能力远不只在知识上,人的价值很可能是在知识以外。
《生命·觉者》王小川
总共 2 辑
关注自在睡觉
每周六 晚九点 准时收看
点击图片,回顾《生命·觉者》
吴岩老师第二辑
任 晓 光 老 师 亲 授
钟 繇 小 小 进 阶 班