郭强:从Alphago看人工智能发展
今天,谷歌的围棋程序Alphago战胜了人类围棋棋手李世石九段。
最早期的人工智能其实只是自动化,就是将人类所做的一些事情进行联系起来,自动化流程运转。这样人类可以从烦劳无趣的机械化的工作中解放出来,提高效率,减少劳动量。自动化流程其实应该说并不属于智能,因为自动化中的所有环节都是人类开发出来的,也就是所有逻辑因果关系都是人类已经开发好的,然后制造成机器自动运行。
自动化在现实生产中运用最多,但并不属于智能范畴,因为自动化并不自我建立解决问题的能力。自动化是人类的辅助系统。目前金融系统的程序化交易多数也属于自动化系统,或者说复杂自动化系统,智能作为人类的辅助系统,并不能独立决策。
真正的人工智能应该属于国际象棋领域战胜国际象棋大师的深蓝。深蓝的算法原理是穷举法。我们小孩的时候都玩过井字棋,三个方格连成一线就算赢,由于棋盘狭小,所以人类的智能很快就会发现最优解。也正是因为如此,井字棋只在小孩子之间流行,大一点的孩子发现最优解之后就不喜欢玩了。在数学理论上,任何事情都存在最优解。这当然是在拥有全部信息的状态下。国际象棋只有64个位置,在深蓝的计算能力下可以进行穷举法推演出最优解。也就是深蓝每走一步棋都是把所有变化算出来的,然后选择最优的方案。这个情况不同于自动化过程,因为深蓝只知道国际象棋规则,但并不需要国际象棋的各种策略。深蓝通过穷举所有变化,最终选择最优变化。这个模式可以应对国际象棋中的全部变化。所以深蓝是人工智能。并且可以战胜人类国际象棋大师。
但对于拥有361个位置点的围棋来说,穷举法的计算量太大了,以至于当前的计算机无法达到。但可以肯定的是,穷举法的原理就决定了在国际象棋领域计算机可以击败人类。就如同井字棋游戏中知道最优解的小孩会战胜那些初学小孩一样。但初学小孩一旦知道了最优解,双方就是平手了。而井字棋的天花板也就达到了。
Alphago的研究团队对人工智能的策略做了新的改进,采用了让机器自己学习的办法——所谓“深度学习”。其实就是让机器建立一套不断完善的评估方法。机器通过对过去人类所有的棋局进行复盘和评估,学习评估方案。在对局过程中,穷举下一手棋的时候,通过评估方案过滤掉那些明显不好的招法,以便减少运算压力。这个方案其实非常类似于人类的智力——人类智力总是偷懒,人类总是在寻找一些方法偷懒,把复杂的东西简单化并建立模型,然后拿去应用到新的局面中。
Alphago的方法其实非常类似于人类经验的形成过程,所以也会带来一些新的问题。深蓝是穷举法做出的决策,所以说那个最优解是完全客观的。可以说深蓝就是国际象棋的天花板。在Alphago中,其实机器并没有穷举全部,在穷举过程中经过了筛选。这种筛选的原则是从人类对局中学来的。人是主观的。所以Alphago的评估模型也是主观的。也就是说,它完全有可能把一手好棋给过滤掉。而且这种情况理论上的概率极大。说白了,这就像人类头脑不能穷举围棋一样,Alphago也不能,它也有智力极限。所以围棋的变化在目前的局面下并没有穷尽。而国际象棋可能在深蓝时就变化穷尽了。
另一个问题就是,Alphago的能力取决于与他对局人的能力,和高手对局会提高它的评估能力。但Alphago不能够超越。谷歌研发团队的人说Alphago经常跟自己下棋。其实他跟自己下棋可能不会提高棋力,就像人类跟自己下棋不会提高棋力一样。棋力只能在不断与他人对局中提升。所以Alphago的最高水平其实是当时人类的最高水平,这可能就是谷歌的人说:“Alphago和李世石下棋的胜负是一半对一半。”可见他们是知道这个问题的。
Alphago即将面临的新问题是——过度学习。如同人类棋手一样,Alphago的这个经验策略就决定了如果它跟水平低的棋手下棋,就会拉低它的棋力。低水平评估会冲淡高水平评估。而这个问题在深蓝穷举法上是不存在的。
毫无疑问, Alphago是人工智能领域的一个重大突破,但比起真正的人类智能来说还差得远。
棋类游戏在博弈模式中属于完全信息静态博弈,是最简单的博弈模式。这类博弈比较容易通过算法计算出来。如果是不完全信息动态博弈,这种博弈要猜测局面信息,猜测对手意图等等,目前的图灵系统的人工智能似乎还没有办法从理论上给出应对策略。更何况人类还存在联合盟友打击对手之类的复杂博弈,机器更是无法解决。如果想要体会更复杂的不完全信息动态博弈游戏,可以去玩电子竞技(如LOL,坦克世界等),更进一步可以尝试一下专业兵棋。这个领域的人工智能简直弱爆了。
即使是Alphago这种经验学习模式,如果应用于更为复杂的决策系统中也不会有很好的效果,比如炒股。人类是通过很多市场以外的东西进行理解分析来判断市场的,市场老手有很多经验积累,而这些经验是不可复原的(围棋谱是完全复原的)。很多股市中的经验老手,并不太懂各种经济原理,照样可以赚钱。但Alphago如果进入股市,是不能够输入这些人的经验的,它只能和人类一起慢慢成长。这样看来,如果说培养一个人类炒股能手需要10年,那么人工智能的炒股专家也同样需要10年。这里面还不包括很多信息无法输入的问题。
Alphago带来了一个哲学思考——什么是逻辑因果关系。人类在工作生活中运用大量的逻辑因果关系,但这些因果是真实的吗?还是仅仅是人类的主观假设而已。比较新的理论认为,一切因果关系都是假象,其实所有的事情都是偶然的。Alphago的模式中显然没有建立因果关系的逻辑,他只是评估局面,然后筛选出那些占优的。所以在Alphago那里,每一手棋之间是没有任何因果逻辑的。但人类会认为下棋是有逻辑的。那么因果逻辑到底存在吗?
或许因果逻辑存在与否并不重要,重要的是我们怎么理解这个问题?我们回到可以穷举的世界里,国际象棋棋手通过因果逻辑假象推理出下一步棋的走法,而这一步棋在可以穷举的深蓝那里一定是被穷举过的。所以在这个世界里,穷举优于逻辑推理,人类所有的灵光闪现都在计算机穷举的范围中,那么灵光闪现也就没有价值和开创意义了。但在不可以穷举的世界里,因果逻辑就是一个重要手段。尽管因果逻辑是个假象,但人类使用这种假设的东西会引导我们灵光闪现,发明出新的东西,推动人类进步。而这一点,不能产生因果逻辑的机器还距离很远。
人类可以产生发明创造。但从经验评估角度来看,一切发明创造其实都是一种偶然失控或者谬误,因为发明超出了经验范畴。梳理到这里,可以把智力理解为:
智力 = 一定量的穷举能力(计算能力)+ 一定量的经验(评估能力) + 一定量的逻辑能力(推理出前所未有的东西)。
2016.03.09
【栏目名称】一千零一夜
【栏目缘由】创建于小一.大书悦读会建群第101天,一步一个脚印,走向第1001天。
【栏目内容】用文字定格小一.大书悦读群里面滋养心灵的愉悦,每次1001字左右。