3大绝招60连杀!围棋界大佬惨遭团灭,Master庐山真面目值得深思

相信最近一段时间,大家的朋友圈肯定被这个开了挂的Master连胜新闻刷屏了吧,关于这个端着机枪扫射棋坛圣手的Master身份也是各种的猜测。01月04日,Master赢了周睿羊,获得第59场连胜的傲人战绩后他的身份终于确定:代为执子的 AlphaGo 团队黄士杰博士在对战古力前亮明身份。随后 DeepMind 团队发出官方声明,表示 Master 就是最新版本的 AlphaGo。与此同时,Master在公频上宣布它就是AlphaGo。

1
神之战绩

2016年12月29日晚至31日下午, master在弈城网上连胜披着“马甲”的多位中韩高手,在弈城斩获了30连胜后,2017年1月2日,master又转战野狐围棋网“踢馆”。我们一起看一下Master接下来开挂般的表现:

48胜

1月3日晚,一个神秘的ID“MASTER”再次出现在野狐围棋对弈网站上,很快,MASTER执白1目半小胜朴廷桓。至此,MASTER在野狐网上的战绩已更新为18胜0负,加上此前在弈城网上30连胜的战绩。

49胜
韩国世界冠军元晟溱,他也未能打破神话,中盘告负。此时大师的连胜纪录已经扩大到49局。
50胜

有“当今围棋第一人”之称的柯洁中盘投子后,MASTER已经斩获了50连胜。

51胜

中华台北世界冠军周俊勋九段尽管使用了模仿棋战术,但最后还是执黑中盘落败。

52胜

本局范廷钰序盘执黑猛捞实地,进入中盘后大师的计算力明显高出一筹,最终MASTER执白中盘获胜。

53胜
对阵2015年的阿含桐山杯快棋赛冠军黄云嵩,最终大师获第53胜。
54胜

中国棋圣、64岁的聂卫平出战。MASTER特意把比赛用时调整为每方1分钟一手,以示对聂卫平的尊敬。最终本局进行至254手,执白的聂卫平以7目半的较大劣势落败。

55胜
第55局世界冠军陈耀烨九段披挂上阵,依然战败。陈耀烨表示:什么人来赢一盘,我们要继续期待一下!
56胜
第56局的对手是韩国赵汉乘九段,不知是不是受到的震撼过大,本局赵汉乘早早下出疑问手,没进行什么抵抗就草草败下阵来,这样大师的获胜纪录扩大到56场。
57胜

对阵韩国小将申真谞六段,比赛也没有悬念,Master再次取得胜利,将胜场扩大至57场!

58胜

第58局的对手是老牌世界冠军常昊九段,本局大师开局将对手压制在低线一举取得胜势。这也是大师的第58胜。

59胜
围棋大师“Master”赢了周睿羊,获得第59场连胜的傲人战绩,与此同时,Master在公频上宣布它就是AlphaGo。
60胜

在最后一战中,古力也未能创造奇迹,Master对人类顶尖高手的战绩停留在恐怖的60胜0负1和!Master网战结束,。

以Googlereveals secret test of AI bot to beat top Go players为标题发布在2017年1月4日的《自然》新闻上

Master击败的棋手名单中,包括中国世界冠军:古力(3次)、柯洁(3)、陈耀烨(3)、范廷钰(2)、常昊(1)、时越(1)、芈昱廷(1)、唐韦星(1)、江维杰(1)、柁嘉熹(1)、周睿羊(1)。韩国世界冠军:朴廷桓(5次)、元晟溱(1)、姜东润(1)、金志锡(1)、朴永训(1)。64岁的棋圣聂卫平披挂上阵也无功而返。

2
黄博士到底何许人也

在李世石与 AlphaGo 的对奕过程中,李世石对面有个将 AlphaGo 的棋步下到棋盘,并且将李世石的棋步再输到电脑上的人相信大家都留意到了,那这位代为落子者又是谁呢。这位就是黄博士。在Master这波60胜征战路上仍然由黄博士代为落子,那这位黄博士是谁呢?他就是谷歌 DeepMind 的资深研究员,也是 AlphaGo 的主要程序开发者黄士杰博士。黄士杰从小热爱围棋,是个业余六段围棋选手。2014年,其所在的deepmind公司被谷歌并购,黄士杰已经是公司内两位首席工程师之一。

3
Master庐山真面目

Master就是AlphaGo已经成为事实,那么AlphaGo是利用什么技术战胜人类的呢?关键在于程序,对于在谷歌DeepMind工作的黄士杰和他的小伙伴而言,他们使用了这些绝招:

第一招:“深度卷积神经网络”

深度卷积神经网络早在98年就攻克了手写数字识别,近些年在人脸识别、图像分类、天气预报等领域无往而不利,接连达到或超过人类的水平,是深度学习火遍大江南北的急先锋。2015年黄士杰发表在ICLR的论文上提出了在程序中使出“深度神经网络”的杀招,从网上的围棋对战平台KGS(外国的qq游戏大厅)可以获得人类选手的围棋对弈的棋局。观察这些棋局,每一个状态s,都会有一个人类做出的落子a,这样就可以得到上千万个样本。通过汇集这些样本,我们得到了一个可以模拟人类棋手的策略函数P_human,给定某个棋局状态s,它可以计算出人类选手可能在棋盘上落子的概率分布a = P_human(s)。

第二招:“MCTS,蒙特卡洛搜索树”

MCTS全称 Monte Carlo TreeSearch,是一种人工智能问题中做出最优决策的方法,一般是在组合博弈中的行动(move)规划形式。它结合了随机模拟的一般性和树搜索的准确性。MCTS 受到快速关注主要是由计算机围棋程序的成功以及其潜在的在众多难题上的应用所致。超越博弈游戏本身。搜索树的构建过程为:选择 Selection:从根节点 R 开始,递归选择最优的子节点(后面会解释)直到达到叶子节点 L。扩展 Expansion:如果 L 不是一个终止节点(也就是,不会导致博弈游戏终止)那么就创建一个或者更多的字子节点,选择其中一个 C。模拟 Simulation:从 C 开始运行一个模拟的输出,直到博弈游戏结束。反向传播 Backpropagation:用模拟的结果输出更新当前行动序列。

黄世杰则改进了MCTS,一上来不再是随机掷骰子,而是先根据P_human的计算结果来得到a可能的概率分布,以这个概率来挑选下一步的动作。

第三招:“强化学习”

“强化学习”是一类机器学习方法,Agent通过和环境s的交互,选择下一步的动作a,这个动作会影响环境s,给Agent一个reward,Agent然后继续和环境交互。黄世杰给围棋也设计一个评价函数v(s),在P_human()想象自己开局走了20多步之后,不需要搜索到底,如果有一个v(s)可以直接判断是否能赢,得到最后的结果r,这样肯定能进一步增加MCTS的威力。

深度学习、蒙特卡洛搜索树,强化学习三招齐出才是AlphaGo60连胜的背后原因。

4
Master60连胜给我们带来的思考

正如古力在输给Master之后发的微博上所写的一样,人类与人工智能共同探索围棋世界的大幕即将拉开,新的围棋革命正在进行着。。。这次牵引无数人关注的“人机大战”,又一次给人们展现了科技的强大,围棋这一古老的运动也再度展现了自己的魅力,藤泽秀行先生曾说:“棋道一百,我只知七。”虽然这次表面上是人工智能横扫人类高手,但对任何一方来说,这场“七日之战”都意义非凡。

正如古力所说:“阿尔法的出现已经彻底颠覆了我们棋手对局势原有的掌控、判断。那我不禁要问,多年后的某一天,当你发现自己曾经的意识、认知、抉择都是错误的时候,你会一如即往的错下去,还是否定自己,给自己重新开始的机会呢?致最好的时代or最坏的时代!”


(0)

相关推荐