江湖视野:古今围棋名家棋力榜
一、前言
围棋,以其独特的魅力,闪耀在华夏文明的历史天空。从“尧造围棋,以教丹朱”算起,至今已有四千多年的历史。神仙隐士、帝王将相、文人雅士和围棋名家,留下不朽的传说和浩如烟海的围棋论著。到了清代康乾盛世,中国古代围棋登上顶峰,名家辈出,以黄龙士、范西屏和施襄夏最为著名。关于清代大国手水平如何,众说纷纭,一直未有信服的结论。
今年八月,第九届(2021) 中国杭州国际棋文化峰会传来重磅消息,职业棋手崔灿五段发表学术论文,第一次应用开源围棋AI——网友Y zy的修改后的Lizzie程序,从统计学上论证
了“黄范施”三人代表的清代围棋中盘水平,与当代职业顶尖棋手及日本江户时代顶尖棋手的差异不具有显著性。清代围棋布局的水平确实与当代棋手存在差距,但与日本古棋的布局水平至少在伯仲之间。
崔灿的结论是建立在大量的AI分析棋谱数据上的,其科学性和严谨性,基本消除人类评价棋谱的诸多短板,结论接近客观。但是,由于概率的影响,崔灿依据吻合度评估古今围棋名家的棋力,只能得出“差异不具有显著性”的结论,无法准确评估棋力。显然,崔灿的研究方法还存在进一步完善的空间。
作者在使用LizzieYzy整合包大量跑谱分析中发现,由于棋谱的复杂性,仅以吻合度评估棋谱存在吻合度虚高的局面,如果辅以复杂度(不确定度),用双重指标评估棋谱,可以更加精确的评估出棋手的水平。本文工作初步完成于今年年初,原打算进一步充实数据后再公之于众,但是由于俗务缠身,忙于奔波,至今进展不大。考虑再三后,先将研究方法公布,期待与广大棋友共同研究。
二、名家棋力排序的重要性
或许有人问了,关公战秦琼,真的可以实现吗?
对曰:人类走过了漫长的“天有不测风云”,今天,准确预报天气可以以小时为单位。您觉得关公战秦琼还遥远吗?
本文认为,名家棋力排序,重要性至少有以下两点:
(一)是民族自信,文化自信的体现
清代大国手的棋力一直褒贬不一,其中不乏没有认真了解而盲目下结论的,科学准确评估清代大国手的棋力,还原历史真相,树立民族自信,文化自信,在中国围棋文化建设中当仁不让。
(二)探索棋艺真理,追求棋艺巅峰
职业棋手的职业精神,不会囿于胜负,而是在棋艺探索的道路上,上下求索。吴清源木谷实的《新布局法》,陈祖德的《超越自我》,聂卫平的《围棋八大课题》,小林光一的“木桶理论”,马晓春的《三十六计与围棋》,无一不是自己探索棋艺真理的结晶。科学准确评估围棋名家的棋力,只为寻找出一条通向人类棋力巅峰的捷径。
或许有人说,AI棋力强过人类太多,人类向AI学习即可。
对曰:人类能够学习AI定式,能够学习AI布局,能够学习AI的中盘吗?
只有人类棋谱的中盘,才能为人类所理解,所共鸣。
三、研究方法
(一)吻合度评价的修正
从棋谱评价棋力是围棋界长期以来喜闻乐见的活动,大概棋力高低是大家关注的核心问题。AI出现以来,爱好者们开始用AI的吻合度来评价。必须承认,要评价棋力,吻合度是绕不开的指标。然而总体吻合度数据直接使用也有不妥,应该剔除一些噪声。在此首先对本文在吻合度使用方面做的一些修正予以说明。
首先,本文认为,布局和与胜负无关的官子属于噪声,应予剔除。
为什么布局需要剔除?举一个例子,我又一次观看儿童比赛,两K级儿童讨论点三三定式,甲对乙说“我这个大十字比你那着退胜率好2%,目差好0.2目”。难道现在K级儿童都这么厉害了吗?一会定式结束,双方每手目差波动20目!试问0.2目的优势有何意义?AI时代之前是套路时代,套路时代之前是定式时代,棋力低的人摆摆定式或者套路与高手并无区别。如果把这些手数也算作棋力的一部分,显然是不合理的。这里有一个关键的概念:知识不等于能力。如果知识等于能力,那么如今任何一个大学生都胜过牛顿。但是牛顿是知识的创造者,普通大学生是知识的学习者,两者根本没有可比性,难道因为你多学了一些知识就提高了创造力了吗?这根本就是两码事。如果说科学领域知识多还算是一种优势,那么对于围棋,千古无同局,每一盘都是在创造知识,所以棋力应该是创造知识的能力,也即下棋的能力,所以会背多少套路与棋力关系不大。这里多说两句,现代围棋布局进步很大,有些棋友就有了一种学习套路之后变得强大的幻觉,包括学习AI之后也会有这种幻觉。这种观点自相矛盾之处在于以方面认为套路都是必然之招,另一方面又把套路的演变当做进步。其实个人认为,套路,包括AI套路不过是时装界的流行时尚而已,与棋力关系不大。在此问棋友们一个简单问题,你能通过学katago的招法赢zen7吗?恐怕该赢不了的,依然赢不了。
那么布局剔除应从哪一手开始?本文认为应该从胜率开始比较大的波动开始,而不是某固定手数。这里重点是胜率开始向某方单向波动,即是开始。至于一开始双方的无序波动,则不计入。从经验看,中国古棋从十几手的时候就开始中盘了,而典型的日本下法布局可能要延续到四、五十手。AI时代之后,由于职业棋手大量学习AI,前50手胜率无波动是常事。这些部分的着法都应剔除。也许有的棋友认为这不公平,但是这个方法很好地解决了AI时代吻合度虚高的问题。
在胜负已经分明的前提下,官子手数也要剔除。这个很好理解,比如即使半目胜负,如果棋盘上只剩后手两目的小官子,逆转也是不可能的,而且这种情况收官次序也可以不唯一,那么吻合的价值就大打折扣。相反,如果差距较大而官子手数较多,这难免有整理心情的因素。(中国古棋子彩规则例外)这部分着法是否严谨很难保证,而且客观说,官子到最后,难度大大下降,不足以体现棋手的水平,尤其对于职业棋手,用一些业三都能下对的局面去评价他们的水平并不合适。
崔灿在他的论文中剔除了180手之后的内容,可能也是出于上面考虑。但是本文并不机械地限制在180手。本文以胜率单向波动结束为标志。
举例说明:图中是比较典型的例子。布局开始单向波动可以看到是14手之后,所以从14手开始统计。203手以后基本都是小官子,所以统计到203结束。
本文的统计方式比较灵活,对于布局好的棋手,如果能在布局取得优势,那么胜率也会开始单向波动,所以计入统计。这样就不会因为从某固定手数开始统计而错估了布局实力强的棋手。同时官子省略掉所谓的“垃圾时间”,但是如果像李昌镐那样的官子强的棋手,在官子决胜的时候必然还伴随着胜率单向波动,所以也不会忽略。这里胜率单向波动是一个重要概念,与之相对的是胜率的随机涨落。单向波动被认为是有实战意义的,是某方策略得当或者行棋好手的效果。
其次,本文吻合度全部使用一选吻合度。崔灿论文中使用吻合度是katago默认的前三吻合度,本文则使用第一吻合度,即只看首选。只看首选的原因在于在棋局关键处,差之毫厘谬以千里,看前三吻合看似也有道理,在那些不紧迫的局面下二选、三选也是可行的。但是我们的思想是要考虑吻合的价值,考虑吻合的难度。一个棋手在胜负关键处是否吻合其价值和胜负已定的时候是否吻合价值不同!在胜负关键处着着一选,绝对是需要强大的棋力支撑的!基于上面想法,本文使用一选吻合度。
再次,本文不仅仅看平均吻合度,还要兼顾最低吻合度和最高吻合度。这是因为要观察棋手的最强极限和稳定性。最高吻合度越高,说明棋手的绝对水平越高。注意,本文已经剔除了布局套路、定式和与胜负无关的官子的影响,在这种情况下能够取得高吻合度必然是棋力高的表现。考察最低吻合度可以观察稳定性,尤其是最高最低吻合度相差越大,稳定性越低。如果两者相差巨大,那么可以认为该棋手属于通常说的“神经刀”,不可否认现实中有这类型的棋手。
本部分小结:
1、剔除布局和与胜负无关的官子。布局从胜率较大波动开始,而不是某固定手数剔除。在胜负已经分明的前提下,官子手数也要剔除。
2、吻合度全部使用一选吻合度。
3、不仅仅看平均吻合度,还要兼顾最低吻合度和最高吻合度。
(二)不确定度(复杂度)
不确定度作为次要指标,也占有重要的位置。在统计对局数据时发现棋手在达到某一个不确定度之后常常发生不吻合。当然,棋局内容不同,不确定度的含义也不完全一致。但是高不确定度意味着复杂战斗,这点是没有问题的。本文提出掌控复杂度的概念,或者叫复杂度上限,即一个棋手在战斗局面中能够保持较高吻合度的不确定度(复杂度)。这个指标作为棋手棋力的一个方面在本文给出。
举例:以上图中不确定度在30以上,都不吻合,说明棋手在30以上不确定度吻合度较低,30超过复杂度上限,发挥不稳定。
不确定度25+,结果吻合,说明掌控复杂度在25左右。
以上是识别掌控复杂度(复杂度极限)的大致过程。
在现代棋局中,高不确定度对局出现得并不多,这给选局带来一定困难,尽管如此,本文认为这应该是棋手能力的一个重要方面。对于一局纯粹的功夫棋,可以认为无法体现棋手的这方面能力,那么可以认为棋手能够回避复杂战斗吗?我们认为这种回避需要双方的配合。过去某些叱咤风云的绝世高手没准只是对手配合的结果。至于对手配合的原因,应该和认知有关。总之棋艺的进步总是先从改变认知开始。AI的出现已经很好地证明了这点。本文认为如果某棋手所有的功夫棋吻合度都达到了很高的水平,但是却找不到一盘不确定度高的棋来证明其战斗力,那么对其评价都是不完整的、缺失的。
至于不确定度本身的讨论,网络上文章已经很多,不再重复。在此只给出结果。
本部分小结:掌控复杂度,或者叫复杂度上限,即一个棋手在战斗局面中能够保持较高吻合度的不确定度(复杂度),应作为评估棋手棋力的指标。如果某棋手所有的功夫棋吻合度都达到了很高的水平,但是却找不到一盘不确定度(复杂度)高的棋来证明其战斗力,那么对其棋力评估不完整。
(三)AI不同权重的评价结果
本文在评价人类棋手棋力之前,先把上述方法用于AI不同权重。方法是用不同AI权重生成自战谱,然后用katago40b384进行评价。katago40b384大概目前仍然是最强AI权重。即便不是,也强于本文自战的其他AI,因此方法原理上应没有问题。
本文之所以这样做是因为人类棋手的棋力比较富有争议,尤其是那些关公战秦琼之类的比较。一个方法能否成立,首先看能否有效地区分不同AI权重的棋力。只有能够有效地区分权重,才能进一步推广到人类棋手的水平评价,这是基本前提。AI不同权重的棋力是已知的,如果一个方法能够区分AI不同权重,理论上用于评价人类棋手棋力也没有问题。
下图给出katago6b,10b,15b,20b,30b,40b的分析结果。使用的指标有全局吻合度,波动区间吻合度和复杂度。可以看到全局吻合度和区间吻合度都可以有较好的区分度。但是复杂度指标在本文中没有应有的体现。这是因为即便AI自战也不是总是能下出高复杂度,这本身就是可遇而不可求的。所以在本文计算资源有限的情况下,没有生成足够多的高复杂度对局,也就正常了。但是从谷歌给出的Alphago自战和Alphago和master对局看,高水平的AI是可以下出很高的复杂度的。但样本确实太少。
(一)日本古今棋力鉴定总图
本文给出日本历代高手棋力鉴定总图。每位棋手选择10-15局对局。Katago20b256,10k。
从区间最高吻合度来看,最高的二位是吴清源和道策,其次是秀荣和算砂,随后的一个档次有丈和,秀哉,六超和坂田荣男,而井山裕太还不如六超。从稳定性上看,秀哉秀荣比较突出。而平均吻合度上看,和最高吻合度结论比较接近,不同在于吴清源和秀荣最高,其他几位本因坊和六超差不多
崔灿的文章中说道策被严重高估,之所以本文结果不同在于选局不同。造就道策高吻合度主要是和选择了安井春知的对局。一盘让二子,被誉为道策一生名局,道策吻合度高达57.4;但是这盘棋打劫之后局面简化太早,导致复杂度极低,从而吻合度虚高。另一盘道策执白,道策取得了最高吻合60.3,但是对手只有34.2,可见对手太弱导致吻合度虚高。这种现象不是孤例,道策的对手水平普遍偏低,也就是业余5或强业5最多弱业6,在目差胜率大幅波动区间安井知哲这类棋手的第一选点吻合度只有25-33。当然,本文并不想故意贬低道策,但是客观说道策发挥确实存在忽高忽低的情况,最高可以达到世冠水平,而最低只有业5-业6水平。一些下得很好的棋不排除集体研究的结果,这时数据很漂亮;但是也有很多发挥失常的情况。排除这些因素,单从棋谱数据看,假设数据好看的地方是真实水平,而数据难看之处属于偶然失常,道策的水平勉强能够达到普通职业九段的棋力,一般也就是职业五、六段的水平;一般布局复杂度16-18;中盘可以达到17-21;复杂度极限是26-26.5。
此局为道策让子名局,黑框中复杂度度早早将到17-12,120手之后都是极低复杂度之下取得的,因此吻合度虚高。
吴清源的最低数据则是这局产生的。如果不是本文的选取标准的话,整体数据41.5还算可以。黑棋后面出了勺子,算是意外吧。
从掌控复杂度来看,秀哉,秀荣、丈和、吴清源比较高,但相差不多,一般在26-28的样子。
总体评价日本300年围棋的发展,当得起一个 “稳”字。在小幅波动中缓慢攀升,应该是最好的描述。
(二)中国古今棋力鉴定总图
下图是中国古今棋力鉴定总图。
每位棋手选择10-15局对局。Katago20b256,10k。
与日本相比,中国古今棋力的数据图风格完全不同。
总体来说,AI的数据体现了古代黄龙士为一高峰,范施为第二个高峰,周小松为最后高峰,三个高峰在数据上表现得十分精确。AI数据也表现了建国以后围棋水平稳步提高。
从最高吻合度角度,首先映入眼帘的是范西屏最高吻合度第一,施襄夏略低。柯洁、黄龙士和周小松紧随其后,都在60左右。这些棋手的数据稳稳超过日本历代棋手。徐星友,程兰如,梁魏今、陈子仙与日本六超在数据上完全可以一争,甚至晚晴十八国手也只稍逊色而已。从平均吻合度来看,范施仍然最高,但是徐星友,周小松的数据也赶了上来,差距缩小不少。现代棋手中古力、常昊的稳定性是比较高的,但是锐度较柯洁差一些。
从复杂度角度看,范施的当湖稳居第一,复杂度上限为37左右。超过30的还有黄龙士,徐星友,程兰如,梁魏今胡兆麟。周小松和柯洁接近30。
有意思的是胡兆麟,胡兆麟作为最强二手,在二手中留下棋谱最多,共70余局。胡兆麟的数据可谓大开大合。上限可以达到世冠水平,下线却仅仅是业余水准,平均数不到40,属于职业低段水准,复杂度极限则达到世冠水平。当然,达到世冠水平的棋局是授先对施襄夏的三局中体现的,推测是胡兆麟后期的水平。联想到胡兆麟盐商的身份,一子一金的子彩,这位棋手下棋水平虽然不低,但是确实是娱乐为主!如果最高吻合度和极限复杂度能体现他的真实实力,那么胡兆麟实际上是以为具有娱乐精神的超级棋手!说白了,就是被盐商的身份耽误了!
与日本横向对比看,过百龄是数据和雁金准一,濑越宪作这样的棋手很像,但是掌控复杂度要超过。综合看强于日本这二位的可能性很大。从《晚香亭弈谱》看,程兰如的水平在晚年的时候有所衰退,但是依然能保持在和六超相同的水准,至于年轻时显然是超过许多。至于范施,20bAI自战谱用katago20b256权重10k测试区间吻合度在65-73,范施的最高水准已经进入这个区间!20bAI自战棋谱复杂度目前数据看35以内为绝大多数,而范施极限复杂度达到37。换句话说范施的水平发挥到最佳时数据已经可以媲美20bAI!当然血肉之躯不可和机器相比,稳定性要逊色。尽管如此,假设吃饱喝足状态巅峰的范施和20bAI来一场较量,没准真的能赢。这应该是人类目前为止的巅峰了。
也许有的棋友会怀疑,疑惑,甚至彷徨不解,古代棋手真有那么强吗?谷歌留下的40Balphago自战高复杂度区间很长,现代棋谱高复杂度通常要短很多。这是因为现代棋手会选择简化局面,在这方面甚至双方默契。但是施襄夏和程兰如的九龙戏珠谱复杂度在30-36这个区间有接近200手,程和施胜率没什么大的反复,程没有翻盘的机会。数据不会说谎!(当然孤例不说明问题,仅供参考)
单纯看最高吻合度,道策和吴清源也达到60多,似乎也接近20bAI,但是道策的对手太弱,棋局复杂度太低。相比吴清源还是可以的,只不过复杂度也有点低。而范施的对局一般复杂度都比较高,这是区别所在。
(三)精确对比范施和柯洁
大概一年前,棋友Bionicmed曾在网上发表文章,用katago40b1000k计算量比较范施的当湖十局和柯洁的世冠重要比赛10局,通过吻合度比较得到了棋力近乎严格相等的结论,当时在网络上引起热议。由于Bionicmed与本人相识,本人得到了Bionicmed的数据,用本文方法分析得到结果如下:
Bionicmed用全局选点均值作为比较标准,确实柯洁和范施差不多。
但是如果用本文方法,区间吻合的最高,最低柯洁都要低于范施。这是因为Bionicmed选取的是柯洁2016年以后的棋谱,布局方面是有加成的,去掉加成则数据低于范施。同时这也说明了,范施作为人类高峰,即使现在的棋手学习了AI,数据上恐怕也难以占到上风。毕竟,现在没有那个棋手敢说达到了20BAI的水平,哪怕一次也没有。至于复杂度极限,毫无悬念是范施更高。其实,范的几局在关系胜负的区间吻合度低但是胜率目差没有反转的棋说明他的与AI选点完全不同的下法也是可行的。而这样的现象在现代对局中极少出现,这暗示着中国古棋有着我们还没认识到的独到之处,AI也不是全能的,它也不可能扫描出所有的可行点。现代职业可以下出AI选点之外的好棋,但是这样的例子并不多,但是范施的棋中这样的现象并不少。
(四)其他
首先要为刘棣怀老先生正名。
刘棣怀的数据没有那么差。从平均水平看,职业四、五段肯定有。刘棣怀因为输给伊藤有惠老太太而背负骂名,其实如果从棋谱上看,就是最后出了个勺子而已,否则是优势。刘当时就表示年纪大了,不想上。赶鸭子上架非上不可,还是精力不济出错。
其次,公布人类业余到职业顶尖的AI数据分类图:
五、写在最后
本文的目的主要在于探讨AI评价棋力的方法,由于本文工作采用的是少量数据,结果仅供参考。本人实在受限于资源,不能大量研究。更多的是希望抛砖引玉,希望广大棋友能够提供更多是数据,更详实的资料,更科学合理的方法、策略和规范,届时能够得到更加客观的结论。科学研究崇尚置疑,哪怕和本文结论有所不同,也是好事。本文的另一个目的是探讨棋艺本质。AI出现以来,反思过去,似乎人类围棋走了一段弯路。厘清棋艺本质,消除认知误区,追求围棋认知更高,行棋步调更快,掌控能力更强,这不仅是职业棋手的追求,也是棋迷朋友的追求。AI数据已经反复证明了中国古棋的强大,这是科学,这是事实。承认中国古棋的强大,才能虚心的向前辈棋手学习,汲取营养,站在巨人的肩膀之上。
国运昌,棋运昌。有康乾盛世大国手的参照,我们,还在等待什么?
作者:黑夜传说、武道低手