设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 4462|回复: 26
打印 上一主题 下一主题

[科技] 陈经的评论--可以和柯洁的比对着看

[复制链接]
  • TA的每日心情

    2020-11-20 06:24
  • 签到天数: 1618 天

    [LV.Master]无

    跳转到指定楼层
    楼主
    发表于 2016-2-2 10:25:21 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 燕庐敕 于 2016-2-2 10:50 编辑

    【按】陈经本人是某网站6D,即业余6段,实际水平按我个人估算是业4~业5,可能比樊麾稍弱。

    然而陈经是科班出身的计算机硕士,分别受教于中国科学技术大学和香港科技大学计算机系,人工智能是他的本职工作。


    陈经:谷歌围棋算法存在缺陷 达不到人类最高水平。

    2016年1月28日,谷歌围棋程序AlphaGo以5:0战胜职业棋手的消息,震动了围棋圈。这两天有很多的讨论,主要是新闻性的。我也在第一时间进行了常识性的介绍。

      本文进一步从围棋和人工智能技术的角度,深入分析AlphaGo棋艺特点,评估其算法框架的潜能,预测与人类最高水平棋手的胜负。下文中出现的策略网络、价值网络、蒙特卡洛法请参考前文,理解具体围棋局面也需要一定的棋力,但是与算法推理相关的内容理解起来并不难。

      AlphaGo是如何下棋的

      所有人,包括职业棋手,看了AlphaGo战胜樊麾二段的五盘棋,都说这程序下得像人了,和以前的程序完全不同。柯洁九段(公认目前最强棋手,一年获得三个世界冠军,对李世石6:2,古力7:0)的看法是:

      “完全看不出来。这五盘棋我也仔细地看了一眼,但我没看名字,不知道谁执黑谁执白,完全看不出谁是AI。感觉就像是一个真正的人类下的棋一样。该弃的地方也会弃,该退出的地方也会退出,非常均衡的一个棋风,真是看不出来出自程序之手。因为之前的ZEN那样的程序,经常会莫名其妙的抽风,突然跑到一个无关紧要的地方下棋。它这个不会。它知道哪个地方重要,会在重要的地方下棋,不会突然短路。这一点是非常厉害的。”


    连笑七段让四子对DolBaram,看看电脑是如何搞笑的。



      先来看我上一篇文章中提到的DolBaram被连环劫搞昏的局面。右下角白是连环劫净活,电脑却不知道,耗费了很多劫材来回打。这是因为电脑是用蒙特卡洛树形搜索(MCTS)下的,一直模拟下到终局,看各个选择的获胜概率。人一眼就知道打劫是没用的,你提这个我必然提回那个。电脑模拟时的选点却不会只有那一招,就会发现,如果对手不提另一个劫走了别的,那电脑就能吃角了,所以就去提劫。直到劫材损光,电脑才会恍然大悟,吃不掉,但这已经过去几十手,超过电脑的搜索能力了。


    看到电脑被连环劫搞昏,乐开花的连笑看到电脑被连环劫搞昏,乐开花的连笑


    2014年日本UEC杯软件决赛,Zen执黑对CrazyStone。2014年日本UEC杯软件决赛,Zen执黑对CrazyStone。

      再来看Zen和CrazyStone两个过去最强的程序间的一个局面。黑61威胁白右上角和中上,白却不应,在下面62切断,黑继续63吃掉右上角。最后白在上面损失惨重,为了救中上几个白子,下面又被黑先动手,没有收益。为什么CrazyStone不应上面?因为程序没有价值的概念。白不应上面,黑要把白右上吃掉,还需要很多手,中上的白子活不活更不好说,这已经超出了电脑蒙特卡洛模拟的能力。因为电脑不知道要对着上面猛算,它不知道上面是焦点,可能花了很多计算在下面或者其它地方,认为62手下面切断胜算更大,上面的损失它模拟得不对。这个局面能说明蒙特卡洛树形搜索法(MCTS)的局限性,这个弱点很要命。

      那么AlphaGo会如何解决这两个问题?连环劫问题,DolBaram可能得打个补丁。AlphaGo也是基于MCTS的,但是它的策略网络是深度学习高手对局的招法训练出来的,更为准确,有可能提劫这手就不会给多大概率,因为高手们面对这个局面不会去提劫。另一种可能是,AlphaGo有一个价值网络,不用来回打一堆劫就能直接判断下一招后,获胜机会如何。由于价值网络是训练出来的,包含了3000万局的最终结果,对于右下那块白棋的死活是有判断的。当然也可能AlphaGo针对连环劫有补丁。

      CrazyStone犯错这个图,假设AlphaGo执白,在考虑第62手。61、62、63这些着手显然都会在AlphaGo的策略网络的选点中。你要让它用MCTS模拟出右上和中上白棋几个子是怎么回事,估计也是不行的,手数和分支太多。因为这不是一个简单的死活问题,白可以不要一部分甚至都不要,只要在其它地方有足够的补偿。但是AlphaGo有价值网络,它会在模拟到63手时,用价值网络快速评估一下,发觉白必败,于是迅速否定62这手棋,在上面下棋。因为价值网络的3000万个样本中,上面这种白棋类似棋形导致失败的棋局会有一些。

      这里我们看出来,AlphaGo相比前一代软件的革命性进步,是有了一个价值网络。实际上,AlphaGo可以不用搜索,直接用策略网络给出一些选点,用价值网络判断这些选点的价值,选一个最好的作为着手,就可以做出一个非常厉害的程序。这个简单程序就可以打败其它软件,达到KGS(一个围棋网,人工智能程序一般在上面打级) 7D,这是非常惊人的。Facebook的Darkforest也可以不搜索,用策略网络给出一些选点,选其中概率最大的点(最像是高手下的那招棋),这样可以达到KGS 3D。在此基础上再加上MCTS,把Darkforest提升到了5D。这说明AlphaGo的价值网络对棋力提升的价值,可能比MCTS还要大。

      有了高效的价值网络,AlphaGo就容易知道局面的焦点在哪,不会在非关键的地方走。可以预期,其它软件开发者要跟上AlphaGo,就得把价值网络搞出来。但是这非常难,需要模拟海量的对局,对局水平还不能低,需要的投入很大。

      AlphaGo想要战胜业余高手,策略网络、价值网络就够了。但要战胜业余顶尖,就还得加上MCTS。这相当于对策略网络、价值网络的选择,进行验算。策略网络有两个,一个是给出当前局面的选点,一个是在MCTS模拟中快速给出一些选点。价值网络给出判断,有价值的搜得深。整个决策过程非常象人类高手的思维过程了:面对局面,给出一些选点;然后对各个选点推演下去,有的推几步就判断不行终止,有的会推得很远;有时算不清,就根据感觉下;有时没时间,直接感觉,都不推理了。

      所以AlphaGo的算法框架很强大,和人类高手很像。而且它没有情绪波动,每一步都会稳定地用MCTS进行验算,人类不一定做得到。樊麾二段就是败在这上面,不少着都没有仔细验算,冲动地下了被AlphaGo反击吃大亏。

      AlphaGo还不如人类高手的地方

      分析AlphaGo的弈棋算法,可以相信,AlphaGo到了一定的局面以后就是必胜,因为它不会在此后犯错。实际之前的Zen、CrazyStone也是这样,到了后盘必胜局面,就靠MCTS,它们都能知道必胜了。这时电脑会下得特别猥琐,“赢棋不闹事”,胜多胜少一样。而人类高手后半盘胜局被翻盘很常见,官子没时间算清楚,稳定性比电脑差得多。


      樊麾对AlphaGo的第二局就有这样一个局面。AlphaGo执黑,由于在右下角大占便宜,这时已经必胜了。黑下135,放白136活(如破上面的眼,白借O16的连出再做出一眼)。中韩职业高手刘星七段和金明完四段都指出,黑135右移一路,下在O18,是能够杀死白棋的。


    参考图

      但是AlphaGo为什么不下?我们可以试着推理一下,如果黑强杀,接下来局面会是这样:

      黑135下三角一着强杀,白提一子,黑137退。白138先手切断右上黑棋,虽然是靠劫。接下来白有ABC甚至更多“捣乱”的方法,但职业棋手一眼就能看出来,白的捣乱必然失败,因为白角也没几口气,还要撑劫,黑肯定能对付。但是AlphaGo作不出这种推理!
    参考图参考图

      刘星说,AlphaGo肯定知道白是死的,但选择了稳当的下法。笔者认为恐怕不是这样。AlphaGo的搜索框架里,并不一定能断定白是死的,因为需要的手数不少,打劫虽然更不利于白,但增加了推理手数。它并没有一个搜索任务叫“杀死白右上角”。如果硬要去这么搜索是做得到的,但是如果它这样去想问题,棋力反而会下降,因为围棋很复杂,杀棋付出代价太多会败。AlphaGo推理时会发现,放活白,100%胜,杀白,有风险(虽然实际没风险,但它很可能没去算)。所以AlphaGo集中搜索放活的必胜下法,最后选择是放活。如果局面是不杀不胜,那AlphaGo就会发现其它招不行早早放弃,就会去集中算杀棋的那些招。

      也就是说,一些对于人类非常明显的死活,对AlphaGo反而是麻烦的。人类高手在这个局面很可能就去吃棋让对手早点认输,因为没有任何风险。AlphaGo就不行,它没有分配足够的计算资源去算这个死活,而是去算它认为胜率更高的分支,这些分支要消耗非常多的MCTS局面。人类一眼能看出来的死活,AlphaGo却需要“足够”的计算资源才能算出来。有时因为局面的焦点问题,它还真就分配不出来。只有其它分支不行,被价值网络与MCTS早早砍掉,这块棋的死活才会获得足够资源算个通透。

      这不会影响AlphaGo的胜利,但已经可以看出,它的思维其实和人不一样。它并不是一定能算清的,只有你逼得它没办法了,它才会去算清。但是人就有优势了,人看一眼就知道结果,AlphaGo以及基于MCTS的这些程序,都得去算不少步才知道。程序并不像人一样,对于棋块能给出结论。人给出结论需要计算,但是算一次就行了,然后就一直引用那个结论,直到条件变化。但是程序得去算,算到死了才是死,有一些局面计算甚至是活的,它只是概率性地在那选择,并没有给出确定性的结论。



      再看一个局面,第三局樊麾执黑对AlphaGo。金明完四段指出白60扳,62打,都是走在黑空里的损着。还不只是亏空,本来白不走,右中的白棋粘在S7位,是有一个眼的,现在没有眼了,对中间的攻防战影响不小。


    参考图

      这是AlphaGo确定无疑的亏损错着。但是证明这个结论,需要黑能够对付白Q3长捣乱,要杀掉白右下。职业棋手也要花一点时间,但不难。结论是,因为中下的黑子够厚,所以没有棋。要是没有H4J4这两个黑子,就有棋了。这里涉及到的手数和分支是不少的,虽然结论是明确的。下面是一个白捣乱失败的参考图。
    参考图参考图

      对于AlphaGo来说,这个局面就很麻烦了。如果逼得它不得不做活,它会用MCTS一直模拟下去,最后认为还是死。但现在局面还很空旷,局面选点很多,它并不知道去开一个“任务”算右下角的死活。

      在很多高手对局里,类似这个角的局面就是有棋的,甚至没有棋,高手也会下类似60这样的棋“留余味”,例子很多。所以AlphaGo的策略网络会给出60这个选点。但是高手会迅速否定掉60,因为做不活,而且会损右中白棋的眼。

      AlphaGo不会有“损眼”这种概念,它得模拟到很多步以后,才能知道右中的后手眼很关键。60提出来以后,MCTS救不了它,因为手数和分支太多。价值网络也救不了它,因为这里死了,白也只是吃了亏,并不是明显败局。价值网络背后的3000万局里,60及其后续捣乱手段可能出现过不少胜局,会给60这招一个好分。

      这里我们能看出来AlphaGo的巨大不足了,它对于围棋中的很多“常识”其实是没有概念的,例如“后手眼”、“先手眼”,“厚薄”。有一定水平的人类棋手都明白围棋概念很多,开发者根本就没有准备去建立这些概念,而是自己想了一个决策过程。表面上看AlphaGo和人类高手一样先选点,再推理验算,但这只是表面的相似,内在机理是完全不同的。

      AlphaGo的策略网络可能和人类最高手没有水平差别,甚至更厉害都可能,因为可以考虑更多选择。但是接下来的价值网络和MCTS验算的区别就大了。人类高手是进行复杂的概念推理,大多数情况下可以把“棋理”讲清楚,为什么这么选择,几个变化图就够了,高手们就取得了一致。但AlphaGo是不行的,它只能死算。在封闭局面,死算表现是很稳定,超过人类高手。但是在前半盘的开放局面,它不知道去算什么,其实也是东一下西一下没有逻辑地在那撞运气地推理。

      由于围棋的复杂性,它增多推理的局面数并不能带来多高的棋力提升。Distributed AlphaGo(1202个CPU,176个GPU)的计算能力是“单机版”AlphaGo(48个CPU,8个GPU)的很多倍,但互下只有78%的胜率。

      我们可以得出一个重要结论:

      在早期的开放局面或者中间复杂局面中,AlphaGo的算法有时会走出明显吃小亏的错招,如果“思考”时需要较多的手数与搜索分支,就可能超过它的搜索能力。而人类高手能看出来程序的错误,有能力避免这类错,因为会进行高级的概念推理。这是人类高手的巨大优势。

      为什么AlphaGo的这个弱点表现得并不明显?这是因为开发者用各种办法进行了“掩盖”,而且对手必须很强才行。这个弱点只对高手才存在,甚至象樊麾这样的职业二段都无关紧要。这局樊麾根本没利用白棋损了一眼这个错误,自己先在中间行棋过分被抓住。人类对手面对的各种考验更多,局部出了错被AlphaGo一通死算抓住就锁定败局完蛋。人类对手需要自己先稳住,不能出“不可挽回”的错着。就算是顶尖职业高手也不一定做得到,之所以出了错在职业圈里胜率还可以,是因为对手又送回来了。

      AlphaGo开发者没有在程序中提出围棋常识概念,甚至所有开发者都不是高手(只有第二作者Aja Huang是弈城8d,高手让三四子都可能),很多高深的棋理不明白。但是他们用深度神经网络的办法,隐性地在多层神经网络中实现了很多围棋概念。为什么一个13层的神经网络,几百万节点系数相乘相加,就能预测高手在19*19的棋盘上的行为?通过训练,这些神经网其实已经隐含了很多概念,一层层往下推。所以它下的很像人,确实和人的神经系统类似。

      机器用多层神经网络识别图片的能力,甚至超过了人。但在围棋上,这其实是一种“掩盖”。人识别图片时是没太多概念的,直接看出结果,机器也这样。但在下棋时,其实不是在识别棋局,还是有明确的建立在“常识”基础上的概念,越是高手概念越多,而且说得清,能教给学生,是一个知识系统。

      AlphaGo的策略网络和价值网络,那些神经网络各层里,是些什么“概念”没人说得清,也不好控制。DeepMind小组其实也不想去搞清楚,就是暴力堆数据,信奉大数据暴力破解。

      但围棋是很精微复杂的。某种概念,可能用几百个棋局能说明清楚。但是一大堆概念混在一起,有些概念还没有明确结论,怎么训练?比如前面的“后手眼”概念,人一解释很清楚,DeepMind的人想去改进程序让AlphaGo减少这类失误,就很麻烦。可能要去堆一大堆这类棋局进行训练。先不说能不能找到足够的棋局,在3000万个棋局里,加进一些棋局进行训练会产生什么影响,就很难控制。

      AlphaGo的策略网络、价值网络、MCTS三大招数确实很强大,但也存在很不好解决的内在矛盾,就是没有概念推理的能力,很简单的都做不到。

      AlphaGo与人类棋手对局预测

      假设AlphaGo仍然维持现有的算法框架,但在持续的研究中,增加CPU,增加训练局数,打些小补丁,不断提升能力,那么可以对它的棋力进行推测。

      这些改进就是让强的越强,但是本质的弱点无法消除。也许可以加一些程序代码,处理连环劫、多劫之类的bug型局面。AlphaGo的策略网络和价值网络已经很好了,对人类有优势或者不吃亏。AlphaGo的MCTS能力对于锁定胜局、抓对手大错误足够了,但还不足以消除自身的错误,增加CPU也不会有本质提高。虽然锁定胜局时,这种死算比人类更靠谱,但对于开放式局面仍然远不够用,这是算法本质的问题。

      对于大多数业余棋手,AlphaGo只用策略网络和价值网络,连MCTS都不用,就能轻松获胜了。而且下棋速度特别快,只是算神经网络的输出值,0.1秒就可以,对人类等于不花时间。这个版本可以很容易放到手机上。

      对于强业余五段、六段高手,PC版的AlphaGo可以一战了,需要用上MCTS,但不需要好到48个CPU。

      对于顶尖业余棋手、冲段少年、等级分不高的二三线职业棋手,AlphaGo会有相当高的获胜概率,48或者1202个CPU只会在概率上有些小差别。当人类棋手在中后盘出小错,或者局部出恶手时,立刻就会输掉,无法翻盘。

      对于顶尖职业棋手,AlphaGo会有较低的获胜概率。当顶尖职业棋手发挥好时,是可以做到没有明显错着的,甚至有个别方向性大局性的错误也不要紧,只要不是局部恶手被抓住。但是顶尖棋手状态不好或者心理波动的可能性是有的,甚至不小,所以AlphaGo也是有胜机的,甚至在三番五番棋中取得胜利都是可能的。

      但是如果AlphaGo获胜,职业棋手们的评价会是人类出了明显的错着,而不是机器压倒性的胜利。反过来,人类顶尖高手如果发挥正常,可以对AlphaGo压倒性地全盘压制。

      三月李世石与AlphaGo的对局,如果李世石输掉,一定是因为他出了恶手。而机器也会被多次发现明显的问题手,因为李世石总有能力在五局中表现人类的高水平。

      这个情况有点类似于1997年深蓝战胜卡斯帕罗夫。卡斯帕罗夫输了,但当时不少舆论认为是他发挥不佳甚至收钱放水,后来直到2006年都有人类在比赛中战胜了程序。当然后来国际象棋程序越来越强,真正全面碾压人类棋手,甚至可以让人类一个兵或者两先,等级分比人类最强者高几百分。从当时的机器算法框架看,国际象棋程序彻底战胜人类只是个时间问题。

      围棋的格局会有不同,不会被机器打得这么惨。如果开发者不提出新的算法框架,AlphaGo这样的人工智能程序无法战胜状态良好的人类最高水平棋手,甚至能看出明显的棋力短板。当然由于围棋人工智能不犯大错,抓错的水平很高,对职业棋手群体胜率会比较高,甚至参加世界大赛都有夺冠可能。但职业棋手们仍然掌握着最高水平的围棋技术,这些技术具有真正的艺术性,如果在和人工智能程序的较量中让世界认识到这一点,也有利于提高围棋的影响力。

      AlphaGo已经取得的成就,无疑是非常了不起、令人震惊的。但通过仔细分析它的算法框架,人类棋手也不需要恐慌,它还达不到人类棋手的最高水平。当然不排除人工智能又搞出另外的高招取得突破,但这不好预测,而且会是非常困难的。

      分析清楚AlphaGo的强大与不足,有利于破除迷信,“祛魅”。这也引出了更多哲学性的问题,例如:概念是什么?人工智能的极限在哪里?如何把人类积累的智慧和洞察力用到未来的人工智能科研中?

      作者简介:笔名陈经,香港科技大学计算机科学硕士,中国科学技术大学风云学会研究员,棋力新浪围棋6D。21世纪初开始有独特原创性的经济研究,启发了大批读者。2003年的《经济版图中的发展中国家》预言中国将不断产业升级,挑战发达国家。2006年著有《中国的“官办经济”》。

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?注册

    x

    评分

    参与人数 14爱元 +70 收起 理由
    树袋熊毛毛 + 2 涨姿势
    不爱吱声 + 10 谢谢分享
    东湖珞珈 + 4 谢谢分享
    农民家的狗 + 4
    重重无尽 + 6

    查看全部评分

  • TA的每日心情

    2020-11-20 06:24
  • 签到天数: 1618 天

    [LV.Master]无

    沙发
     楼主| 发表于 2016-2-2 10:55:27 | 只看该作者
    自己顶起来!
  • TA的每日心情
    擦汗
    2018-2-1 10:56
  • 签到天数: 460 天

    [LV.9]渡劫

    板凳
    发表于 2016-2-2 11:29:03 | 只看该作者
    对比着看,有启发
  • TA的每日心情
    开心
    2022-8-10 16:37
  • 签到天数: 1067 天

    [LV.10]大乘

    地板
    发表于 2016-2-2 11:33:54 | 只看该作者
    AlphaGo的特点在于可以训练,现在的问题是在训练过程中价值网络和策略网络是否有一个上限。另外,对于围棋来说棋力是否也存在一个上限。即围棋游戏中是否存在鞍点。
  • TA的每日心情
    擦汗
    2019-6-16 23:34
  • 签到天数: 1277 天

    [LV.10]大乘

    5#
    发表于 2016-2-2 11:53:45 | 只看该作者
    赞,把 nature 那篇 paper 解释得非常清楚了。
  • TA的每日心情
    慵懒
    昨天 01:48
  • 签到天数: 1568 天

    [LV.Master]无

    6#
    发表于 2016-2-2 11:53:53 | 只看该作者
    其实这里的主要问题是AlphaGo的算法进步是否只依赖于对局增加,而不依赖于价值网络是否加了什么高手思路。
    抛开具体算法,这里的问题就是这个算法是否是可以自我学习的,如果是,计算机赢人只是时间问题,说到底,人类的所有围棋技巧,也不过是逐步发展起来的。
  • TA的每日心情
    慵懒
    3 小时前
  • 签到天数: 3075 天

    [LV.Master]无

    7#
    发表于 2016-2-2 11:55:02 | 只看该作者
    不明觉厉
    回复

    使用道具 举报

  • TA的每日心情

    2020-11-20 06:24
  • 签到天数: 1618 天

    [LV.Master]无

    8#
     楼主| 发表于 2016-2-2 12:22:58 | 只看该作者
    冰蚁 发表于 2016-2-2 11:53
    赞,把 nature 那篇 paper 解释得非常清楚了。

    还记得以前陈经因为在经济学的帖子里没有写数学公式被贬为“文科生”的故事吗?

    科大计算机系前两年也是吉米多维奇泡出来的。何况陈经曾经是00班的。
  • TA的每日心情

    2017-10-26 16:21
  • 签到天数: 68 天

    [LV.6]出窍

    9#
    发表于 2016-2-2 12:47:52 | 只看该作者
    如果老卡收钱了,那100W美刀也可能就是google给李世石的封口费。

    因为以alphago战胜樊麾引起的轰动,约战顶级棋手根本不需要再出100W刀,现在柯洁等人已经跃跃欲试了,而且和深蓝时代相比,现在网络发达,在开放平台上下毫无问题,实际上其他的围棋AI就是这么干的。从验证完善AI本身来说,和不同风格的棋手交手也是有益无害。

    如果不是google钱多得没出花,那么也许其中就有阴谋,Alphago有重大缺陷,一旦开放有可能暴露出来,实际上和樊麾3:2的棋谱一直也没有公布也许就是因为有弱点暴露了,而李世石的约战也只不过是google的广告。
  • TA的每日心情

    2020-11-20 06:24
  • 签到天数: 1618 天

    [LV.Master]无

    10#
     楼主| 发表于 2016-2-2 12:55:44 | 只看该作者
    删除失败 发表于 2016-2-2 12:47
    如果老卡收钱了,那100W美刀也可能就是google给李世石的封口费。

    因为以alphago战胜樊麾引起的轰动,约战 ...

    问题是,谁能证明卡斯帕罗夫收钱了?
  • TA的每日心情

    2020-3-6 00:28
  • 签到天数: 564 天

    [LV.9]渡劫

    11#
    发表于 2016-2-2 14:06:37 | 只看该作者
    燕庐敕 发表于 2016-2-2 12:55
    问题是,谁能证明卡斯帕罗夫收钱了?

    陈经这篇论述有些地方说服力还是有些不够。比如说电脑在有决定性优势时,不去杀棋而去用保守走法时,评价杀掉那片棋毫无风险。其实这种思想恰恰是人类的弱点。

    客观来说,每下一步棋都有下错风险。计算机的计算能力是不会随着时间衰减的,而人类会,因此人类下棋会放出胜负手。籍此降低交锋的回合,以降低下错的风险。

    比如上面的杀掉那片棋,这样的话能简化局面,即在某时某刻集中精力,多算几步,一举奠定优势。换言之,人类无法精确评估每一步的风险,用这种办法可以将风险量化到二进制1个数据位信息量的级别。

    对计算机来说,可以精确的评估每种做法的胜率,因此肯定不会像人类那样去杀棋。在胜率确定的情况下,当然优先选择风险最小的做法,因为不存在精力不够用,和多走多错的的问题。

    再次,这里对人类的围棋"概念"的解释有误区。属于典型的语言模糊性对思维的负面影响的例子。人类对围棋的"概念",并没有统一的定义(即这是一个多,而不是一)。李世石对围棋概念的理解与古力肯定不完全相同。因此并不存在一致性的概念。人类之用这类名词来传递围棋信息的原因是,人类不具备精确描述这类概念的能力。

    比如金角银边草肚皮,如果让计算机来表达,大概就是第一步占角角胜率79.4%,第二步占边胜率可提高到81.1%。。。。类似这类描述,其实是人类做不到的。

    回复 支持 2 反对 0

    使用道具 举报

  • TA的每日心情
    慵懒
    昨天 01:48
  • 签到天数: 1568 天

    [LV.Master]无

    12#
    发表于 2016-2-2 14:52:42 | 只看该作者
    穿着裤衩裸奔 发表于 2016-2-2 14:06
    陈经这篇论述有些地方说服力还是有些不够。比如说电脑在有决定性优势时,不去杀棋而去用保守走法时,评价 ...

    我送娃去上围棋班,发现过了两年,这个平时从不下棋的小子可以赢我了,因为我从来没系统学过他学习的定势。但是你要说他思考深度如何,那是完全没有的。所以我觉得各种定势啥的很大程度其实就是为了减少下棋的思考量。
    所以如果我以前一直觉得如果这算法是基于这些定势的学习的,我很怀疑能不能继续提高,而如果变成了现在这种所说的自我学习,我还是非常看好在最近几年内赢过人类。

    点评

    给力: 5.0
    给力: 5
      发表于 2016-2-3 10:04

    评分

    参与人数 1爱元 +8 收起 理由
    jellobean + 8

    查看全部评分

  • TA的每日心情

    2024-2-11 13:31
  • 签到天数: 141 天

    [LV.7]分神

    13#
    发表于 2016-2-2 15:41:14 | 只看该作者
    四处张望 发表于 2016-2-2 14:52
    我送娃去上围棋班,发现过了两年,这个平时从不下棋的小子可以赢我了,因为我从来没系统学过他学习的定势 ...

    第一代的围棋程序才使用定式,后来发现此路不通,早就换了方法了。
  • TA的每日心情

    2020-11-20 06:24
  • 签到天数: 1618 天

    [LV.Master]无

    14#
     楼主| 发表于 2016-2-2 15:43:20 | 只看该作者
    四处张望 发表于 2016-2-2 14:52
    我送娃去上围棋班,发现过了两年,这个平时从不下棋的小子可以赢我了,因为我从来没系统学过他学习的定势 ...

    套用现在流行术语,你这是中了飞刀
  • TA的每日心情
    慵懒
    昨天 01:48
  • 签到天数: 1568 天

    [LV.Master]无

    15#
    发表于 2016-2-2 16:06:05 | 只看该作者
    mark 发表于 2016-2-2 15:41
    第一代的围棋程序才使用定式,后来发现此路不通,早就换了方法了。

    我其实是说,是否把现有人类知识灌进去。
  • TA的每日心情
    慵懒
    昨天 01:48
  • 签到天数: 1568 天

    [LV.Master]无

    16#
    发表于 2016-2-2 16:08:14 | 只看该作者
    燕庐敕 发表于 2016-2-2 15:43
    套用现在流行术语,你这是中了飞刀

    飞刀都谈不上,就是最基本的东西,比如口诀。有了这些口诀,他看到特定棋形连想都不用想,我这种野路子,很久没下了,一没想清楚就中招。
  • TA的每日心情
    开心
    昨天 19:20
  • 签到天数: 670 天

    [LV.9]渡劫

    17#
    发表于 2016-2-2 17:12:03 | 只看该作者
    有人说这个A围棋可以帮助锻炼棋手,有一个反面典型:

    原来时常和活人下棋,最好成绩接近初段水平的家伙,自从开始玩IPAD围棋,棋力直线下滑,现在在网络上最高是5级......             那就是我。

    因为和电脑玩,我可以随时悔棋,这个太损毁棋力了,
  • TA的每日心情
    慵懒
    3 小时前
  • 签到天数: 2133 天

    [LV.Master]无

    18#
    发表于 2016-2-2 17:45:03 | 只看该作者
    政委竟然是码农出生,想不到啊。
  • TA的每日心情

    2020-3-6 00:28
  • 签到天数: 564 天

    [LV.9]渡劫

    19#
    发表于 2016-2-2 19:16:01 | 只看该作者
    四处张望 发表于 2016-2-2 14:52
    我送娃去上围棋班,发现过了两年,这个平时从不下棋的小子可以赢我了,因为我从来没系统学过他学习的定势 ...

    没错定式就是用来降低计算量的,和九九乘法表一样。

    我围棋属于入门级别,懂得几乎所有的术语,以及5个左右常规定式的水平。对付这类棋手,能背下不超过100个定式,并学习一些骗招,就差不多能做到百战百胜。取得1-2个角的胜利,整个棋局翻盘的机会就很少量了。

    现在这个机器学习方式,更接近傻快,所以更有前途,但是否能达到人类的高度不好说,还是可能受算法的限制。

    我更倾向于接近神经元模式的计算方式,海量运算单元+存储单元,极少量的而简单的算法,加上海量数据输入,说不定能搞出超越人类思维的东西。
  • TA的每日心情
    擦汗
    2019-6-16 23:34
  • 签到天数: 1277 天

    [LV.10]大乘

    20#
    发表于 2016-2-2 20:42:10 | 只看该作者
    删除失败 发表于 2016-2-1 23:47
    如果老卡收钱了,那100W美刀也可能就是google给李世石的封口费。

    因为以alphago战胜樊麾引起的轰动,约战 ...

    快棋的3:2 棋谱不公开,我倒不觉得是阴谋。快棋是非正式比赛。我估计 google 是做了什么调整以模仿人类快棋。所以这时候的 alphaGo 是一个非正式版本。google 藏起来也是比较正常的。棋手因保密协议不说也算正常的。我前面说 interesting,是说这会是什么样的一个调整。从这种调整和最终对局中能更好地窥视 google 的 AI 能力。

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2024-12-24 03:41 , Processed in 0.057467 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表