李世石赢了

holycow · 发表于 2016-3-14 10:25:27

本帖最后由 holycow 于 2016-3-13 18:32 编辑

qyangroo 发表于 2016-3-13 17:57
我这两天读了不少介绍阿法狗的神经元网络算法的文章，阿法狗用了两类神经元网络，策略网络和价值网络。

...

不是战胜57%的人类棋手，而是有57%的概率能正确判断人类棋手在同样的棋局下会走在哪里。虽然比以前AI的记录44%大大提高，但显而易见这只是模仿人类下棋，光靠这个赢樊麾都够呛，遑论李世石。

现在对局一定是在用强化学习的策略网络。其实那个监督学习的策略网络起的作用只是在短时间内给阿法狗一个过得去的起点，以后全靠强化学习涨棋。从原理来讲，完全可以跳过监督学习，光靠左右互搏从一开始随机下子开始涨棋，消耗掉天文数字的CPU时间后同样可以达到现在的水准。

燕庐敕 · 发表于 2016-3-14 10:31:06

煮酒正熟发表于 2016-3-14 00:22
晨大，阿狗这一败，还是没看出人类的突变思维能力依然强于电脑。我觉得最多只能说发展到今天的AI，在应对突 ...

李世石应该继续保持开局不落后+中盘在中腹复杂战斗的下法，来验证昨天的胜利。

你看了陈经前天连夜写的帖子了吗？

holycow · 发表于 2016-3-14 10:36:36

燕庐敕发表于 2016-3-13 18:31
李世石应该继续保持开局不落后+中盘在中腹复杂战斗的下法，来验证昨天的胜利。

你看了陈经前天连夜写的 ...

这个是可能的获胜途径，不是必然的，蒙特卡罗昨天帮了你，今天就可能吃了你。

燕庐敕 · 发表于 2016-3-14 10:38:51

holycow 发表于 2016-3-14 10:36
这个是可能的获胜途径，不是必然的，蒙特卡罗昨天帮了你，今天就可能吃了你。
...

如果重复出现呢？

删除失败 · 发表于 2016-3-14 10:47:01

燕庐敕发表于 2016-3-14 10:38
如果重复出现呢？

说明阿法狗这game开发不合格，三两下就被找到规律了

煮酒正熟 · 发表于 2016-3-14 10:48:38

holycow 发表于 2016-3-13 21:25
不是战胜57%的人类棋手，而是有57%的概率能正确判断人类棋手在同样的棋局下会走在哪里。虽然比以前AI的记 ...

那DeepMind为什么没有从一开始就选择 unsupervised training 呢？这个是我想圆的一个结

煮酒正熟 · 发表于 2016-3-14 11:07:42

dasa 发表于 2016-3-13 20:38
如果阿尔法狗真的是我理解的那样，每一步都不是最优选，但是整体胜率控制在较高水准，而不是真的依赖于其强 ...

那么人类就可能慢慢捉摸出对付人工智能的方法，并最终战胜。

时间不在人类这一边.. 只要谷歌继续支持DeepMind团队，团队坚持让狗狗自我学习的战略，几个月后的狗狗会重新达到今天的棋力，并且出昏招下手的概率锐减，也就是说很少会有能够让人捕捉得到的破绽了。一旦进入自我学习的快速通道，狗的棋力用一日千里来形容也不为过，人类不要说慢慢琢磨，你就是快快琢磨也不赶趟儿

四处张望 · 发表于 2016-3-14 11:10:55

燕庐敕发表于 2016-3-14 10:38
如果重复出现呢？

第五盘重复第四盘落子？

燕庐敕 · 发表于 2016-3-14 11:24:03

四处张望发表于 2016-3-14 11:10
第五盘重复第四盘落子？

应该是思路：

多头并进，少定型，中盘鬼手。

燕庐敕 · 发表于 2016-3-14 11:25:33

煮酒正熟发表于 2016-3-14 10:48
那DeepMind为什么没有从一开始就选择 unsupervised training 呢？这个是我想圆的一个结 ...

为了一开始就省力加不希望开始就跑偏，可能隐含棋手几千年总结在最初阶段是合理的这个假设？

zilewang · 发表于 2016-3-14 11:33:41

燕庐敕发表于 2016-3-14 10:31
李世石应该继续保持开局不落后+中盘在中腹复杂战斗的下法，来验证昨天的胜利。

你看了陈经前天连夜写的 ...

以前觉得政委有点大嘴巴。但他连续几篇人机大战的文章，有水平。

人机大战，不应该将焦点放在输赢上。

zilewang · 发表于 2016-3-14 11:40:59

煮酒正熟发表于 2016-3-14 11:07
时间不在人类这一边.. 只要谷歌继续支持DeepMind团队，团队坚持让狗狗自我学习的战略，几个月后的狗狗会 ...

围棋的本质还是计算，他可以一分钟穷举上千上万手棋，这一点，狗狗已经证明了，他强大人脑太多。
他现在缺的是复杂局面下的优选，价值判断。不解决这一点，狗狗的水平就没办法突破。

即使他赢了棋，也是输了。

qyangroo · 发表于 2016-3-14 11:43:46

煮酒正熟发表于 2016-3-14 10:48
那DeepMind为什么没有从一开始就选择 unsupervised training 呢？这个是我想圆的一个结 ...

有几种可能：

1、用人类高手能较快较好的找到神经元的合适参数。随机产生的棋局水平有可能较低，训练出的初始参数很可能局限了阿法狗的“思路”，一旦陷进去了很难走出来，无法仅靠现有水平突破出更优决策，就像臭棋篓子再下1000局也是臭棋一样。

2、尽管阿法狗的计算能力很强，但由于围棋无法穷举，开局后很长时间基本在算局部最优解，有可能导致剪枝太过，错过了全局最优，这对训练价值网络是不利的。人类高手一般有大局观，可以较快帮阿法狗的价值网建立全局观。

现在google团队应该是想挑战阿法狗通过自己的策略网络决策来下棋，并自学成不亚于人类高手的能力。也就是想让阿法狗自己反复试错加反馈，自己“琢磨”出妙招和高招。同时尽可能“琢磨”出多样化的棋局，这一点肯定需要尽量扩大搜索广度，多下棋来实现。由此阿法狗可模拟出人类不断试错、反馈、并提高的学习过程。由于阿法狗计算速度快、数据吞吐量大，一天能顶人类几年，所以进化应该比较快。就像生物进化一样，阿法狗能否进化的关键我认为是多样性和反馈。

燕庐敕 · 发表于 2016-3-14 11:45:07

zilewang 发表于 2016-3-14 11:33
以前觉得政委有点大嘴巴。但他连续几篇人机大战的文章，有水平。
人机大战，不应该将焦点放在输赢 ...

这个，玩经济他是业余爱好者，人工智能是他吃饭的家伙，围棋是他唯一的爱好。

holycow · 发表于 2016-3-14 11:52:22

煮酒正熟发表于 2016-3-13 18:48
那DeepMind为什么没有从一开始就选择 unsupervised training 呢？这个是我想圆的一个结 ...

我估计从零开始的话，一开始涨棋非常非常慢。从完全随机的一片混沌中开始，就好象从尼安德特人开始，先进化到狩猎部族，花了老鼻子时间。然后去耕种，农业革命，这下快一点了。到工业革命又得上千年，然后两三百年到信息革命。涨棋也是一样，越到后面才越快，前面会不成比例的耗费机时。阿法伯虽然有的是钱，养一条阿法狗没问题，可是耗不起出成果的时间。

一无所之 · 发表于 2016-3-14 11:53:59

老票发表于 2016-3-13 23:48
这预示了两个重要的结论：
1、电脑的快速学习和逻辑思维能力必然强于人类
2、电脑一旦找到自己的缺陷，有能 ...

来嘛，怎么个赌法？

煮酒正熟 · 发表于 2016-3-14 12:03:55

holycow 发表于 2016-3-13 22:52
我估计从零开始的话，一开始涨棋非常非常慢。从完全随机的一片混沌中开始，就好象从尼安德特人开始，先进 ...

嗯，应该就是这个原因。商业上，很多时候只能是先做一个quick and dirty的prototype，来看看这个东西能不能做出来，大概能做到一个什么程度，做出来以后大概能有哪些方面的价值。prototype出来以后，各方基本满意，这个时候返回头去重新做一个精致细腻高大上的洁本出来。俺上周刚刚做过类似的东西，prototype连续作战10个小时，拿出来一个脏脏的东西，大家看了都说有价值，我再回来一点儿一点儿扣细节，把数据做干净，做合理，这一做就是30个小时，现在也只做了70%。

longcheng · 发表于 2016-3-14 14:06:19

实验室机器人，把多个熟练工的操作动作学习一遍，能成为不错的技工。

常挨揍 · 发表于 2016-3-14 14:19:04

赢了也是输了。
今天李世石排名被阿尔法狗挤下去一位

xzhangz · 发表于 2016-3-14 14:22:48

燕庐敕发表于 2016-3-14 11:45
这个，玩经济他是业余爱好者，人工智能是他吃饭的家伙，围棋是他唯一的爱好。 ...

这个，第一点和第三点矛盾吧？你师弟在经济方面码的那么多字连爱好都不算？难道是写作练习么

		自动登录	找回密码
密码			注册

[时事热点] 李世石赢了

点评

评分

评分