loy_20002000
发表于 2017-5-28 23:18:40
丁丁咚 发表于 2017-5-28 22:24
和柯洁下棋的新版本AlphaGo跟以前的alphago已经大不相同,并非只是靠庞大的计算。实际上,新版本的AlphaG ...
1、机器没有放弃人类棋谱,只是量少了很多。目前尚不清楚少了许多究竟是多少。这CEO是一点不懂吧,3000万盘是自我对战局,不是人类棋谱。人类职业的棋谱从唐朝那个时候算也不可能有这么多。这个问题记者问过哈斯必死,不清楚是同步翻译的问题还是怎么说,哈撒必死说他们没有放弃过人类棋谱。
2、蒙特卡洛算法是唯一可以解决围棋复杂度的方法,不可能放弃的。2.0或1.xx的计算数据是可以直接使用的,最凑巧的局面是某个盘面Go下出过很多次,并且有一个胜率最高的招法,这样连搜索都不用。就算真的是单机版,它内部的博弈树也是分布版试出来的,所以还是分布版的功劳。Google的牛掰之处是其他公司投入硬件堆不出Go的水平,硬件再其次,算法可能有大突破。之前对李世石的版本就是DM发明了多个网络共同决策的机制,其中最后搞出来的走子网络(英文我忘了)不借助其他网络就有业余6d的水平。
等着DM发布论文了,不清楚核心的东西是否公开。搞不好像上次《Nature》那篇,讲个轮廓具体的东西就不提了。1.xx赢了李世石后逼得Facebook把黑暗丛林公开了。不少人都猜测,DM藏私货,有些核心的可能压根没讲,不然解释不了其他公司复制它的思路战绩普遍糟糕。
清凉山
发表于 2017-5-28 23:23:59
大时代的看客 发表于 2017-5-28 22:57
咸的甜的都吃
是你把粽子抢光的?{:190:}
大时代的看客
发表于 2017-5-28 23:47:42
清凉山 发表于 2017-5-28 23:23
是你把粽子抢光的?
最终也没吃上甜的{:205:}
冰蚁
发表于 2017-5-28 23:52:06
本帖最后由 冰蚁 于 2017-5-28 11:30 编辑
loy_20002000 发表于 2017-5-28 10:18
1、机器没有放弃人类棋谱,只是量少了很多。目前尚不清楚少了许多究竟是多少。这CEO是一点不懂吧,3000万 ...
3000万不是自我对局,而是人类棋局。但是是 3000 万 moves,3000万手棋。200手一盘棋的话,15万盘棋。
ps, 刚查了一下,哈斯必死说了给 alpha 1.0 大约喂了10万盘棋。
tenba
发表于 2017-5-29 00:22:38
咸的甜的都吃
loy_20002000
发表于 2017-5-29 00:57:29
本帖最后由 loy_20002000 于 2017-5-29 14:33 编辑
冰蚁 发表于 2017-5-28 23:52
3000万不是自我对局,而是人类棋局。但是是 3000 万 moves,3000万手棋。200手一盘棋的话,15万盘棋。
p ...
看见你这个回复我差点哭了。国内的报道坑人呐,职业解说坑人呐,职业棋手坑人呐,伪专家坑人呐。刚查了哈撒必死的博客,真是你说的这个。(这里删了一段,原始文字是错误的)
我靠,盘、局和move、position的意思简直是天上地下。我已经迷糊了,现代就去看原始论文。
————————————————————
原始论文:We trained a 13 layer policy network, which we call the SL policy network, from 30 million positionsfromtheKGSGoServer.
哈撒必死博客:We trained the neural networks on 30 million moves from games played by human experts,……
好吧,我在拿头撞墙。
冰蚁
发表于 2017-5-29 01:14:33
本帖最后由 冰蚁 于 2017-5-28 12:17 编辑
loy_20002000 发表于 2017-5-28 11:57
看见你这个回复我差点哭了。国内的报道坑人呐,职业解说坑人呐,职业棋手坑人呐,伪专家坑人呐。刚查了哈 ...
嘿嘿,我现在看到一个什么 statement,都要先去看看原始出处。不然所有的判断的基石都错了。
{:191:}
PS,哈斯必死说用了约10万盘进行了训练。deep learning 阶段是自我对局。
loy_20002000
发表于 2017-5-29 01:22:36
冰蚁 发表于 2017-5-29 01:14
嘿嘿,我现在看到一个什么 statement,都要先去看看原始出处。不然所有的判断的基石都错了。
{:196:}
我真没想到那么多专家都是错的。职业棋手、围棋AI开发者、职业解说、专业媒体、专家解读(田渊栋除外),特么都是错的怎么可能?!这让我想起08年查XP的API,百度给出的原型统统是错误的。一字之差呀,意思差太多了。让我痛快地哭一场吧。{:205:}
还在看论文,明天更新下阅读心得。
喜欢就捧捧场
发表于 2017-5-29 02:07:26
为什么要排队为什么?
燕庐敕
发表于 2017-5-29 06:24:29
喜欢就捧捧场 发表于 2017-5-29 02:07
为什么要排队为什么?
排了队,大家可以去红包中心领豆豆发的红包。
吴承骏
发表于 2017-5-29 07:13:29
排队拿红包
dashanji
发表于 2017-5-29 07:57:08
我还是吃个甜的人
独角兽
发表于 2017-5-29 10:40:54
吃粽子的
随便
发表于 2017-5-29 10:57:02
甜的
云淡风轻
发表于 2017-5-29 11:11:23
{:192:}{:191:}
loy_20002000
发表于 2017-5-29 16:54:43
冰蚁 发表于 2017-5-29 01:14
嘿嘿,我现在看到一个什么 statement,都要先去看看原始出处。不然所有的判断的基石都错了。
DeepMind《Mastering the game of Go with deep neural networks and tree search 》阅读心得。
1、DM使用了KGS的16万局6d至9d棋局,共选取3000万个盘面构建SL Policy Network与Rollout Policy。盘面由(a,s)构成。SL Policy Network精确度高,Rollout Policy速度快,两者速度对比大致是1:1000。
2、由SL Policy Network+Rollout Policy生成RL Policy Network。RL使用的是Upper Confidence Bound(信心上界算法)。UCB随机选择多个a,通过终局胜负判断多个a的优劣p(a|s)。
3、由RL Policy Network生成Value Network。前者的节点由条件概率p(a|s)构成,而后者是v~(s)构成。v~(s) 不同于 v(s),是其近似。训练Value Network使用RL Policy Network会导致过度拟合,所以引入了Self Play。共选取【3000万盘自我对弈的盘面,确保每一个盘面不是出自同一局自我对弈】。
1——3示意图如上
4、MCTS将Rollout Policy+SL Policy Network+RL Policy Network+Value Network整合。通过搜索对a1、a2、……an各选点做胜率判断,选择算数平均值最高的选点。
多网络协作下棋力的对比,上图中。
小结:
1、3000万盘自我对局是正确的,高手们没有错;我还纳闷刘知青怎么会错,他可是搞了十多年计算机围棋的专业人员。3000万盘self play的positions,与Human expert的3000万个positons,在数量上正好重合。
2、具体流程还是不明了。一是我不懂贝叶斯方法,二是论文写得模糊。
3、今早想起来田渊栋强调过【这就是为什么是三千万局,而不是三千万个盘面】。刚才又看了一遍他知乎的专栏,当时我没理解他话的意思,结果第一感是自己错了。浅尝辄止呀,这个以后需要注意。
一瞬无尽
发表于 2017-5-29 20:12:09
在这里排队?
荷子
发表于 2017-5-29 22:23:48
跟着甜党红包链接来的
冰蚁
发表于 2017-5-29 22:53:27
loy_20002000 发表于 2017-5-29 03:54
DeepMind《Mastering the game of Go with deep neural networks and tree search 》阅读心得。
1、DM使 ...
厘清就好了。现在等狗年底公布核心算法。
loy_20002000
发表于 2017-5-29 23:18:18
冰蚁 发表于 2017-5-29 22:53
厘清就好了。现在等狗年底公布核心算法。
这个值得期待。2.xx可以让对李世石的版本3子,与人类的实战也是碾压,不是亲眼见到很难相信这是事实。