前度阿狗今又来

loy_20002000 · 发表于 2017-5-28 23:18:40

丁丁咚发表于 2017-5-28 22:24
和柯洁下棋的新版本AlphaGo跟以前的alphago已经大不相同，并非只是靠庞大的计算。实际上，新版本的AlphaG ...

1、机器没有放弃人类棋谱，只是量少了很多。目前尚不清楚少了许多究竟是多少。这CEO是一点不懂吧，3000万盘是自我对战局，不是人类棋谱。人类职业的棋谱从唐朝那个时候算也不可能有这么多。这个问题记者问过哈斯必死，不清楚是同步翻译的问题还是怎么说，哈撒必死说他们没有放弃过人类棋谱。

2、蒙特卡洛算法是唯一可以解决围棋复杂度的方法，不可能放弃的。2.0或1.xx的计算数据是可以直接使用的，最凑巧的局面是某个盘面Go下出过很多次，并且有一个胜率最高的招法，这样连搜索都不用。就算真的是单机版，它内部的博弈树也是分布版试出来的，所以还是分布版的功劳。Google的牛掰之处是其他公司投入硬件堆不出Go的水平，硬件再其次，算法可能有大突破。之前对李世石的版本就是DM发明了多个网络共同决策的机制，其中最后搞出来的走子网络（英文我忘了）不借助其他网络就有业余6d的水平。

等着DM发布论文了，不清楚核心的东西是否公开。搞不好像上次《Nature》那篇，讲个轮廓具体的东西就不提了。1.xx赢了李世石后逼得Facebook把黑暗丛林公开了。不少人都猜测，DM藏私货，有些核心的可能压根没讲，不然解释不了其他公司复制它的思路战绩普遍糟糕。

清凉山 · 发表于 2017-5-28 23:23:59

大时代的看客发表于 2017-5-28 22:57
咸的甜的都吃

是你把粽子抢光的？

大时代的看客 · 发表于 2017-5-28 23:47:42

清凉山发表于 2017-5-28 23:23
是你把粽子抢光的？

最终也没吃上甜的

冰蚁 · 发表于 2017-5-28 23:52:06

本帖最后由冰蚁于 2017-5-28 11:30 编辑

loy_20002000 发表于 2017-5-28 10:18
1、机器没有放弃人类棋谱，只是量少了很多。目前尚不清楚少了许多究竟是多少。这CEO是一点不懂吧，3000万 ...

3000万不是自我对局，而是人类棋局。但是是 3000 万 moves，3000万手棋。200手一盘棋的话，15万盘棋。

ps, 刚查了一下，哈斯必死说了给 alpha 1.0 大约喂了10万盘棋。

tenba · 发表于 2017-5-29 00:22:38

咸的甜的都吃

loy_20002000 · 发表于 2017-5-29 00:57:29

本帖最后由 loy_20002000 于 2017-5-29 14:33 编辑

冰蚁发表于 2017-5-28 23:52
3000万不是自我对局，而是人类棋局。但是是 3000 万 moves，3000万手棋。200手一盘棋的话，15万盘棋。

p ...

看见你这个回复我差点哭了。国内的报道坑人呐，职业解说坑人呐，职业棋手坑人呐，伪专家坑人呐。刚查了哈撒必死的博客，真是你说的这个。（这里删了一段，原始文字是错误的）

我靠，盘、局和move、position的意思简直是天上地下。我已经迷糊了，现代就去看原始论文。

————————————————————

原始论文：We trained a 13 layer policy network, which we call the SL policy network, from 30 million positions from the KGS Go Server.

哈撒必死博客：We trained the neural networks on 30 million moves from games played by human experts,……

好吧，我在拿头撞墙。

冰蚁 · 发表于 2017-5-29 01:14:33

本帖最后由冰蚁于 2017-5-28 12:17 编辑

loy_20002000 发表于 2017-5-28 11:57
看见你这个回复我差点哭了。国内的报道坑人呐，职业解说坑人呐，职业棋手坑人呐，伪专家坑人呐。刚查了哈 ...

嘿嘿，我现在看到一个什么 statement，都要先去看看原始出处。不然所有的判断的基石都错了。

PS，哈斯必死说用了约10万盘进行了训练。deep learning 阶段是自我对局。

loy_20002000 · 发表于 2017-5-29 01:22:36

冰蚁发表于 2017-5-29 01:14
嘿嘿，我现在看到一个什么 statement，都要先去看看原始出处。不然所有的判断的基石都错了。

我真没想到那么多专家都是错的。职业棋手、围棋AI开发者、职业解说、专业媒体、专家解读（田渊栋除外），特么都是错的怎么可能？！这让我想起08年查XP的API，百度给出的原型统统是错误的。一字之差呀，意思差太多了。让我痛快地哭一场吧。

还在看论文，明天更新下阅读心得。

喜欢就捧捧场 · 发表于 2017-5-29 02:07:26

为什么要排队为什么？

燕庐敕 · 发表于 2017-5-29 06:24:29

喜欢就捧捧场发表于 2017-5-29 02:07
为什么要排队为什么？

排了队，大家可以去红包中心领豆豆发的红包。

吴承骏 · 发表于 2017-5-29 07:13:29

排队拿红包

dashanji · 发表于 2017-5-29 07:57:08

我还是吃个甜的人

独角兽 · 发表于 2017-5-29 10:40:54

吃粽子的

随便 · 发表于 2017-5-29 10:57:02

甜的

云淡风轻 · 发表于 2017-5-29 11:11:23

loy_20002000 · 发表于 2017-5-29 16:54:43

冰蚁发表于 2017-5-29 01:14
嘿嘿，我现在看到一个什么 statement，都要先去看看原始出处。不然所有的判断的基石都错了。

DeepMind《Mastering the game of Go with deep neural networks and tree search 》阅读心得。

1、DM使用了KGS的16万局6d至9d棋局，共选取3000万个盘面构建SL Policy Network与Rollout Policy。盘面由（a，s）构成。SL Policy Network精确度高，Rollout Policy速度快，两者速度对比大致是1:1000。

2、由SL Policy Network+Rollout Policy生成RL Policy Network。RL使用的是Upper Confidence Bound（信心上界算法）。UCB随机选择多个a，通过终局胜负判断多个a的优劣p(a|s)。

3、由RL Policy Network生成Value Network。前者的节点由条件概率p(a|s)构成，而后者是v~(s)构成。v~(s) 不同于 v(s)，是其近似。训练Value Network使用RL Policy Network会导致过度拟合，所以引入了Self Play。共选取【3000万盘自我对弈的盘面，确保每一个盘面不是出自同一局自我对弈】。

1——3示意图如上

4、MCTS将Rollout Policy+SL Policy Network+RL Policy Network+Value Network整合。通过搜索对a1、a2、……an各选点做胜率判断，选择算数平均值最高的选点。

多网络协作下棋力的对比，上图中。

小结：

1、3000万盘自我对局是正确的，高手们没有错；我还纳闷刘知青怎么会错，他可是搞了十多年计算机围棋的专业人员。3000万盘self play的positions，与Human expert的3000万个positons，在数量上正好重合。

2、具体流程还是不明了。一是我不懂贝叶斯方法，二是论文写得模糊。

3、今早想起来田渊栋强调过【这就是为什么是三千万局，而不是三千万个盘面】。刚才又看了一遍他知乎的专栏，当时我没理解他话的意思，结果第一感是自己错了。浅尝辄止呀，这个以后需要注意。

一瞬无尽 · 发表于 2017-5-29 20:12:09

在这里排队？

荷子 · 发表于 2017-5-29 22:23:48

跟着甜党红包链接来的

冰蚁 · 发表于 2017-5-29 22:53:27

loy_20002000 发表于 2017-5-29 03:54
DeepMind《Mastering the game of Go with deep neural networks and tree search 》阅读心得。

1、DM使 ...

厘清就好了。现在等狗年底公布核心算法。

loy_20002000 · 发表于 2017-5-29 23:18:18

冰蚁发表于 2017-5-29 22:53
厘清就好了。现在等狗年底公布核心算法。

这个值得期待。2.xx可以让对李世石的版本3子，与人类的实战也是碾压，不是亲眼见到很难相信这是事实。

		自动登录	找回密码
密码			注册

前度阿狗今又来

点评

点评

点评

点评