AlphaGo出彩后,DeepMind团队后续又发展了两个产品,AlphaGoZero,AlphaZero,三个产品我们简称为阿狗,阿狗C罗和阿C罗,
阿狗是依托日本围棋协会积累的2000万棋局利用深度学习算法和蒙特卡罗评估算法实现了对人类的超越。深度学习算法根据2000万棋局的学习保证下一手的下法是高质量的,蒙特卡罗树状评估在围棋规则时间内搜索足够深度保证全局最优,这完全碾压了人类的智能。
阿狗C罗是在阿狗基础上用强化学习算法,找出超人类的围棋算法。所谓的左右互博,是指阿狗C罗对阵阿狗,阿狗C罗在阿狗下一手后,随机下另一手,然后评估这手的价值,这样在所有着法中找到最佳下法,这种试探方法叫强化学习,只要计算机足够强,又没有围棋时间限制,肯定能找到更好的棋路,所以阿狗C罗三天后战胜阿狗(胜率大于50%),42天后碾压阿狗(胜率在90%以上)。这不是不依赖棋谱,这是一个武林聪明小子整天缠着天下第一高手试剑法,最后成为天下第一高手的故事。没有阿狗,这个吃了2000万棋谱的第一高手,哪来的阿狗C罗。
DeepMind后来依照上述套路,又培养了阿C罗,不带狗了,拓展了国际象棋和日本将棋。当然看了阿狗的风采,国际象棋和日本将棋人类高手就不再出马,阿C罗战胜了国际象棋和日本将棋的网络冠军。
阿狗故事截止在2016年,后面发展没有深究,
有时间再谈谈,深度学习、大模型及逻辑思维