Science述评|谷歌AlphaZero横扫棋类AI,人工智能研究中重要篇章的“终结”
2018/12/10 17:59:32兴军亮,孙广中 中国科学院自动化研究所

    

    CASIA点击蓝字关注我们↑↑↑↑

    

     评述论文:

     A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play (Science 7 Dec 2018: Vol 362, Issue 6419)

     Mastering board games: A single algorithm can learn to play three hard board games (Science 7 December 2018: Vol 362, Issue 6419)

     计算机博弈的研究历史一直伴随着计算机科学和人工智能(AI)的发展历史。计算机科学领域的先驱,如查尔斯·巴贝奇、阿兰·图灵、克劳德·香农、约翰·冯·诺依曼等,都曾设计或发明了相关的硬件、算法或者理论来分析和解决国际象棋游戏。游戏也一直被用来作为评估人工智能发展水平的基准,其中原因不仅在于游戏能够非常方便地产生大量数据为AI算法提供一个理想学习环境,而且在于游戏博弈所要解决的如决策空间大、信息不完全、对手不确定等问题非常具有一般性,是人工智能需要突破的重点和难点。

     传统游戏博弈AI程序依据人类专家和专业选手人工设计调优的特征和权重,同时利用一些巧妙的启发式信息和领域性知识引导游戏博弈树的搜索过程。借助于计算机强大的计算能力,相关研究在很多棋类游戏中取得了一些里程碑式的进展,这其中的代表工作就是1997年IBM公司的"深蓝"(Deep Blue)计算机战胜了国际象棋世界冠军。

     近年来,以机器学习技术驱动的游戏博弈AI取得了突破性进展。2016年谷歌旗下DeepMind公司提出的AlphaGo程序首次战胜了人类围棋世界冠军[1],2017年推出的改进版本AlphaGo Zero则完全通过自我博弈和强化学习进一步提升了围棋博弈水平[2],引发了广泛关注。但是,对于AlphaGo系列技术能否迁移并解决其他博弈问题,不少研究者仍持怀疑态度。

     在本期Science杂志中,头版报道了谷歌DeepMind团队的阿尔法程序最新版:AlphaZero。值得注意的是,这个工作的最初版本其实在2017年12月就已经公开在科学文献网上预印本系统arXiv上,时至今日在Science发表,期间经历了严格的评审过程。

     作为AlphaGo Zero迈向通用化的改进版本,AlphaZero同样不依赖人工特征设计,在给定游戏规则前提下,利用深度强化学习通过自我博弈完全从零开始学习。在自我博弈学习过程中,结合蒙特卡洛树搜索策略,同步更新深度神经网络的参数。学习的目标是最小化网络估计的比赛结果和实际结果之间的误差,同时最大化网络估计的下一步动作分布与蒙特卡洛树搜索给出的可能性分布之间的相似性。借助于网络学习得到的对比赛结果和下一步动作分布的精准估计,测试阶段能够极大地减少了游戏过程中需要搜索状态的深度和广度,进而有效提升算法博弈能力。

     AlphaZero通过自我博弈强化学习,4小时打败了国际象棋的最强程序Stockfish,2小时打败了日本将棋的最强程序Elmo,8小时就打败了与李世石对战的AlphaGo v18。图1给出了AlphaZero与国际象棋、日本将棋和围棋中的顶级AI程序进行巡回赛的比赛结果。可以看出,在三种不同类型的棋类游戏中,AlphaZero都以明显性的优势获胜。

    

     图1. AlphaZero与国际象棋、日本将棋和围棋中的顶级AI程序进行巡回赛的比赛结果。上面的胜率指示横条中AlphaZero执白,下面的胜率指示横条AlphaZero执黑。字母W、D和L分别代表AlphaZero获胜(Win)、打平(Draw)和落败(Loss)

     相对于前一版本的程序AlphaGo Zero,AlphaZero程序提出的主要目标是验证DeepMind团队阿尔法系列技术的推广能力。在技术层面,AlphaZero变化不大,只做了几点小的改进,主要包括:1)网络训练时预测胜率增加平局的可能;2)为考虑通用性,网络训练过程中样本增强不再进行旋转和镜像变化;3)网络训练过程中只保存当前训练的模型而不是像之前保存历史最好的模型;4)在搜索过程中不再使用贝叶斯优化,而采用了一套统一的超参数用于不同的游戏。整体上AlphaZero程序还是沿用了深度强化学习加蒙特卡洛树搜索这一常见框架,该框架对于棋类游戏具有一定的通用性,代表了这一轮人工智能研究热潮中的典型研究成果。对于更为复杂的一些计算机游戏,比如多人扑克游戏,实时策略游戏等,AlphaZero技术目前还无法直接适用。这些更为复杂的计算机游戏的博弈AI研究也将成为人工智能研究的下一个突破点。

     针对这一最新成果,来自IBM研究院的杰出研究员Murray Campbell博士,曾经IBM"深蓝"计算机系统构建的最重要的两个贡献者之一,在本期科学杂志对上述研究成果进行评论。该评论将人工智能棋类游戏研究中世界瞩目的两个里程碑式成果链接在一起,也让读者更加直观的感受到20多年间技术的巨大发展。

     Murray Campbell博士指出,相比此前的AlphaGo和AlphaGo Zero,本期介绍的AlphaZero更加具有一般性,对多种棋类游戏(包括国际象棋、日本将棋和围棋),仅仅根据规则,通过自行训练在较短时间内达到超越人类的棋艺水平。AlphaZero通过4小时训练就超越了之前最出色的国际象棋程序Stockfish也正是反映其突出的能力。图2给出了AlphaZero与Stockfish对局的一个场景,人类可以从中欣赏程序"棋手"的思考过程。

    

     图2. AlphaZero(白方)对局Stockfish(黑方)的一局棋中,白方考虑可能的走棋方式。在1000次走棋序列模拟后,红色的三个走法被放弃,在100000次模拟后,AlphaZero选择放弃了橙色走法,采用了蓝色走法。

     在评论的最后,Murray Campbell指出,虽然AlphaZero还有一些改进的空间,但AlphaZero依然是"终结"了棋类游戏这一在人工智能研究中持续了几十年的篇章("closed a multidecade chapter in AI research")。在本期科学杂志正式出版的前夕,2018年12月2日,DeepMind对外宣布了他们最新的突破性工作:利用人工智能技术进行科学发现的AlphaFold。AlphaFold在蛋白质3D结构预测上有了超越人类专家的表现。展望未来,一个人工智能的新篇章正在开始书写。

     参考文献:

     [1]

     David Silver, Aja Huang, Chris J. Maddison, Arthur Guez, Laurent Sifre, George van den Driessche, Julian Schrittwieser, Ioannis Antonoglou, Vedavyas Panneershelvam, Marc Lanctot, Sander Dieleman, Dominik Grewe, John Nham, Nal Kalchbrenner, Ilya Sutskever, Timothy P. Lillicrap, Madeleine Leach, Koray Kavukcuoglu, Thore Graepel and Demis Hassabis. Mastering the game of Go with deep neural networks and tree search. Nature, vol. 529, no. 7587, pp. 484-489, 2016.

     [2]

     David Silver, Julian Schrittwieser, Karen Simonyan, Ioannis Antonoglou, Aja Huang, Arthur Guez, Thomas Hubert, Lucas Baker, Matthew Lai, Adrian Bolton, Yutian Chen, Timothy Lillicrap, Fan Hui, Laurent Sifre, George van den Driessche, Thore Graepel and Demis Hassabis. Mastering the game of Go without human knowledge. Nature, vol. 550, pp. 354-359, 2017.

    

     Four Color Theorem:Four Color Theorem是指,如果将平面分离成任意连续区域,得到分区块的地图,则在对地图着色的时候最多需要4种颜色就足以区分各个区域,使得没有两个相邻区域有相同的颜色。

     AI爱新词

     更多精彩内容,欢迎关注

     中科院自动化所官方网站:

     http://www.ia.ac.cn

     欢迎后台留言、推荐您感兴趣的话题、内容或资讯,小编恭候您的意见和建议!如需转载或投稿,请后台私信。

     来源:ScienceAAAS

     作者:兴军亮(中科院青促会、中科院自动化所)

     孙广中(中科院青促会、中国科学技术大学)

     排版:孙海伦

     编辑:鲁宁

    

    长按关注解锁更多智能之美

    

     中科院自动化研究所

     微信:casia1956

     欢迎搭乘自动化所AI旗舰号!

    http://weixin.100md.com
返回 中国科学院自动化研究所 返回首页 返回百拇医药