胜率99.8%,AlphaStar碾压星际争霸2人类玩家!《自然》刊发论文详解
2019/11/1 7:56:44 学术经纬

    

     药明康德AI/报道

     预告:2019暴雪嘉年华Blizzcon(美国电子游戏品牌暴雪娱乐每年举办的年度盛事)将于北京时间11月2日凌晨2点开幕,今年暴雪嘉年华依然在暴雪总部美国加州安纳海姆的会议中心举行,庆祝《魔兽争霸》诞生25周年、宣布《守望先锋2》和《暗黑破坏神4》等都是不容错过的嘉年华看点。

     其实关于游戏,每个人都拥有一段独特的时代记忆。对于80后来说,除红白机魂斗罗顶蘑菇以外,就是他们长大后接触的RTS类型游戏(即时战略游戏,代表作有星际争霸和红色警戒);对于90后一代来说,“为了联盟,为了部落,为了艾泽拉斯”,魔兽世界是网游界绝对的“泰斗”;那么对于00后一代来说,手机游戏崛起,“吃鸡联盟农药”便形成了新时代的游戏三巨头。不过暴露年龄的事儿,不是本篇的重点。 《自然》(Nature)最新研究结果表明,在没有任何游戏限制的情况下,AI可以在最高水平的《星际争霸2》中挑战人族、神族、虫族的阵营,与人类相互对抗胜率达99.8%。该研究由Oriol Vinyals先生领导进行。这一结果的发表,是否能唤起你对游戏和时代的记忆呢?

    

     一路进阶,方显风采 最新发布的论文中,该人工智能程序排名进入即时战略游戏《星际争霸2》人类玩家中前0.15%之列,发布后获得“宗师”的称号。这也就意味着,AlphaStar这款AI算法代表了机器学习(Machine Learning)的一大重要成就。 《星际争霸2》是一款以科幻为主题的多人即时战略游戏,三种特征和能力截然不同的种族:神族、人族、虫族,玩家在游戏中通过控制其中一个种族,互相对抗。游戏的目标是通过运营资源、制造军队,从而摧毁对方所有的单位。人类玩家在进行游戏时,每分钟将近需要完成300个战术操作。 AlphaStar是DeepMind联合暴雪开发的游戏AI,它专注于《星际争霸2》该游戏。它登录游戏平台是以相对公正透明的方式进行的。在进入《星际争霸2》欧洲服务器之前,研究团队一定程度上限制了AI的反应力并“掩盖”了AlphaStar的真实身份,为了保证能更公平地与人类进行对抗。

    

     ▲这款AI的训练过程(图片来源:参考资料[3]) 过去DeepMind曾经打造出让世界“刮目相看”的AlphaGo,在棋类游戏AI中拔得头筹。由于星际争霸的战略复杂性以及节奏快速等特征,此次针对该游戏的人工智能模型也可以说是DeppMind致力于追求实现通用人工智能(Artificial General Intelligence, AGI)的基准。

     多领域“开花”的DeepMind公司是什么时候开始游戏AI的研究的呢?AlphaStar又经历了怎样的进阶之路呢? 2017 年,DeepMind 宣布开始研究《星际争霸2》的人工智能;

     2018 年12月10日,AlphaStar 击败DeepMind公司里的最强玩家 Dani Yogatama,能力进阶提升;

     2018年12月12日,AlphaStar以 5:0 的比分击败职业玩家 TLO (TLO 是虫族玩家,不过游戏解说们认为他在游戏中的表现已经有将近5000分水平);

     2018年12月19日,AlphaStar在与人类玩家的对抗中再次以5:0比分斩获胜利;

     2019年1月,AlphaStar以总分10:1击溃人类顶尖玩家。此前,虽然游戏规则进行了简化、AlphaStar也经历了与人类无数次的对抗,人工编制特定动作序列或依赖超人类的功能(如每分钟执行上千万次动作),但AI也无法体现其与人类顶级玩家抗衡的水准;

     2019年7月,星际争霸官方宣布,AlphaStar登录游戏平台战网,以匿名的方式进行天梯匹配;进化后的AlphaStar神族、人族、虫族都可以玩,还解锁了许多地图。

     挑战不完美博弈类游戏,“宗师”诞生 在这项研究中,Oriol Vinyals先生及同事向大家完美展现了基于人口理论的多主体增强学习算法。若干深度神经网络主体相互竞争,进而生成大量的持续适应性策略和对策。之后,AlphaStar自我优化、不断精进技艺,与人类玩家PK,无论承担《星际争霸2》的哪一个种族的责任,它的水平都达到了“宗师”级。这也标志着人工智能首次在没有简化游戏的情况下,在专业电子竞技中达到了顶尖人类玩家的水平

    

     ▲AI很快打到了“宗师”级(图片来源:参考资料[3])

     游戏中各派系“士兵”可以比作棋盘游戏中的棋子,但最根本的区别是,该游戏中的智能体能够以非有序性、回合制地进行同步移动。我们熟知的棋类AI中,棋子的合法步数有限,而AlphaStar则有10^26种选择。 作为星际争霸的玩家,在游戏需要考虑宏观规划和微观操作,游戏的时间可以长达一个多小时,换言之AI的策略需要有长期规划的能力。此外,这款游戏还是一个不完美信息博弈类的游戏;玩家应该知道,在初始的地图上弥漫着一层“战争迷雾”,这样对方在信息不可见的情况下,玩家需要不断试探对手的位置,并作出相应的应对操作。 AlphaStar的游戏行为基于深度神经网络(Deep Neural Network)接收由暴雪娱乐提供的游戏内部数据,然后输出一系列指令作为AI的学习序列。AI学习人类玩家的对战模式,进而通过多智能体(multi-agent)强化学习算法来进一步提高性能。

    

     ▲在实际有效操作类似于人类选手(AI为蓝色,人类为红色)的情况下,AI的胜率堪称恐怖(图片来源:参考资料[3])

     由于AlphaStar的神经网络最初由监督学习(Supervised Learning)下训练生成,能模仿真实现游戏中的微观操作和宏观策略,所以由此研究团队创建了一个可以让 AI 之间自我学习的联赛机制。多主体强化学习算法,可以使AI 可以在保持足够的多样性的前提下,能够不断地变得强大。 当然研究团队对AlphaStar的研发也是动态化的。随着联赛发展、新的竞争对手不断产生,AI的新型对抗策略也随之出现,从而能够击败以前的策略。由于《星际争霸2》中不同的策略和种族有一些相生相克的关系,这样的训练模式便可以让人工智能模型朝着“综合型”全能选手的方向进行发展。 未来游戏AI还将会有更多的选择,它将作为人工智能的一种延伸方式来进行更多拓展。随着AI的不断发展,其在游戏领域的应用也将更加的广泛。据the Verge报道,对于现实世界来说,像AlphaStar这样的AI系统最有可能用于机器人技术中,当然它特定的一些技术也同样能应用于无人车技术。我们期待游戏AI能在挑战中不断突破,在突破中不断求变,从而帮助人类更出色地完成各种复杂任务。

     本文题图:Sergey Galyonkin from Kyiv, Ukraine [CC BY-SA 2.0 (https://creativecommons.org/licenses/by-sa/2.0)]

     新闻来源:Nature

     参考资料(可上下滑动查看)

     [1]DeepMind’s StarCraft 2 AI is now better than 99.8 percent of all human playersRetrieved Oct 30, 2019 from https://www.theverge.com/2019/10/30/20939147/deepmind-google-alphastar-starcraft-2-research-grandmaster-level[2]AlphaStar: Mastering the Real-Time Strategy Game StarCraft II Retrieved Oct 31,2019 fromhttps://deepmind.com/blog/article/alphastar-mastering-real-time-strategy-game-starcraft-ii[3] Google AI beats experienced human playersat real-time strategy game StarCraft II Retrieved Oct 31, 2019 fromhttps://www.nature.com/articles/d41586-019-03298-6[4]Vinyals, O. et al. Nature http://doi.org/10.1038/s41586-019-1724-z (2019).

     版权说明:欢迎个人转发至朋友圈,谢绝媒体或机构未经授权以任何形式转载至其他平台。转载授权请在「药明康德AI」微信公众号后台回复“转载”,获取转载须知。

    

    

     点“在看”,分享AI健康新动态

    http://weixin.100md.com
返回 学术经纬 返回首页 返回百拇医药