AI 能够像人类一样畅玩竞技游戏已经不是什么大新闻了,但想让它玩得比绝大部分人都要好,可不是一件容易的事。
开发出 AlphaGo 的人工智能研究机构 DeepMind 就曾做过数次实验,让 AI 连续训练数十天后达到职业玩家的水平,并在《雷神之锤 3》、《Dota 2》和《星际争霸 2》等这类竞技游戏中和真人展开对抗。
今年 1 月份,DeepMind 对外宣布其游戏类人工智能 AlphaStar 在《星际争霸 2》游戏战胜了两名人类职业玩家,录像显示这两个人都以 0-5 输给了 AlphaStar。
不过,部分人认为这场对抗对人类并不公平,因为录像中他们发现,AlphaStar 做出了很多超出极限的微操作,这意味着它能在同一时间维度内下达更多复杂指令。
想要让职业玩家们输得服气,DeepMind 在过去半年里做出了更多改进。
▲ 图片来自:Nature
本周三,DeepMind 团队又一次在《自然》杂志上发表了有关 AlphaStar 的新研究进展。他们表示,这位并没有实体的人工智能选手已经达到了天梯对战的「宗师」级别。
该段位在《星际争霸 2》游戏中有着特殊含义,只有排名在前 200 位的玩家才能获得这个称号,同时也意味着 AlphaStar 超过了全球 99.8% 的人类选手。
DeepMind 会选择《星际争霸 2》作为测试 AI 的游戏,和它的即时战略玩法有不少关系。该游戏中会分为人族、神族和虫族三个派系,每个派系都有多个可供操作的建筑、兵种,每局游戏也都需要经历资源采集、科技发展和实时战斗等几个流程。
所以,和之前 AlphaGo 之前挑战过的棋类项目不同,AlphaStar 很难在《星际争霸 2》中对另一方玩家的进攻手段做出预测,它自己也需要更多战术、战略层面的考虑,以及更高效的实时反馈能力。
在这次新研究中,DeepMind 除了继续沿用之前的模仿学习人类玩家的策略手段外,还加入了一项名为「联盟」的新训练方式。
简单来说,DeepMind 引入了多个虚拟的「陪练选手」,AlphaStar 会和它们逐一展开对抗,但「陪练选手」的目的是尽可能地找出 AlphaStar 在对战中所暴露出来的「缺陷」,这就迫使双方都需要采取比以前更多的策略手段,从而变得比之前更强。
同时,为了对应游戏中人族、神族和虫族三个派系,开发团队还分别训练了三个独立的神经网络,每一个都会根据种族特性学习独特的战术风格。
训练完毕后,DeepMind 才将 AlphaStar 投放至《星际争霸 2》的天梯对战中。每次对战开始前,AlphaStar 并不会告知对方的身份,以避免它的人类对手采取某些针对性的策略,只有等到比赛结束后才会说出来。
「AlphaStar 只需要像一个正常人来玩游戏,而不是作为一名超人。」DeepMind 团队的一员奥里奥尔·维尼亚尔斯(Oriol Vinyals)接受 《卫报》采访时说道。
同时,为了不再出现和上次比赛一样的「开挂」争议,这次 DeepMind 还对 AlphaStar 做了不少限制。
比如说,AlphaStar 会和人类选手拥有一样的视野,只能看到显示屏内的信息,而不会掌握整个地图的动向;同时它在操作上也不会超过人类玩家鼠标点按次数的极限值。
然而,哪怕是在这样的条件下,AlphaStar 仍然战胜了绝大部分《星际争霸 2》玩家。按照 DeepMind 的说法,目前依旧有 0.2% 左右的人有机会在对战中战胜 AlphaStar,大概是 50-100 人左右。
▲ 图片来自:Inverse
「比起击败 99.8% 的人,我们更看重的是那 0.2% 的玩家,他们让我们看到了 AlphaStar 存在的限制,这会激发出新的研究成果,并推动我们在现实世界其它领域上的研究。」奥里奥尔说道。
DeepMind 还在博客文章中表示,团队的最终目标仍然是打造出「通用人工智能」,即一个能根据不同状况自动调整对策的人工智能系统。他们也承诺,不会将 AlphaStar 引入到任何一个军事项目中。
题图来源:Eurogamer