星际2基本知识，星际2最好的研究

来源：头条浏览：0 2022-12-27 19:52:01

机器之心报道参与：李泽南、杜伟

星际2基本知识，星际2最好的研究

今年1月，谷歌旗下的人工智能科技公司DeepMind的《星际争霸2》人工智能AlphaStar与人类职业玩家进行了现场对决，但遗憾的是失败了。 7个多月过去了，AI在《星际旅行》上有什么进展？现在能像DeepMind主张的那样达到职业水平吗？

提高由于人工智能水平，DeepMind和暴雪在战网天空步骤中释放了阿尔法：玩家只要申请并通过就可以与这款最强的AI进行在线对决。而且，现在阿尔法可以使用所有三个种族。

但是，与围棋人工智能Alpha go所走过的轨迹完全不同，在几个月的发展之后，人工智能的游戏似乎完全没有进步。反而，各种各样的人类玩家获得了经验。他们找到了“玩耍”AI的方法。

我找到了阿尔法星最近的人机大战的视频中的三个：

在两次神族对战虫族的比赛中，阿尔法( p )自始至终都无力面对目前世界排名50位的bly ( z )。

首先第一局：与此前与阿尔法对战的LiquidTLO相比，虫族选手Bly年长——年，是从魔兽3转型而来的星际争霸2选手，已经超过30年了。但是，在两场比赛中人类玩家使用了简单的单矿Rush战术取得了几乎同样的胜利。 AI最近的发展似乎仅限于“学会了通过聊天频道表情”。

阿尔法的实力怎么样？与世界排名第三的尼布(神族)对战时阿尔法的活跃表现。

这样，AI在使用人族时，虽然学会了使用妖女和死神骚扰敌人，但正面攻击不利，如果被尼布偷了房子，整场比赛13分钟就输了。

这可能是目前最高端的“人机大战”。这是AlphaStar vs Serral。

DeepMind当然是在目前的星际2中寻找最强的玩家，芬兰虫族选手Serral进行了人机对决。在这场16分钟的比赛中，Serral和AI进行了正面的硬仗。但是，如果在这场比赛中任何一方出现短板的话，最终好像会输。有评论说，Serral看起来比阿尔法更像AI。

引用一位网友对比赛的深刻解读：

更糟糕的是，人类玩家似乎找到了对抗阿尔法的方法。但现在，DeepMind频繁更改自己的账户，追踪起来更加困难。从比赛中可以看出，代理有几个特点：

1 .虽然在对抗人类玩家方面有了很大的飞跃，但是没能真正理解游戏的概念

2 .未能及时应对许多常见游戏策略

3 .游戏脚本在比赛中无法配合对手调整，始终坚持设定

4 .非人族智能体在宏观和微观行为上表现出熟练的技能，但建筑物错位存在困难，经常将己方单位封闭在基地内；

5 .人族游戏中成绩最差，虫族成绩最好(有争议)；

6 .虫族游戏中策略最单调。

DeepMind 《星际争霸 2》 AI对人类玩家的发展历程

星际争霸2是人类游戏史上最困难、最成功的即时战略游戏，这一系列游戏的历史已经超过了20年。星际旅行之所以不会衰落，部分原因在于它丰富的多层次游戏机制，对于人工智能研究来说，这是一个非常接近现实世界的虚拟环境。

星际旅行有平衡的游戏规则，和很多信息和需要控制的变量。此外，一场比赛的时间通常为几分钟到一小时，这意味着游戏中较早执行的操作可能在很长一段时间内没有效果。最后，由于战争之雾的存在，地图只对玩家显示一部分。这意味着代理人如果不把记忆和计划结合起来就不会成功。

2017年，DeepMind宣布开始研究玩即时战略游戏《星际争霸 2》的人工智能。

2018年12月10日，阿尔法明星击败了DeepMind公司的最强玩家Dani Yogatama；到了12月12日，阿尔法星可以以5:0击败职业玩家TLO。 ( TLO是虫族玩家，但解说员们认为他在游戏中的成绩大约有5000分的水平)。又过了一个星期，12月19日，阿尔法星也同样以5:0的比分击败了职业玩家MaNa。

阿尔法是怎么学会打《星际争霸 2》的呢？

阿尔法星的行为是通过从原始数据接口(单位列表及其特性)接收输入数据，输出构成游戏内行为的指令序列的深度神经网络生成的。具体来说，该神经网络在单元中使用transformer作为躯干，结合了具有深度LSTM核、pointer网络的自动回归策略head、中心价值基线。

阿尔法也使用了新的多智能体学习算法。神经网络最初通过暴雪发布的匿名人类游戏视频监督学习进行训练。由此，阿尔法可以通过模仿学习天步玩家的基础微操作和宏观操作策略。

阿尔法联盟。最初通过人类玩家的游戏播放视频进行训练，然后与其他对手进行对抗训练。每次迭代时匹配新对手，冻结原对手，匹配对手的概率和超参数决定了每个主体采用的学习目标函数，在保持多样性的同时提高难度。代理的参数通过强化学习进行更新。最终代理是从联盟的纳什分布中采样的。没有交换。

随着自我游戏的进行，阿尔法发展出了越来越成熟的战术。 DeepMind表示，这个过程与人类玩家发现战术的过程相似。新战术不断地打败旧战术。

DeepMind AlphaStar的现场首演败给了人类玩家MaNa

今年1月，DeepMind的阿尔法终于出现在世界面前。但是，在与人类职业玩家、原WCS亚军MaNa的现场比赛中，人工智能被人类“狡猾”的战术所迷惑，遗憾地失败了。

在展示了几个AI实力的Replay楼层后，阿尔法的现场比赛输了。对于刚从电脑前站起来的MaNa，DeepMind的两位科学家David Sliver和Oriol Vinyals只露出了尴尬的笑容。

这场比赛暴露了AI的缺陷。除了特定的分兵战术外，智能体没有形成灵活兵力分配的概念。 MaNa采取的策略是，棱镜带着两不朽继续在AI的基地骚扰，Alphaster回到防卫后马上飞走，AI兵力出去后马上继续骚扰。因此，面对MaNa灵活的出兵策略，阿尔法只能被动应战，因此无法形成对MaNa的有效攻击，导致了最终的败北。

毫无疑问，作为人工智能前沿技术研究机构的DeepMind的AlphaGo和AlphaFold等项目不仅引发了全球对人工智能技术的关注热潮，也为新技术在一些领域的落地找到了方向。但在星际2中，人工智能遇到了前所未有的挑战，不断烧钱的DeepMind最终能找到解决方案吗？