机器之心报道参与:李泽南、杜伟
今年1月,谷歌旗下的人工智能科技公司DeepMind的《星际争霸2》人工智能AlphaStar与人类职业玩家进行了现场对决,但遗憾的是失败了。 7个多月过去了,AI在《星际旅行》上有什么进展? 现在能像DeepMind主张的那样达到职业水平吗?
提高由于人工智能水平,DeepMind和暴雪在战网天空步骤中释放了阿尔法:玩家只要申请并通过就可以与这款最强的AI进行在线对决。 而且,现在阿尔法可以使用所有三个种族。
但是,与围棋人工智能Alpha go所走过的轨迹完全不同,在几个月的发展之后,人工智能的游戏似乎完全没有进步。 反而,各种各样的人类玩家获得了经验。 他们找到了“玩耍”AI的方法。
我找到了阿尔法星最近的人机大战的视频中的三个:
在两次神族对战虫族的比赛中,阿尔法( p )自始至终都无力面对目前世界排名50位的bly ( z )。
首先第一局:与此前与阿尔法对战的LiquidTLO相比,虫族选手Bly年长——年,是从魔兽3转型而来的星际争霸2选手,已经超过30年了。 但是,在两场比赛中人类玩家使用了简单的单矿Rush战术取得了几乎同样的胜利。 AI最近的发展似乎仅限于“学会了通过聊天频道表情”。
阿尔法的实力怎么样? 与世界排名第三的尼布(神族)对战时阿尔法的活跃表现。
这样,AI在使用人族时,虽然学会了使用妖女和死神骚扰敌人,但正面攻击不利,如果被尼布偷了房子,整场比赛13分钟就输了。
这可能是目前最高端的“人机大战”。 这是AlphaStar vs Serral。
DeepMind当然是在目前的星际2中寻找最强的玩家,芬兰虫族选手Serral进行了人机对决。 在这场16分钟的比赛中,Serral和AI进行了正面的硬仗。 但是,如果在这场比赛中任何一方出现短板的话,最终好像会输。 有评论说,Serral看起来比阿尔法更像AI。
引用一位网友对比赛的深刻解读:
更糟糕的是,人类玩家似乎找到了对抗阿尔法的方法。 但现在,DeepMind频繁更改自己的账户,追踪起来更加困难。 从比赛中可以看出,代理有几个特点:
1 .虽然在对抗人类玩家方面有了很大的飞跃,但是没能真正理解游戏的概念
2 .未能及时应对许多常见游戏策略
3 .游戏脚本在比赛中无法配合对手调整,始终坚持设定
4 .非人族智能体在宏观和微观行为上表现出熟练的技能,但建筑物错位存在困难,经常将己方单位封闭在基地内;
5 .人族游戏中成绩最差,虫族成绩最好(有争议);
6 .虫族游戏中策略最单调。
DeepMind 《星际争霸 2》 AI对人类玩家的发展历程
星际争霸2是人类游戏史上最困难、最成功的即时战略游戏,这一系列游戏的历史已经超过了20年。 星际旅行之所以不会衰落,部分原因在于它丰富的多层次游戏机制,对于人工智能研究来说,这是一个非常接近现实世界的虚拟环境。
星际旅行有平衡的游戏规则,和很多信息和需要控制的变量。 此外,一场比赛的时间通常为几分钟到一小时,这意味着游戏中较早执行的操作可能在很长一段时间内没有效果。 最后,由于战争之雾的存在,地图只对玩家显示一部分。 这意味着代理人如果不把记忆和计划结合起来就不会成功。
2017年,DeepMind宣布开始研究玩即时战略游戏《星际争霸 2》的人工智能。
2018年12月10日,阿尔法明星击败了DeepMind公司的最强玩家Dani Yogatama; 到了12月12日,阿尔法星可以以5:0击败职业玩家TLO。 ( TLO是虫族玩家,但解说员们认为他在游戏中的成绩大约有5000分的水平)。 又过了一个星期,12月19日,阿尔法星也同样以5:0的比分击败了职业玩家MaNa。
阿尔法是怎么学会打《星际争霸 2》的呢?
阿尔法星的行为是通过从原始数据接口(单位列表及其特性)接收输入数据,输出构成游戏内行为的指令序列的深度神经网络生成的。 具体来说,该神经网络在单元中使用transformer作为躯干,结合了具有深度LSTM核、pointer网络的自动回归策略head、中心价值基线。
阿尔法也使用了新的多智能体学习算法。 神经网络最初通过暴雪发布的匿名人类游戏视频监督学习进行训练。 由此,阿尔法可以通过模仿学习天步玩家的基础微操作和宏观操作策略。
阿尔法联盟。 最初通过人类玩家的游戏播放视频进行训练,然后与其他对手进行对抗训练。 每次迭代时匹配新对手,冻结原对手,匹配对手的概率和超参数决定了每个主体采用的学习目标函数,在保持多样性的同时提高难度。 代理的参数通过强化学习进行更新。 最终代理是从联盟的纳什分布中采样的。 没有交换。
随着自我游戏的进行,阿尔法发展出了越来越成熟的战术。 DeepMind表示,这个过程与人类玩家发现战术的过程相似。 新战术不断地打败旧战术。
DeepMind AlphaStar的现场首演败给了人类玩家MaNa
今年1月,DeepMind的阿尔法终于出现在世界面前。 但是,在与人类职业玩家、原WCS亚军MaNa的现场比赛中,人工智能被人类“狡猾”的战术所迷惑,遗憾地失败了。
在展示了几个AI实力的Replay楼层后,阿尔法的现场比赛输了。 对于刚从电脑前站起来的MaNa,DeepMind的两位科学家David Sliver和Oriol Vinyals只露出了尴尬的笑容。
这场比赛暴露了AI的缺陷。 除了特定的分兵战术外,智能体没有形成灵活兵力分配的概念。 MaNa采取的策略是,棱镜带着两不朽继续在AI的基地骚扰,Alphaster回到防卫后马上飞走,AI兵力出去后马上继续骚扰。 因此,面对MaNa灵活的出兵策略,阿尔法只能被动应战,因此无法形成对MaNa的有效攻击,导致了最终的败北。
毫无疑问,作为人工智能前沿技术研究机构的DeepMind的AlphaGo和AlphaFold等项目不仅引发了全球对人工智能技术的关注热潮,也为新技术在一些领域的落地找到了方向。 但在星际2中,人工智能遇到了前所未有的挑战,不断烧钱的DeepMind最终能找到解决方案吗?
光遇1.23每日任务该怎么完成呢?在光遇世界有着各种精彩有趣的任务内容,玩家可以完成后获取大量的游戏奖励,小编
《云顶之弈》这游戏中卢安娜的飓风这件武器最近版本更新中被强化了,分裂攻击的伤害效果大大提升。有些小伙伴
迷你世界激活码2023是哪些呢?在精彩有趣的全新挑战活动中,玩家可以体验到更多丰富的游戏奖励。小编今天准备了
很多传奇的老玩家关心关于贪玩蓝月祝福油怎么用的相关问题,今天柠檬友玩小编给大家搜集整理了如下内容,希望对
《魔兽世界怀旧服》中存在着多样的公会制度,DKPROLL团就是其中之一,关于这个制度的意思好优劣势,本文将为你解
斗罗大陆魂师对决阵容最佳搭配2023,新版本上线了很多魂师,我们应该如何搭配呢?以下为大家分享新版本顶级阵容大
时间:2022-12-27
时间:2022-12-27
时间:2022-12-27
时间:2022-12-27
时间:2022-12-27
时间:2022-12-27
时间:2022-12-27
时间:2022-12-27
时间:2022-12-27
时间:2022-12-27