1亿用户在王者荣耀中为腾讯AI工作。

来源：头条浏览：0 2022-12-19 17:40:01

(图片来源：腾讯感悟平台官网)文/Renee编辑/Emma得知马斯克的自动驾驶系统有可能是基于赛车游戏打造的，你不觉得意外吗？ 2017年，OpenAI宣布旗下的开源人工智能测试环境Universe加入游戏大作《侠盗猎车手5》，使AI能够在短时间内获得准确识别各种物体和突发情况的能力。因为在现实生活中，无人车的摄像机感知到的其实是二维图像。如果游戏场景中的物体与现实非常相似，则通用。虽然不知道特斯拉的自动驾驶系统“含游戏量”有多少，但主要通过游戏锻炼AI的Deepmind成功实现了游戏的“正名”:

2016.7、DeepMind队的alpha go经过大量的棋牌战略类游戏数据训练，击败了世界围棋冠军柯洁； 2022.10、DeepMind队的阿尔法者，在不了解现有的矩阵乘法算法的情况下，在队给定的游戏场景中反复练习，再次进化对矩阵乘法的算法探索，在有限的域中选择了Strassen (历史上最快的亚由此，DeepMind团队成功地将游戏的触角延伸到了学术界。目前，腾讯也有这个意思。 2022.11、腾讯“开悟”平台宣布“王者荣耀AI开放研究环境”正式开放申请。这为非商业用途的机器学习算法研究提供了业界独特的高复杂度MOBA训练环境，支持相关学术领域的前沿探索。也就是说，你每天休闲的王者荣耀游戏，将来很可能会为学术领域的前沿探索贡献力量。这就不得不考虑为什么游戏可以成为AI的“训练场”。你的王者荣耀如何为学术贡献力量？ 01 AI工作和娱乐

目前，“AI游戏”已经成为腾讯、互联网等国内头部游戏企业发力的核心方向，三七、盛趣、完美、B站等也在探索AI游戏的可能性。为什么大家都把游戏作为AI的主要测试平台？我们都知道，AI的终极目标是以假乱真“真”。也就是说，AI必须要有“性格、喜好”。也就是说，研究者们需要“摸透”AI的风格，让它成为自己想要的样子。 DeepMind在此基础上，引入了模仿AI上的人类做法，与自己对决的联盟训练概念，通过游戏对战理解AI的“性情”，各大厂商也采取了这一路线。为此，需要一定的指标来衡量AI或人类的风格。另外，人类大量的数据表达出自己的风格，AI在某些方面得到加强，在某些方面变弱，AI需要完美地复刻他人。游戏将是最好的“训练场”。第一，游戏可提供用于测量AI性能和形成AI的指标。每次比赛结束时，提供的游戏时间、胜负、金钱、扑杀时间、扑杀个数等数据可以作为模型的特征，反应代理AI的偏好。例如，可以通过杀击个数判断是否具有较强的战斗能力，通过短时间的连杀数据判断是否过激。这些人可以知道AI是什么样的“人”，并加以改善。时间一长，玩家就可以通过合作度、激进度、防守能力等指标来“调整”AI的个性。也就是说，AI可以“拥有”独特的性格。

【AI多样化及个性化在游戏中的应用图源：腾讯游戏学堂作者Yaqing】腾讯AI Lab游戏AI研发中心负责人付强在2021年的TGDC会议上也表示，所有竞技游戏都是包含中间核心指标的明确胜负指标，这些明确的指标是我们第二，游戏环境提供了丰富的场景和任务，锻炼了AI决策的能力，可以从中获得大量的数据。王者荣耀有五个发展场景：对抗路、打野区、中路、游走、发育路，每个场景中的人都有自己的使命。例如，打野区的人需要疯狂的击打，从而提高队伍的经济水平，游动的人需要马上到达残血队友身边为他“护航”，其他区域的人需要高强度的输出伤害，保护自己的“道路” 在这场比赛中，玩家不仅要发挥“各自的作用”，而且要及时与球队交换策略。比如，什么时候去消灭怪奇，什么时候集体推，是消灭野生怪，还是抢着头角让它快速成长，需要根据现状在短时间内做出最佳决策。付强表示，无论游戏世界是获取人类自身的数据，还是AI自身对战生成的数据，从这个角度来看，虚拟世界获取这些数据的成本、迭代的效率都要比现实中高得多。除此之外，游戏世界的尝试错误成本一直很低。想象一下，一家公司的AI产品在你家门前的道路上直接尝试自动驾驶，导致事故的概率很难把握。在游戏世界里试错几万次也没关系。所以，通过营造虚实交融的环境，我们可以建设模拟城市交通的虚拟世界，将虚拟世界中反复试验的最优策略转移到现实世界中。目前，游戏能力AI在游戏界并不“自我嗨”，而是涉足学术界。今年10月，DeepMind队的阿尔法，在不了解现有矩阵乘法算法的情况下，在队伍给定的游戏场景中反复练习，再次进化对矩阵乘法的算法探索，在有限的域中进行了Strassen (历史上最快的算法) 在这一成果突破的背后，游戏成了其“法宝”——。 DeepMind团队表示，AlphaTensor灵感来源于游戏系统的设计，通过树形搜索方式，将矩阵乘法的高效算法问题转化为在单游戏中求解数学结果，实现了AlphaTensor的在腾讯也积极布局的情况下，目前与北京大学、清华大学、电子科技大学、中国科技大学4所国内大学合作开发了创新课程。希望更多的学者在博弈环境下探讨和研究AI落地问题，寻找AI新技术覆盖更多场景的可能性，为医疗、工业、农业、交通等行业服务。 02 DeepMind，不仅仅是AI游戏王

从AlphaGo到AlphaTensor，DeepMind一直走在AI的前线。那么，DeepMind为什么能开创游戏培养AI的先河呢？面对前所未有的领域，团队为确定其AI项目是否值得研究设置了几个门槛。在打开项目之前，在DeepMind团队内重点审查了三个问题。

这个AI项目可以归纳为某个大型组合状态空间，也就是所有可行方案的集合吗？否则，很难使用专家系统预设解决方案，也很难使用“蛮力”囊括所有可行的解决方案。这个AI项目有明确的、可量化的衡量标准，可以根据这个目标逐步优化学习系统吗？例如，游戏的目标是分数。这个AI项目有足够的数据供系统学习吗？游戏环境可以满足第二、第三个问题，棋牌策略类游戏的解法可以满足第一个问题(所有棋步集中) 在此基础上，经过大量的棋牌战略类游戏数据训练，2016年Alpha GO击败了世界围棋冠军，同时发展出了可以自我对战的Alpha zero。然而，团队的野心还远远不止于此，——成为游戏的“王者”，不仅证明它把某种模式玩透了，更重要的是把游戏积累的经验数据处理成现实世界的问题，才是“诗与远方”。团队创始人说，最初的AlphaGo和AlphaZero与游戏相关，但最终目标不仅仅是解读游戏，而是用它们引导共同的学习系统，应对现实世界的挑战。所以，DeepMind团队除了棋牌战略类的游戏外，还在寻找“更现实”的游戏。华盛顿大学等联合开发的蛋白质折叠游戏Foldit进入了DeepMind的视野。这个游戏可以集中所有玩家的动力和能量，为蛋白质折叠研究做出贡献。游戏的结果令人意外。游戏玩得最好的往往不是生物学家，而是普通玩家，他们很可能比科学家更快解读蛋白质的实际结构。 Foldit播放器解密的一些重要蛋白质结构也在《Nature》杂志上发表。 DeepMind团队解释说，一些玩家有非常好的直觉。基于此，2016年，DeepMind团队启动了alpha field项目，人工构建系统模拟这些玩家的“直觉”。今年7月28日，欧洲生物信息学研究所( EMBL-EBI )通过阿尔法场成功预测了100多万种生物的2.1亿个蛋白质的三维空间结构，覆盖了地球上几乎所有已知的蛋白质，再次突破了AI界的边界如果有阿尔法go、阿尔法fold这样的“明星”产品，DeepMind的野心是无法隐藏的。这两款产品还不够优秀，——只是某个领域的领头羊，其他领域都是小白，但DeepMind需要的是举出1比3的AI代理。因此，2021年，DeepMind发布了包含数十亿任务的游戏“元宇宙”XLand平台。

【DeepMind游戏元宇宙框架】DeepMind官网】在这款游戏《元宇宙》中，无数颗“游戏星”组成了“游戏银河”，每颗星的游戏以竞争力、平衡性、选择性、搜索难度4个纬度进行区分如下图，左边的游戏双方必须将小球赶到自己的区域才能获胜。 “不是你死了，也不是我死了”。因为一点合作的机会都没有，所以竞争性指标就那样满了。右图的游戏中，要求将几何按颜色分类，多个主体合作完成任意配对即可，因此竞争力较低，但选择性较高。

【DeepMind游戏元宇宙模块详细图源： DeepMind官网】为了锻炼竞争力、平衡性、选择性、难度搜索的综合实力，同时获得智能体更泛化的能力，研究人员在学习时，根据每个新任务完成的旧任务目前，该项目正在苦战中，——第五代特工在XLand 4000多个“星球”上玩了70万个游戏，接受了2000亿次训练，完成了340万项独特的任务。 DeepMind从一开始就为自己的AI研究设定了明确的标准，从最有可能实现的游戏开始，在防止陷入“先行”漩涡的同时，也有更长远更现实的目标。游戏AI不仅是为了AI更好地玩，也为了更好地赋予现实世界力量，对医疗、交通、工业机器人等领域很有帮助。如今，可以找到与“数理化”相通的泛化机器人，成为DeepMind的下一个发展目标。 03腾讯，和DeepMind一起过河吗？

和DeepMind一样，腾讯也从游戏开始，尝试用AI玩复杂多样的战略游戏，训练接近人类智能水平的智能体，目前正在向医疗方向发展。

【腾讯AI lab构想腾讯2021年TGDC会议】在2021年TGDC会议上，腾讯AI lab发布了其具体战略布局。基于棋牌战略类游戏的“绝艺”平台，从单个个体、场景、复杂游戏的角度更多探索AI单独作战的能力。基于王者荣耀打造的“开悟”平台，具有多智能体、复杂场景视角下探索AI团队合作的能力； “开悟”是向学术界开放前两者锻炼的能力，以期取得实质性的落地成果。这一布局已经明确，“绝艺”、“绝悟”平台将锻炼AI的各项能力，“开悟”是整合这两个平台的技术，将与多方合作加速AI的落地。《王者荣耀》项目执行制片人黄蓝枭介绍，开悟平台基于《王者荣耀》游戏，包括标准界面、核心算法、脱敏测试数据、评测工具和计算集群等现在，在最初应用场景的医疗中，有“开悟”的样子。在药物研发中，为了解决制药流程耗时过长的痛点(包括基础研究、药物发现、临床前沿研究、临床研究等)，腾讯AI团队选择在药物发现、临床前沿研究两个阶段赋能。即缩短药物发现和临床前沿研究所需的时间。例如，在药物发现过程中，以前需要一万种候选药物中选择一种，现在只需要通过算法，在100种候选药物中选择一种。这里运用了在“开悟”上积累的经验，特别是强化学习上的经验。现在，该算法可以从一位数上升到两位数。在医药器材方面，其AI显微镜助手也基于开悟在线加速平台搭建，协助医生精准治疗。除了医疗以外，腾讯还有以下构想。

突破虚拟与现实世界的藩篱，研究游戏中的会话智能，如无人驾驶汽车和机器人的发展等赋予物理世界力量；研究游戏中人、代理、环境的交互行为，如智能城市，具有深远的意义而所有蓝图的“基石”都是忠实王者荣耀玩家疯狂的“上点”，为系统贡献宝贵数据，让AI暗中学习。黄銥表示，该算法可用于现实中的多机器人和无人机智能协同，未来可移动到其他工业环境并落地，为工业机器人和救灾机器人等提供支持。在DeepMind之后，后来者宣称“从游戏到医疗，再到未来”。目前，缺少的是XLand这样的AI游戏元宇宙。在DeepMind构想中，在其游戏元宇宙XLAND中，AI代理现在可以绕过触摸式打字。也就是说，掌握魔兽世界(即时战略游戏)的话，今后就可以马上接触到同等类型的游戏，但是在游戏数量多、场景数量多的帝国时代)即时战略游戏。相比之下，DeepMind早期开发的AlphaZero功能非常强大，在三大棋(国际象棋、将棋、围棋)领域下了天下无敌手，但每次都需要从零开始，长时间学习。也就是说，腾讯需要虚拟空间，AI学数学后，学物理化学的时候，不需要从头“啃”数学书。

# END #