继AlphaGo横扫围棋界后,人工智能又攻陷了电竞界。在最近的Dota 2比赛中,埃隆·马斯克旗下AI研究机构OpenAI打造的机器人一鸣惊人,狂虐世界知名Dota选手Dendi,成为在电竞领域首个击败人类顶级玩家的机器人。
此次人机大战采取一对一模式,共进行三轮比赛。在第一场对战中,OpenAI机器人只用了十分钟就干掉了Dendi,Dendi甚至还一度大叫,“请放过我吧!”到了第二场比赛,Dendi被痛打几分钟后,就主动放弃了比赛,并拒绝进行第三场比赛。
人类又输了,而且输得还很惨!那么问题就来了,这位OpenAI机器人究竟是如何做到完虐人类的呢?答案就是“自学”。
新浪VR了解到,OpenAI机器人采取了“自我博弈(self-play)”的方式来学习打Dota,训练过程中并没有使用模仿学习或者类似于AlphaGo的树搜索技术。简单来讲,“自我博弈”就是通过自己与自己的复制品对打,而不是与人类选手对战,获得游戏经验。在“自我博弈”中,机器人与自己复制品的实力相当,就可以避免因对手太强或者太弱而学不到东西。而且,由于机器人的决策和操作速度远远超过人类,它就可以在短时间内用海量的比赛来迅速获得更多经验。
其实,“自我博弈”在此前AlphaGo的训练中就有过类似应用,AlphaGo曾经通过自我对弈3000万盘,来提高自己神经网络的精度。只不过,AlphaGo在自我对弈前,还曾被输入16万盘人类棋手的棋谱,通过海量棋谱来学习人类落子布局的特征;而OpenAI则是完全从零开始,在对Dota游戏世界没有认知的情况下就开始通过自我对练学习游戏方法。研发团队也表示,他们并没有为OpenAI机器人编入对战策略,没有为它指定任何战术,一开始也没让它与人类高手对练,而是让它“放飞自我”,随机行动,在一次次失败过程中逐渐掌握了游戏打法。
在最开始的时候,OpenAI机器人完全就是什么都不懂的“Dota小白”。比如,Dota游戏里面有“清理兵线”的操作,但这位机器人却连什么是“兵线”都不知道。它所采取的行动也是随机的,只会在游戏世界里毫无目的地到处乱跑,最后被杀掉。
但是,事实证明,“自我博弈”的训练方式非常有效。随着时间的推移,机器人训练数量越来越多,它开始逐渐掌握一些战术,学会了补刀、追杀、攻击闪躲、攻击诱骗等战术。根据OpenAI在官网公布的项目时间表(如下),在一个月的时间里,OpenAI机器人就从几乎不敌高排名选手,成长到可以击败顶级职业选手,并且还在提升中。
OpenAI机器人天梯重点大事件(MMR为比赛匹配分级系统,可理解为天梯分):
3月1日:在一个简单的Dota环境中获得首个增强学习下的结果,OpenAI机器人操作的黑暗游侠能对付神牛了。
5月8日:1.5k MMR测试员认为OpenAI机器人还不敌自己。
6月初:打败1.5k MMR测试员。
6月30日:在大多数比赛中打败3k MMR测试员。
7月8日:几乎在所有比赛中胜过7.5K MMR半专业测试员。
8月7日:3-0击败Blitz(6.2k前职业选手),2-1击败Pajkatt(8.5k职业选手),3-0击败CC&C(8.9k职业选手),但大家认为Sumail可以胜过OpenAI机器人。
8月9日:10-0击败Arteezy(10k顶级选手),但大家仍然相信Sumail可以胜过OpenAI机器人。
8月10日:6-0击败Sumail(8.3k职业选手,顶级1v1玩家),前一日的对战结果还是2-1。
8月11日:2-0击败Dendi(7.3k职业选手,前世界冠军)。
毫无疑问,OpenAI机器人的进步堪称神速,在一对一模式下的战斗力估计可以秒杀大部分人类玩家,但是,OpenAI机器人也有自己的缺点,它并不是不可战胜的。在Dendi战败后,国外就有不少玩家开始了对OpenAI机器人的挑战,而OpenAI机器人也不负众望地被人类狠狠虐了一番。在国外社交网站Reddit上,有玩家表示,OpenAI机器人已经被人类打败了至少五十次!
对此,OpenAI也在官网上解释道,如果机器人碰到之前从未见过的情况,可能就会变得懵逼,不知道怎么反应,最后被人类干掉。OpenAI也对打败机器人的方法进行了总结,主要有三种:
拖拉小兵:当小兵通过二级和三级塔之间时,可以反复攻击它们,吸引小兵来追你,最终地图上就会有数十个小兵追逐你,机器人则会因为塔磨损了太多血量而死亡。
毒球+风杖:你在移动速度上可以获得比1级的机器人更大的优势,从而迅速获得第一滴血。
1级交战:需要很多技巧,少数6-7k的MMR玩家可以在短时间内成功击中机器人3-5下,在1级时干掉机器人。
OpenAI机器人被人类狂虐,看似是人类扳回了一局,但是实际上,你每打败它一次,它都变得更强大了。OpenAI机器人每次被打败,都会从失败中学习到更多经验,从而避免以后被同样的方式打败。所以,表面上看是人类打败了OpenAI机器人,事实却是人类在帮助它变得更强大!
而且,OpenAI的野心还不止于此。在此次人机大战中,OpenAI仅仅是在相对简单的一对一模式下战胜了Dendi,如果切换到五对五模式,人工智能和人类孰胜孰负还不一定呢!因此,OpenAI未来还要继续挑战Dota五对五比赛。在五对五模式下,机器人所面对的情况将更加复杂,不仅需要针对当前局势做出正确的预测和决策,还需要五个机器人做好团队协作,处理机器人之间的信息流动。虽然每个机器人都是最强的,但五个最强的机器人如果配合不好,也有可能会被打败。
针对五对五模式,OpenAI透露,他们已经收集了海量专家级别的五对五Dota比赛数据,目前的初步想法是从行为克隆开始做起。OpenAI在官网上表示,Dota每天都有大约一百万场公开赛,这些比赛的重播数据会在Valve的服务器上保存两周。OpenAI从去年11月以来,就一直在下载每场专家级比赛的重播数据,目前已经收集了580万局游戏的数据(每局都是10人参与的45分钟游戏)。
除此之外,OpenAI还在考虑未来让机器人和人类玩家组队,共同作战。目前,我们还不能确定,OpenAI机器人是否真能在5V5模式下战胜人类,但是,难以否认的是,未来将有更多人工智能效仿OpenAI,试水电竞行业,在游戏中与人类一决高下!一个机器人就已经可以完虐人类最强玩家,五个机器人一起上,你准备好了吗?
猜你喜欢:
评论 (0)