想当AlphaGo的 Open AI

职场故事 阅读(1694)

/朱陶伟

比赛在45分钟结束,开放AI今天再次击败,其对手是中国的Dota2超级巨星队。

1563207422263800226.jpg

与昨天(8月23日)对阵Open AI的世界排名前18位的专业球队不同,中国超级巨星队由现任和前任职业球员和教练组成。当然,无论是刚退役的小八(张宁),还是教练罗特(白帆),他们都是TI系列冠军队的成员,实力超过9000分的大师级,以及实力的派队不分博忠。

参考OpenAI和社会在比赛前协商的BO3系统,在0:2落后于人类的情况下,这意味着早期游戏相当于谢幕的高概率,而OpenAI Fie在Dota2中的脚步将停止。

坦率地说,在第一场比赛之后,OpenAI Fie进行了相应的调整,这增强了在线战斗中匹配线路和提高性能的能力。然而,就结果而言,OpenAI Fie第二轮比赛实际上比第一轮比赛快了6分钟。

自OpenAI Fie失败后做了哪些更正?从单个机器人到五个机器人的探索经历了什么样的曲折? OpenAI有什么计划在未来扩大英雄池并取消游戏限制?以下将逐一公布。

1563207422256323881.jpg

OpenAI Fie做出了改变,但游戏仍然失败

这两场比赛仍然没有自由BP,只是交换了阵容。 OpenAI Fie的阵容是:恶魔巫师,瘟疫法师,巫医,狙击手,斧王;超级巨星队阵容:直升机,巫妖,死亡先知,冰室女士,潮汐猎人。

碎片仍然存在,如没有圣剑,化身,幻觉,2,3,4位是魔法瓶,不能购买,以增加行走能力。

然而,与早期对抗paiN的恐慌相比,OpenAI Fie仍然更接近超级巨星的早期。当比赛进行到2分钟时,OpenAI Fie取下了塔,并迅速游走等待gank,领导人类的人数。当时间表进入5分钟时,OpenAI Fie还采用了一波五人来推动塔式战略。杀死人类死亡先知后,它开始撤退。那个时候,人数是3:7,而人性方面落后了。在此期间,OpenAI Fie还使用聊天轮盘发送全球语音,这在第一款游戏中是看不到的。

OpenAI Fie的优势一直保持到比赛前20分钟,然后情况开始下降。

在比赛的22分钟内,双方再次爆发,但人类方赢得胜利,OpenAI Fie被摧毁,人数接近。相比之下,人类经济已经领先于OpenAI Fie 5000.

然后人类玩家开始留住Genk,OpenAI Fie无法忍受,经济差距进一步扩大。到了31分钟,人类经济已经提前了10,000,然后所有的OpenAI Fie塔都被推倒了。在比赛的第45分钟,死亡先知释放了封锁OpenAI Fie之门路线的大动作。最后,人类方面再次熄灭了OpenAI Fie并获胜。

事实上,在比赛开始前20分钟,OpenAI Fie在线上和Gank表现都很好。然而,在游戏的中后期,它分配了经济资源,而游戏的时机仍然很尴尬。还有很多老问题。 OpenAI Fie喜欢在与paiN对战时不断地将眼睛插入塔下。在超级巨星开始前的52秒,它在高地上插入了一个无用的眼睛,浪费了资源。总的来说,OpenAI Fie对资源位置和综合运营策略的理解并不像人类那么好。

1563207422270332208.jpg

从11到55,OpenAI挫败了前进

1563207422281193351.jpg

OpenAI Fie没有品尝到被人类压碎的味道。

早在8月5日的公开基准测试中,OpenAI Fie就与Dota2的前15,000名Blitz,Cap,Fogged和其他五名玩家进行了比赛。在比赛期间,共有四场比赛被播放,而OpenAI Fie则被观众挑选英雄输掉了比赛。

当时,人类阵容的阵容是死亡先知,死灵法师,瑞恩,巫妖,直升机,而OpenAI Fie的英雄则在徘徊,斧头王,隐身,小渔夫和痛苦女王。一旦阵容出来,OpenAI Fie预测胜率只有2.9%。虽然比赛中途的比赛胜率上升到17%,但比赛进展到34分47秒,最终被48名: 20人击败。

很多人都会呕吐OpenAI Fie是一些处于劣势的近战英雄,但更值得OpenAI团队关注的是如何在逆风下优化OpenAI Fie的策略,解决游戏中的徘徊和没有脑移除的斧头塔,甚至当人类推高高地时,OpenAI Fie没有像英雄防守高地这样的异常行动。

幸运的是,在OpenAI下,即有限的18位英雄,5位使者,没有圣剑,魔术瓶等,OpenAI Fie以人性方面赢得前三场比赛,时间很短,不到30分钟。

可以取得如此大的突破,一年前,OpenAI团队无法想到它。

要知道2017年9月,OpenAI以单一机器人的形式输给了德国的Dota2玩家Dominik''Black''Reitmeier。尽管OpenAI几乎已经与人类玩家进行了11场比赛,但9月份对人类玩家的反杀是一个例子,说明了OpenAI单机器人模型的缺陷。

回到过去,OpenAI团队甚至在2017年中期发出了一个“我们将要失败”的呼号,因为OpenAI的机器人从未在研究团队设计的一对一游戏中击败人类。

在研究人员开始随机化培训环境之前,这种转变开始出现。一位研究人员发现,英雄旅行的速度快,慢,甚至停止。 OpenAI bot的增强型学习策略网络非常好,甚至成功杀死了敌人。在1:1战斗中应用了相同的训练方法,也起到了很好的效果。 OpenAI的机器人开始学习补充,购买装备,释放技能,然后开始击败1500点,甚至超过3000点的Dota2玩家。

1563207422334698886.jpg

然而,55对11和难度之间存在明显差异。例如,在集体战中,需要机器人之间的分工,经济资源的合理配置和长期运营策略。为了加快研究过程,OpenAI增加了资源,不断修订系统版本,并更新了网络架构。

在11个培训版本中,OpenAI每天使用8 petaflop/s的数据进行培训(注意:1 petaflop/s-days表示每天1015个神经网络操作,或总共1020个操作。)到6月6日数据量已经上升到每天40 petaflop/sa,并且在最近的8月5日发布,数据量已经上升到惊人的190 petaflop/s。

如此大量的计算必然需要极高的计算支持。数据显示,OpenAI团队使用128,000个处理器和256个NVIDIA图形处理器来训练其近端策略优化的强化学习算法。

1563207422324380217.jpg

继续解除限制,未来的Open AI

想成为一场真正的比赛

虽然被人类击败了,但仍然值得赞扬。

不要看看Deepphad的AlphaGo和AlphaGo Zero在Go中席卷人类,并且觉得OpenAI玩dota2是小菜一碟。

想一想,Dota 2每个刻度平均产生1000个可能的行为,而国际象棋为35,Go为250。通过ale的bot API,OpenAI将Dota 2视为20,000个状态,代表了人类在游戏中可以获得的所有信息。 Chess表示大约70个枚举值,Go具有大约400个枚举值。换句话说,Dota 2比Go复杂得多。

1563207422381471436.jpg

面对Dota2游戏的损失,OpenAI团队将这些原因归结为三点。首先,人的方面确实很高;其次,OpenAI Fie的阵容不是由程序本身提供,而是由第三方提供;最终,被玩家玩家批评的五个信使限制被完全释放,只变成了一个。信使。

事实上,在之前的基准测试中,OpenAI团队使用每个英雄拥有自己的信使,在为期两天的Dota2游戏中,突然变为单个信使会引起很多不适。但是,OpenAI团队认为信使的限制不能成为失败的借口。毕竟,这是原来的dota2。

目前,OpenAI团队仍然在解除限制,例如将现有的18个英雄池扩展到所有115个英雄,恢复扫描,幻想。另外,放松2,3和4的购买限制,如增加游泳能力的魔瓶,攻击力的圣剑等等。当所有限制被取消时,OpenAI Fie将迎来与人类的真正Dota2战斗。

比尔盖茨说,除了比赛之外,Dota 2机器人展示了团队合作和协作,这将成为未来发展的关键技能。马斯克还发送推特称,开发人员需要快速创建一个神经接口“以实现人类/人工智能的共生”。

据信,在不久的将来,基于安全环境的多机器人协作AI技术将对人类生活产生重要影响。