经典算法55架超人的成绩在雅达利的游戏

新闻

发表:2021年2月26日

Ruairi J麦肯齐

去探索能够粉碎之前玩家分数的雅达利经典陷阱。信贷:阿德里安·Ecoffet通过Youtube

想要一个免费的PDF版本的这个新闻吗?

完成下面的表格,我们将电子邮件您的PDF版本“算法架超人的成绩在55经典雅达利游戏”

名字*

姓*

电子邮件地址*

国家*

公司类型*

工作职能*

你愿意接受进一步的电子邮件通信技术网络吗?188金宝搏备用

听与

喋喋不休地说

0:00

注册免费听这篇文章

谢谢你！听这篇文章使用上面的球员。✖

阅读时间:

本文中的信息是基于一些有待同行评审的研究成果。因此被视为初步结果,应该解释为这样的。了解同行评审过程的作用研究在这里。为进一步的信息,请联系引用源。

研究人员发表了一篇论文,记录一个创新的人工智能系统的能力,被称为去探索,表现人类和最先进的算法对手55岁经典雅达利2600年奥运会现在用作机器智能的基准。

该研究发表在自然。

杰夫•Clune领导的团队,进行最初的大部分工作虽然超级人工智能实验室的一部分,但是现在已经搬到非营利开放的人工智能。他们在2018年首次发表了他们的初始数据新闻稿。最初的尝试表明,去探索能够破解两场,证明了AI系统接近不可能到这一点,陷阱和蒙特祖玛的复仇。

说话188金宝搏备用研究的合著者,Joost惠钦格解释如何去探索能够与其竞争对手擦地板。“有两个非常简单的原则,让这成为可能。第一个是显式地记住你在哪里你想要探索的空间。很多以前的强化学习算法使用内在奖励,这意味着你获得奖励去新的地方工作,但整个内在奖励的想法是,它会降低随着时间的推移,这意味着第二次你达到相同的时间,它不再是新的,所以得到回报。”

AI metroidvania疯狂

Montezuma等释放的复仇,这将导致algorithm-controlled字符后陷入只探索游戏世界的一部分,因为这些metroidvania-style游戏需要重复灾害地区的地图寻找新的奖励。相比之下,去探索保留记忆的地方探索和反复访问它们。

看到一个“拖车”去探索。信贷:阿德里安·Ecoffet通过YouTube

第二个元素使它有别于竞争对手的去探索算法是基于其他项目的,惠钦格说,通过采取随机行动的原则探索游戏引发的奖励活动。hazard-filled蒙特祖玛的复仇,这往往导致玩家角色被蛇咬伤,焚烧在火灾或被滚动的头骨。这阻碍了人工智能的探索游戏世界的能力。去探索,相比之下,将返回之前探索没有采取随机的地区旅行的路径,从而避免重复的死亡。

去探索的最初版本后,一些分析师指出作者,当时,依赖于一个名为领域知识编码的算法技巧来让事情更容易去探索。这种技术涉及手动从游戏中提取的细节,就像房间里的角色是,能够告知算法,它已发现一些新的东西。在自然纸,惠钦格和他的同事们增强系统。”而不是手动将这些功能并提供他们去探索,我们有一个自动化的过程,需要屏幕的像素,这也是代理本身的输入,然后我们缩减规模以这样一种方式,我们可以有效地确定两帧是否不同或相同,“惠钦格说。

一种更健壮的过程

这一创新意味着去探索可以超越陷阱和蒙特祖玛的复仇现在破解其他雅达利的挑战,例如Gravitar, Berzerk和蜈蚣。团队显示去探索的能力成功地浏览这些游戏的环境,实现高分数,然后显示它是游戏世界的适应变化的能力,这一过程被称为robustification。由于预算限制,团队才能够显示这个过程在11场比赛。

最初版本的批评集中在AI对模拟器的依赖,并立即重新创建特定的房间游戏测试,而不是使AI探索从一开始。团队因此表明,人工智能可以指示去游戏的特定区域没有牵手,仍然达到成功。

但真实的去探索应用程序是什么?惠钦格说,它将有一个很大的效用在简化机器人平台,让他们更快地解决问题,但是他个人最兴奋的算法在寻找弱点在自动化系统中的应用。他提到一个预印本纸测试去探索的能力,以防止自动驾驶汽车与行人相撞(格式,解释了为什么超级感兴趣的技术)。“去探索可以帮助在自动驾驶汽车,不是直接教自动驾驶汽车,但可能增加他们的安全,“惠钦格结束。

参考:

Ecoffet,惠钦格J,雷曼J,斯坦利KO, Clune J .首先返回,然后探索。自然。2021,590 (7847):580 - 586。doi:10.1038 / s41586 - 020 - 03157 - 9