很多小伙伴玩家都不太清楚自凹非寺量子位出品|夏乙岳排,那么今天解雕侠小编给大家带来一篇 平均 相关的文章,希望大家看了之后能有所收获,最后请大家持续关注我们!
奥飞寺的夏一岳派淮
量子比特生产 |公众号
先别说话。
给自己几分钟的时间来玩这个游戏,看看你能不能通过它。就几分钟,不要责怪自己。因为一般清关需要20分钟。
游戏地址:
建议在PC端打开,但不能在移动端播放。如果您不在笔记本电脑前,可以查看我们演示的动画:
这是什么鬼?只是有点变态的难度。
在某种程度上,你正在体验AI玩游戏的感觉。
近年来,人们纷纷称赞 AI 可以自己学会玩 等雅达利游戏,达到甚至超过人类玩家的平均水平。
另一方面,你也指责一个游戏只能由人类一目了然地玩,但人工智能需要很长时间才能学习。为什么机器和人类的学习效率差别这么大?
加州大学伯克利分校的一个科学家团队正在研究这个问题。
不同之处可能在于:人类进入游戏时,有大量来自现实世界的先验知识(prior),大大提高了决策效率。
什么意思?
基于我一开始让你尝试的小游戏,我们跟随伯克利研究人员一起体验一下吧。
定量分析
来吧,让我们开始实验吧。
首先看一下游戏的原始形式。
即使你不玩游戏,你仍然可以看到它。玩家要避开白色怪物、路障,然后跳跃爬梯子拿到右上角的钥匙,然后打开左上角的门。
如果你想试试,这里是:
实验表明,人类很快就能玩这款游戏。平均完成时间1.8分钟,平均死亡人数3.3,有3011条游戏路径可供探索。
好综合小游戏,我们来增加难度。
删除语义
梯子的形状就是它的语义。当人类看到梯子的形状时,他们可以将其与攀爬联系起来。语义有多重要?实验方法非常简单。去除了游戏中各种物体的细节,只用统一的色块来表示。
整个游戏如下图所示。
在这些游戏中,人类完成游戏的平均时间减少到4.3分钟,死亡人数减少到11.1,有7205条游戏路径可供探索.
试用地址在这里:
你认为其他玩家弱吗?其实你忽略了一点。因为文章的叙事结构,你先玩普通版的游戏,但如果你不知道游戏的原始设定,你会感觉到隐藏游戏的语义信息是多么的困难。
因为在原版游戏中,钥匙和门都是可见的。人类自然会想到先拿到钥匙再开门。在语义模糊的版本中,玩家无法知道这些信息。
在 120 名参与者中,只有 42 人在进入“大门”(蓝色小方块)之前拿到了“钥匙”(橙色小方块)。并且相比原版游戏,玩家获得“钥匙”后到达“大门”所需的时间更长。
这个结果表明,在没有语义的情况下,人类很难推断出奖励结构,从而显着减少了寻找的时间。
为了进一步量化语义的重要性,接下来的实验不是简单的掩蔽,而是改变语义。
游戏中的红色怪物和箭头路障已被替换为具有积极意义的金币和比萨饼;而梯子、钥匙和门分别被火、荆棘路障和带有负面含义的黑色怪物取代。
因此,参与实验的玩家完成关卡所需的时间更长。平均时长6.1分钟,死亡次数13.7次,有9400条游戏路径可供探索。这一结果表明语义翻转比遮挡更令人困惑。
困惑的对象
虽然游戏中的所有物体在经过上述着色后都没有传达语义,但它们与背景截然不同。人类很容易推测出这样一个引起注意的对象是一个子目标,它会启动一个比随机搜索更有效的动作。
为了验证这一点,小游戏的混乱程度进一步升级。平台上的每一个空间位置都填充着不同的色块,但大部分都是无用的色块。表示实际对象的色块,位置与之前相同。当然,如果你是第一次玩这个游戏,这次肯定会一头雾水。
游戏画面如图。
试用地址:
实验结果:人类玩家的平均通关时间是以前的四倍,达到7.7分钟;死亡人数达到20.2;游戏路径搜索达到12232。从找到钥匙到开门的时间进一步缩短。
平滑函数的可见性
迄今为止的各种“折腾”表明,计算游戏的基本奖励结构并非易事。但整个游戏一直有利于人类玩家。游戏画面依然可以清晰的看到各个平台的位置,以及平台之间的相互联系,黑色的背景背叛了这一切。
我该怎么办?
平滑特征可见性的一种方法是用随机纹理填充空白区域。这些纹理类似于用于渲染梯子和平台的纹理。同样,这个实验中各种对象的语义清晰可见。
试用地址:
实验结果:人类平均通关时间4.7分钟,死亡人数10.7,有7031条游戏路径可供探索。这个结果与语义被屏蔽时没有太大区别。可以感觉到可见性和语义一样重要。
一旦人类玩家意识到某些纹理可以站立或攀爬,就可以通过相似性轻松识别其他平台和梯子。看起来相同的事物被人类感知为具有相同的属性。
接下来,继续增加难度。
这次每个平台和梯子的纹理都不同。人类通过相似度计算不再困难。
试用地址:
这一次,人类平均通关时间为7.6分钟,死亡人数为14.8,共有11715条游戏路径。结果表明,视觉相似性是游戏中第二重要的人类知识。
改变交互
以上都是与视觉有关的研究。在这个游戏中,玩家还必须知道如何与不同的对象进行交互。比如遇到白色怪物可以跳过,遇到梯子可以按向上键爬上去。但是深度强化学习控制的agent没有这样的先验知识,必须一点一点地探索如何与对象交互。
为了测试这些先验知识的重要性,我们创建了一个新版本的游戏。先不说哪里有变化,大家自己试试吧。
试用地址:
如上一个动画所示,仅按向上按钮是不可能爬梯子的。在按住向上键的同时,您必须交替反复按左键和右键。
与原版游戏相比,这个小改动将平均游戏时间增加到 3.6 分钟、6 人死亡和 5942 次游戏路径探索。
终极挑战
最后综合以上几点,一开始就形成了一个难度变态的小游戏。
人类完成这个小游戏的平均时间减少到20分钟,死亡人数达到40人,各种游戏路径探索次数增加了9倍。
这游戏太难了,玩家放弃率很高。
但这并不是最难的,伯克利的研究人员提出了一个更难的版本。在哪个版本中,重力方向是反转的,按键的响应也是随机映射的。
即使是玩了无数次的研究人员也很难完成这个版本。
另外,他们还没有发布这个版本的演示地址。 (如果有老师自己探索过,希望给我们留言)
当然,也有重力方向旋转90°的版本,可以挑战。
地址:
讨论
本文的实验结果表明,无论强化学习算法多么强大,如果你想象人类能够高效地完成奖励稀疏的任务,他们仍然需要从人类认知中学到很多东西。关于物体的先验知识对人类在玩游戏这一奖励稀少的任务中大有帮助。
但是综合小游戏,拥有强大的先验并不总是一件好事,而且有时会限制探索的范围。未来的研究还应注意在个体环境中减少对探索的限制。
此外,人类对游戏的先验知识显然远远超过本文所描述的“对象”。在玩游戏的时候,人们会假设游戏是有目标的,右键一般是前进等,这些先验也很值得探索。
研究人员最终根据实验对先验知识的分类和重要性进行了排序。如下图:
研究论文 Human for Video Games 在 ICLR 2018 上发表。
该论文的第一作者 Dubey 是博士。来自伯克利的估计认知科学实验室。其他作者也来自伯克利,包括博士。 .
——结束——
真诚而迫切
Qubit 正在上海中关村招聘编辑/记者。期待有才华和热情的朋友加入我们!相关详情请在量子比特公众号()对话界面回复“招聘”二字。
量子比特·今日头条签约作者
'' 追踪人工智能技术和产品的新发展
上面就是自凹非寺量子位出品|夏乙岳排的全部内容了,希望能给广大手游玩家玩家们带来一些帮助,更多关于平均的内容,尽在解雕侠!