您的位置:首页>AI>

机器学习算法找到了创新的解决方案和出人意料的新策略

人工智能研究公司OpenAI的程序员最近教了一群智能人工智能(机器人)玩捉迷藏游戏。不是因为他们关心谁赢了:目标是观察藏身者和寻找者之间的竞争如何驱动机器人寻找和使用数字工具。现实生活中曾经玩过游戏的人都熟悉这个想法。这是一种按比例缩小的军备竞赛。当您的对手采取行之有效的策略时,您必须放弃以前所做的事情,找到一个更好的新计划。从国际象棋到《星际争霸2》,这是统治游戏的规则。这也是一种适应性,似乎可以赋予其进化优势。

因此它与捉迷藏一起进行。即使AI代理商没有收到有关如何玩的明确指示,他们也很快学会了逃跑和追逐。经过数亿游戏之后,他们学会了操纵环境以发挥自己的优势。例如,藏匿者学会了在其内部建造微型堡垒并设路障。作为回应,搜寻者学会了如何使用坡道缩放墙壁并找到藏身箱。

OpenAI团队表示,这些行动说明了AI代理如何学习如何将周围的事物用作工具。这很重要,不是因为AI需要更好地隐藏和寻找,而是因为它提出了一种构建可以解决开放式现实问题的AI的方法。

我们没想到[盒子冲浪]会发生,但是这样做确实令人兴奋。

OpenAI的Bowen Baker

电子游戏公司Unity Technologies的计算机科学家兼AI副总裁Danny Lange说:“这是令人印象深刻的工具使用,而工具的使用对于AI系统来说是不可思议的。”寻找项目。这些系统如此迅速地找到了使用工具的方式。想象一下他们何时可以使用许多工具或创建工具。他们会发明梯子吗?”

进一步推论:他们能发明出在现实世界中有用的东西吗?最近的研究探索了教AI代理使用工具的方法,但是在大多数方法中,工具使用本身就是目标。捉迷藏实验是不同的:奖励与隐藏和查找相关联,并且工具的使用一直在发生并不断发展。

由于游戏是开放式的,因此AI代理甚至开始以程序员未曾想到的方式使用工具。他们曾预测特工会躲藏或追逐,并会制造堡垒。但是经过足够的比赛,例如,搜寻者学会了即使爬上箱子也可以移动箱子。这使他们可以在OpenAI团队的“箱子冲浪”中滑行。尽管算法并未明确禁止在箱子上攀爬,但研究人员从未见过。该策略具有双重优势,将移动性与灵活地凝视墙壁的能力相结合,并且显示出比人类程序员想象的更具创新性的工具使用方式。

免责声明:本文由用户上传,如有侵权请联系删除!