机器人领域向前迈出了一步,紧随其后的又是另一步。最近,一个名为Rainbow Dash的机器人自学了走路。这只四脚机器只需要几个小时就可以学会向前和向后行走,并在此过程中左右旋转。
谷歌,加州大学伯克利分校和佐治亚理工学院的研究人员在ArXiv预印服务器上发表了一篇论文,描述了一种统计AI技术,即深度强化学习,他们用来产生这种成就,这是很重要的,其原因有很多。
大多数强化学习部署都在计算机模拟的环境中进行。但是,Rainbow Dash使用此技术来学习在实际物理环境中行走。
而且,它能够在没有专门的教学机制的情况下进行操作,例如人工指导或带有标签的培训数据。最终,Rainbow Dash成功地在多个表面上行走,包括柔软的泡沫床垫和带有明显凹口的门垫。
机器人使用的深度强化学习技术包括一种机器学习,其中代理与环境交互以通过反复试验来学习。大多数强化学习用例都涉及计算机游戏,其中数字特工学习如何玩赢。
这种形式的机器学习与传统的有监督或无监督学习明显不同,在传统的有监督或无监督学习中,机器学习模型需要标记的训练数据来学习。深度强化学习将强化学习方法与深度学习相结合,传统的机器学习的规模随着强大的计算能力而大大扩展。尽管研究团队将Rainbow Dash的学习能力归功于自己,但人为干预仍在实现该目标方面发挥了重要作用。研究人员必须创建边界,机器人可以在该边界内学习走路,以防止机器人离开该区域。
他们还必须设计特定的算法来防止机器人摔倒,其中一些算法集中在限制机器人的运动上。为了防止诸如坠落损坏之类的事故,通常在数字环境中进行机器人强化学习,然后再将算法转移到物理机器人上以保持其安全性。
彩虹短跑的胜利发生大约一年后,研究人员最初想出如何让机器人在物理学习,而不是虚拟的,周围的环境。
斯坦福大学与Google无关的助理教授切尔西·芬恩(Chelsea Finn)表示,“将人员从[学习]过程中撤离确实很困难。通过允许机器人自主学习,机器人将更接近于能够在现实世界中学习我们的生活。”