强化学习(RL)是一种机器学习方法,它通过系统自身的反复试验实现最佳的系统控制。
强化学习的概念早在AI兴起之前就已经存在。强化学习的原型已在1950年代作为“最优控制”的研究而存在,它可以实现机器的自主控制。1990年前后,他在加拿大阿尔伯塔大学的Richard Sutton教授的带领下进行了积极的研究,他也被称为强化学习的创造者。
“深度强化学习”为已存在很长时间的强化学习带来了惊人的技术进步。将深度学习应用于常规强化学习的深度强化学习的出现,触发了由强化学习在社会中推动的AI的实现。
为了了解强化学习和深度强化学习,我们将首先概述诸如机器学习和深度学习之类的技术。
监督学习是一种学习方法,其中向计算机提供学习数据,其中“输入”和“正确输出”链接在一起,并且是一种算法,当接收到某个输入时会返回正确的输出。
例如,一种预测房价的算法。在这种情况下,将某个房屋的大小和位置,到车站的距离等链接为“输入”,并将房屋的价格链接为“正确的输出”。如果您输入房屋的周围条件,这将创建一种算法,该算法将猜测合理的房价。
另一方面,在无监督学习中,仅将“输入”数据提供给计算机,并且计算机独立地提取数据中固有的模式。
一个示例是一种算法,该算法根据访问超级市场的客户的购买数据将客户分为几类。输入购买数据(例如购买的产品和商店访问时间),然后计算机独立提取类似的购买行为并输出客户组。该输出不是人类预定的。
②强化学习
在强化学习中,计算机学习特定“环境”中的动作以最大化为此目的设置的“奖励(分数)”。
典型示例是机器人步行控制。在这种情况下,机器人会获得“可步行距离”的奖励。然后,机器人将尝试通过不同的方式行走,以最大化行走距离。通过这样做,构造了具有长步行距离的算法。