麻省理工学院和IBM的一个小组开发了一种算法,该算法能够准确地识别视频中的动作,同时消耗以前所需的一小部分处理能力,从而有可能改变将AI应用于大量视频的经济性。该方法改编了用于处理静态图像的AI方法,从而为它提供了经过时间的粗略概念。
这项工作是朝着让AI识别视频中正在发生的事情迈出的一步,也许有助于驯服现在正在产生的大量信息。仅在YouTube上,2019年5月每分钟上传的视频超过500小时。
公司希望使用AI自动生成视频的详细描述,从而使用户可以发现未注释的剪辑。而且,当然,他们会希望根据视频中的内容来出售广告,也许当有人开始直播比赛时,他们就会立即展示网球课程的球场。Facebook和Google也希望使用AI来自动发现和过滤非法或恶意内容,尽管这可能证明猫和老鼠正在进行游戏。在不显着增加AI的碳足迹的情况下完成所有这一切将是一个挑战。
科技公司喜欢炫耀自己对AI的使用,但仍然没有太多用于分析视频。YouTube,Facebook和TikTok使用机器学习算法对片段进行分类和推荐,但它们似乎主要依赖于与视频相关的元数据,例如描述,标签以及上载时间和位置。所有人都在研究分析视频内容的方法,但是这些方法需要更多的计算机功能。
麻省理工学院的助理教授宋汉(Song Han)说:“视频的理解是如此重要。”“但是计算量太高了。”
AI算法消耗的能量也在以惊人的速度增长。据一些估计,用于尖端AI实验的计算机能力大约每三个半月翻一番。7月,艾伦人工智能研究所的研究人员呼吁研究人员发布其算法能效的详细信息,以帮助解决这一迫在眉睫的环境问题。
随着公司利用AI分析视频,这一点尤其重要。近年来,图像识别取得了巨大进步,这在很大程度上要归功于深度学习(一种从复杂数据中提取含义的统计技术)。深度学习算法可以基于图像中显示的像素检测对象。
但是深度学习不善于解释视频。除非将视频帧与前后的视频帧进行比较,否则分析视频帧不会显示正在发生的事情,例如,拿着门的人可能正在打开或关闭门。尽管Facebook研究人员在2015年开发了一种包含时变的深度学习版本,但这种方法相对笨拙。
根据Han的估计,训练深度学习算法将视频解释为静止图像可能需要50倍的数据和8倍的处理能力。
韩与两位同事共同开发了一种称为“时间转换模块”的解决方案。用于视频识别的常规深度学习算法可一次对多个视频帧执行3D操作(称为卷积)。Han的方法使用更有效的2D算法,这种算法更常用于静止图像。时间移位模块提供了一种方法,可以捕获一帧中的像素与下一帧中的像素之间的关系,而无需执行完整的3D操作。当2D算法依次处理每个帧时,同时合并来自相邻帧的信息,它可以随着时间的推移实现事物展开的感觉,从而可以检测到所显示的动作。