人工智能和机器学习算法越来越善于预测视频中的下一个动作。在最好的可以相当准确地预测,其中后一个棒球威力旅游已经投了,或者的公路里程从起始位置的外观。为此,谷歌,密歇根大学和Adobe的研究人员提出了一种新颖的方法,该方法利用大型模型提高了艺术水平,该模型仅用几帧即可生成高质量的视频。更令人印象深刻的是,它无需像以前的方法那样依赖光流(场景中物体,表面或边缘的明显运动的模式)或地标等技术就可以做到这一点。
研究人员在描述其工作的预印本论文中写道:“在这项工作中,我们只是通过最大化标准神经网络的容量来研究是否能够实现高质量的视频预测。”“据我们所知,这项工作是第一个对容量增加对视频预测的影响进行彻底调查的工作。”
团队的基准模型建立在现有的随机视频生成(SVG)架构的基础上,并具有对未来预测中固有的不确定性进行建模的组件。他们针对为三种预测类别量身定制的数据集分别训练和测试了模型的多个版本:对象交互,结构化运动和部分可观察性。对于第一个任务(对象交互),研究人员从机器人手臂与毛巾交互的视频语料库中选择了256个视频,对于第二个(结构化运动),他们从Human 3.6M中提取了片段,该语料库包含了人类执行动作的片段就像坐在椅子上一样。至于部分可观察性任务,他们使用了来自前车仪表板摄像机镜头的开源KITTI驾驶数据集。
团队将每个模型的条件调整为2到5个视频帧,并让模型在训练期间预测未来的5到10帧-针对所有任务的分辨率为低分辨率(64 x 64像素),分辨率为低分辨率和高分辨率(128 x 128)像素)用于对象互动任务。在测试期间,模型最多生成25帧。
研究人员报告说,通过Amazon Mechanical Turk招募的评估人员,在对象交互,结构化运动和部分可观察性任务方面,最大的模型之一分别有90.2%,98.7%和99.3%的时间更可取。定性地,研究小组注意到,该模型清晰地描绘了人类的手臂和腿,并做出了“非常敏锐的预测,与地面真实情况相比,这些预测看起来很现实。