在自我监督学习中(一种AI技术,训练数据由特征提取器自动标记),提取器可以利用低级特征(称为“快捷方式”),从而导致其忽略有用的表示。为了寻找一种可能有助于自动删除这些快捷方式的技术,Google Brain的研究人员开发了一个框架-“镜头”-使自我监督的模型优于以传统方式训练的模型。
正如研究人员在本周发表的预印本论文中所解释的那样,在自我监督的学习中,提取器生成的标签用于创建需要学习抽象的语义特征的借口任务。然后,例如可以通过对给定目标任务的模型进行微调,将在任务上经过预训练的模型转移到标签价格昂贵的任务上。但是定义借口任务通常具有挑战性,因为模型倾向于利用最简单的功能,例如徽标,水印和由相机镜头造成的色带。
幸运的是,对手可以使用模型可用来解决借口任务的功能,使借口任务变得更加困难。研究人员的框架(针对自我监督的计算机视觉模型)以轻量级的图像到图像处理图像。经过对抗性训练的图像模型称为“镜头”,以减少借口任务的性能。训练后,可以将镜头应用于看不见的图像,因此可以在将模型转移到新任务时使用。此外,镜头还可以通过聚焦输入和输出图像之间的差异来帮助可视化快捷方式,从而洞悉快捷方式的不同之处。
在实验中,研究人员在开源数据集CIFAR-10上训练了一种自我监督模型,并对其进行预测,以预测稍微旋转的图像的正确方向。为了测试镜头,他们在输入图像上添加了带有方向信息的快捷方式,这些快捷信息使模型无需学习对象级功能即可解决旋转任务。研究人员报告说,从合成快捷方式中学到的模型(没有镜头)表示表现不佳,而从镜头中学到的特征提取器总体上“戏剧性”地表现更好。
在第二项测试中,该团队在开源ImageNet语料库中的一百万幅图像上训练了一个模型,并让其预测了图像中包含的一个或多个补丁的相对位置。他们说,对于所有已测试的任务,增加镜片可以使基线得到改善。
“我们的结果表明,使用经过对抗训练的镜头自动删除快捷方式的好处可广泛应用于所有预置任务和数据集。此外,我们发现可以在各种特征提取器功能中观察到收益。”该研究的合著者写道。“除了改进表示法之外,我们的方法还使我们可以可视化,量化和比较通过自我监督学习的功能。我们确认,我们的方法可以检测并缓解先前工作中观察到的捷径,并且可以揭示鲜为人知的问题。”
在未来的研究中,他们计划探索新的镜头架构,并查看该技术是否可以应用于进一步改进监督学习算法。