我们在计算机视觉领域取得了长足的进步,以至于配备了人工智能(AI)的自动驾驶汽车可以有效地“看到”周围的环境。但是,我们可以教AI如何“感受”它所看到的东西吗?Getty Images的人们认为我们可以。
乍一看,人工智能可以“感受”某些东西的想法似乎牵强。总体而言,感觉与我们的人类身份紧密相关。任何人对某事的感觉必然与另一人的感觉不同。根据定义,感觉是主观的。实际上,很难找到比“感觉”更主观的主题。那么,这如何与计算机的客观功能相结合?
根据Getty Images的高级数据科学家Andrea Gagliano的说法,该解决方案相对简单。
就像计算机视觉程序通过将图像分解为组成特征(或向量)并将其与已知实体进行比较来攻击识别问题一样,Getty也在训练深度神经网络算法以寻找图像本身中的某些元素以确定有关人类将依附于他们的情绪的线索。
加利亚诺说,这个窍门是将各种人类情感编码为与图像相关的向量。对于盖蒂数据科学家选择的每种情感或感觉,例如“真实的”或“此刻”,该公司将收集以某种方式表示该感觉或情感的图像集合。每个图像都有100到1,000个可以构建该矢量的特征或变量,然后可以用来推断新图像。一旦建立起来,这些模型就可以用来生成更好的关键字,以帮助用户找到图像,Gagliano说。
她说:“从计算机视觉的角度来看,我们正在构建更丰富的元数据,以数学方式表示图像的不同部分,无论是图像的语义理解还是人们周围的事物。”
除了生成更好的关键字之外,向量还可以用于创建与某些感觉或心情相对应的不同图像组。例如,该公司正在寻求使用高维特征来表示“真实”或“当下”的感觉,Gagliano说。
她说:“我们在客户[要求]方面正在做很多工作,以提供更多'真实的'和'较少库存的'图像。”“所以我们正在解构,那真的意味着什么?这是否意味着人们没有微笑,或者他们没有看着相机?可能存在着温暖的人际关系,或者也许他们在此刻,在说话或举手。因此,“真实图像”的像素元素是什么,我们可以围绕这些图像元素建立计算机视觉,以补充图像周围的语言数据,从而能够在搜索中更好地提供这些图像。”
Gagliano说,无论是通过传统关键字还是通过幕后的高维度功能,用户与图像进行交互的方式都是为了为Getty Images用户提供与公司目录中3亿张图像进行交互的新方式。