充满AI的艺术构图工具正迅速成为老派。麻省理工学院与IBM Watson AI实验室的科学家是麻省理工学院与IBM合作在未来十年共同追求AI技术的科学家,最近详细介绍了一种工具,该工具可让用户上传任何照片并编辑建筑物,植物和固定装置的外观。3月,Nvidia在加利福尼亚州圣何塞举行的GPU技术会议(GTC)上揭开了GauGAN的面纱,GauGAN是一种对抗性人工智能生成系统,可让用户创建栩栩如生的风景图像。
但是,加州大学伯克利分校,牛津大学和Adobe Research的研究人员希望通过交互式草图和填充技术进一步推动该领域的发展,该系统是一种机器学习系统,可以在用户绘制对象时以交互方式向用户推荐对象。在预打印服务器Arxiv.org上新发表的论文中对此进行了描述(“交互式草图和填充:多类草图到图像翻译”)。
共同作者写道:“ [AI]图像翻译模型在获取抽象输入(例如边缘图或语义分割图)并将其转换为真实图像方面显示出了非凡的成功。”“将其与用户界面相结合,使用户可以在目标域中快速创建图像。但是……对于许多人来说,完成线条画而没有任何反馈可能会很困难,因为未经训练的从业人员通常会徒劳地徒手绘制徒手绘制准确比例的对象及其零件,3D形状和透视图。结果,使用当前的交互式图像转换方法,通过编辑现有图像而不是从头开始创建图像,可以获得逼真的图像。”
该团队使用多部分系统解决了图像生成问题,其中涉及从用户草图中建议对象形状并提供完成作品的预览。他们设计了形状和外观完成模块,以根据草图更新建议的形状,并采用了GAN(由两部分组成的神经网络,该网络由生成样本的生成器和鉴别器组成,这些鉴别器试图区分生成的样本和实际样本。以帮助增强完整图像的准确性。
为了评估系统的健壮性,研究人员获得了两个开源数据集(edge2shoes,CelebA-HQ)用于对象渲染,它们的边缘通过单独的AI模型进行了简化,以更类似于人类绘制的笔触。在测试形状完成和图像生成之后,他们引入了更具挑战性的语料库,其中包含来自流行的互联网搜索引擎的200张篮球,鸡肉,饼干,纸杯蛋糕,月亮,橘子,足球,草莓,西瓜和菠萝的图像。研究人员说,在所有测试中,该系统都能在大多数时间生成正确类别的图像,他们认为这是朝着完全端到端系统迈出的令人鼓舞的一步。
“ [我们]一种用于交互式对象生成的两阶段方法,围绕着形状完成中介的思想……使[AI模型]训练更加稳定,还使我们能够向用户提供粗略的几何反馈,他们可以选择他们按照自己的意愿进行整合。”他们写道。
值得注意的是,这不是Adobe首次涉足AI辅助艺术。在6月份发表的一篇论文中,马里兰大学和Adobe Research的研究人员描述了一种新颖的机器学习系统LPaintB,该系统可以在不到15分钟的时间内复制Leonardo da Vinci,Vincent van Gogh和Johannes Vermeer风格的手绘画布。一分钟。