在当今的数字经济中,没有什么资产比数据更有价值。将数据称为“新石油”已经到了陈词滥调的地步。正如最近的《经济学家》杂志标题所说,数据是“世界上最有价值的资源”。
由于数据在推动机器学习和人工智能解决方案中发挥着至关重要的作用,因此今天的数据如此受到高度重视。从Netflix的推荐引擎到Google的无人驾驶汽车,要训练一个有效运行的AI系统,需要大量的数据。
结果就是对越来越大的数据产生了迷恋。根据流行的智慧,拥有最多数据的他可以构建最好的AI。从IBM到通用电气的老牌公司都在争相将自己重新命名为“数据公司”。软银的愿景基金(Vision Fund)是世界上最大和最具影响力的技术投资者,这毫不掩饰事实,即寻找初创公司支持的重点是数据资产。用软银领导人孙正义(Masayoshi Son)的话说,“那些统治数据的人将统治世界”。
随着商业和技术界越来越多地将数据定位为最终的制胜者,人们对这一重要现实的关注却越来越少:人工智能的未来可能会大大减少数据密集性。
在人工智能的前沿,正在进行各种努力来开发不需要大量标记数据集的改进形式的AI。这些技术将重塑我们对AI的理解,并以深刻的方式破坏业务格局。行业领导者最好注意。
今天,为了训练深度学习模型,从业人员必须收集成千上万,数百万甚至数十亿的数据点。然后,他们必须在每个数据点上粘贴标签,这是一个昂贵且通常是手动的过程。如果研究人员不需要费力地收集和标记现实世界中的数据,而是可以从头开始创建他们需要的确切数据集怎么办?
领先的技术公司(从Nvidia等知名竞争对手到Applied Intuition等初创企业)正在开发方法,以几乎完全免费的方式完全数字化地制作高保真数据。这些人为创建的数据集可以根据研究人员的确切需求进行定制,并且可以包含数十亿种替代方案。
Nvidia仿真技术主管Mike Skolones说:“出去改变现实世界中的照明非常昂贵,而且您无法在室外场景中改变照明。”但是您可以使用综合数据。
随着合成数据准确地逼近现实世界数据,它将使人工智能民主化,削弱专有数据资产的竞争优势。如果一家公司可以通过仿真快速生成数十亿英里的真实驾驶数据,那么Waymo投资十年收集的几百万英里的真实世界驾驶数据有多有价值?在可以按需廉价地生成数据的世界中,跨行业的竞争动态将被颠覆。