这已经不是什么秘密,机器学习模型调整和调整,以近乎完美的表现在实验室中真正的设置往往会失败。这通常归因于AI经过训练和测试的数据与它在世界上遇到的数据之间的不匹配,这就是数据移位问题。例如,训练有素的AI可以在高质量的医学图像中发现疾病迹象,而在繁忙的诊所中,这些图像将被廉价相机捕获的模糊或裁剪图像所困扰。
现在,由来自Google的七个不同团队的40名研究人员组成的小组已经确定了导致机器学习模型普遍失败的另一个主要原因。被称为“规格不足”的问题可能比数据移位更大。负责这项研究的Alex D'Amour表示:“我们要求的机器学习模型超出了我们现有方法所不能保证的范围。”规格不足是统计中的已知问题,其中观察到的影响可能有许多可能的原因。拥有因果推理背景的D'Amour想知道为什么自己的机器学习模型在实践中经常失败。他想知道规格不足是否也是这里的问题。D'Amour很快意识到,许多同事在自己的模型中都注意到了同样的问题。他说:“实际上这是一个现象,到处都是。”
D'Amour的初步调查如雨后春笋般涌现,数十名Google研究人员最终研究了从图像识别到自然语言处理(NLP)到疾病预测的各种不同的AI应用程序。他们发现规格不足归咎于所有人的表现不佳。问题出在对机器学习模型进行训练和测试的方式上,而且没有容易解决的方法。
iRobot的机器学习工程师布兰登·罗勒(Brandon Rohrer)说,这篇论文是“令人震惊的球”,他曾在Facebook和Microsoft工作过,但并未参与这项工作。
相同但不同
要确切了解正在发生的事情,我们需要备份一点。粗略地讲,建立机器学习模型涉及对大量示例进行训练,然后对许多尚未见过的类似示例进行测试。模型通过测试后,就可以完成。
Google研究人员指出的是,这个门槛太低了。训练过程可以产生许多都通过测试的不同模型,但是,这是关键部分,这些模型将以小的任意方式有所不同,具体取决于像在训练开始之前为神经网络中的节点赋予随机值之类的事情,选择或表示训练数据的方式,训练的运行次数等。如果这些微小的,通常是随机的差异不影响模型在测试中的表现,通常会被忽略。但事实证明,它们可能导致现实世界中的性能发生巨大变化。
换句话说,当今用于构建大多数机器学习模型的过程无法确定哪些模型可以在现实世界中工作,哪些模型不能在现实世界中工作。