研究评估性别对人脸识别软件的影响

人脸识别软件工具如何准确地识别不同性别，年龄和种族背景的人?根据美国国家标准技术研究院(NIST)的一项新研究，答案取决于系统核心的算法，使用该算法的应用程序以及所馈送的数据，但是大多数人脸识别算法都具有人口统计学特征差异。差异意味着算法对同一个人的两张图像进行匹配的能力在一个人口统计学组之间变化。

报告中捕获的结果，即面部识别供应商测试(FRVT)第3部分：人口统计影响(NISTIR 8280)，旨在为政策制定者提供信息，并帮助软件开发人员更好地了解其算法的性能。面部识别技术之所以引起了公众的争论，部分原因是因为需要了解人口统计学对面部识别算法的影响。

NIST的计算机科学家，报告的主要作者帕特里克·格罗瑟(Patrick Grother)说：“虽然在各种算法中进行陈述通常是不正确的，但我们发现了我们研究的大多数面部识别算法中存在人口统计学差异的经验证据。”“尽管我们不探讨可能导致这些差异的原因，但这些数据对于决策者，开发人员和最终用户在考虑这些算法的局限性和适当使用时将是有价值的。”

这项研究是通过NIST的人脸识别供应商测试(FRVT)程序进行的，该程序对行业和学术开发人员提交的人脸识别算法执行不同任务的能力进行了评估。虽然NIST并未测试使用这些算法的最终商业产品，但该程序显示出该领域正在迅速发展。

NIST的研究评估了来自大多数行业的99位开发人员的189种软件算法。它着重介绍每种算法在人脸识别最常见的应用程序中执行两种不同任务之一的效果如何。确认照片与数据库中同一个人的另一张照片匹配的第一项任务称为“一对一”匹配，通常用于验证工作，例如解锁智能手机或检查护照。第二，确定照片中的人在数据库中是否有任何匹配项，称为“一对多”匹配项，可用于识别感兴趣的人。

为了评估每种算法在其任务上的性能，该团队测量了该软件可能产生的两类错误：误报和误报。误报意味着软件错误地认为两个不同的人的照片可以显示同一个人，而误报意味着软件无法匹配实际上确实显示同一人的两张照片。