人工智能开发过程中有很多步骤,但可以归结为三个主要部分:学习,推理和自我纠正。在这些点上的每一个都涉及算法。在学习方面,用于AI模型的编程算法需要数据采集和标记。推理需要AI为特定情况选择最佳算法,然后进行自我纠正,并不断进行改进,直到达到其目的为止。
在这些阶段的每一个阶段(从计划数据收集的早期阶段到对AI的进一步改进),都有可能会潜伏到最终产品中。这些偏差通常是由于行业内缺乏多样性而引起的,并且经常导致错误,而这些错误在所谓的“功能齐全”的机器中是无法接受的。
如果我们希望将道德规范整合到AI开发中,那么我们必须在流程的每个步骤中引入多样性-从数据收集一直到产品测试。
在数据收集阶段,考虑是非常重要的是如何将数据收集,处理和标记。收集数据时是否考虑了文化偏见等问题?数据可靠吗?如何处理数据,使其代表机器可能遇到的所有情况?
在收集和处理培训数据时,重要的是让数据科学家意识到可能存在的偏差。解决此问题的一些方法是确保从各种样本中收集足够的数据。这本身是一个漫长的过程,需要正念。
从一开始,负责该过程的人员就必须提出以下问题:我们是否有足够的数据,是否存在可以使用的现有数据集,以及如何生成可以使用的数据?如果有足够的数据,我们是否需要改进现有模型?还是我们需要更多的标签数据来更好地进行机器学习?
在数据标记阶段,拥有一支多样化的标记团队可以帮助消除训练数据集的偏见,从而使数据集真正准确,高质量。提倡多样性时,大多数人通常会想到性别,但是它比这更广泛。种族,年龄,宗教,文化甚至收入可能是可能影响AI应用方式的因素。