您的位置:首页>科技>

Facebook的AI检测到文本中的性别偏见

在本周发表的一篇技术论文中,Facebook研究人员描述了一个框架,该框架可以沿多个维度分解文本中的性别偏见,他们使用该框架来注释数据集并评估性别偏见分类器。如果实验结果能说明问题,那么该团队的工作可能会从性别角度揭示进攻性语言,甚至可能控制自然语言处理(NLP)模型中的性别偏见。

研究人员称,所有数据集,注释和分类器都将公开发布。

一个公开的秘密是,人工智能系统和受其训练的语料库经常反映出性别定型观念和其他偏见。实际上,谷歌最近在Google翻译中引入了针对性别的翻译,主要是为了解决性别偏见。科学家们提出了一系列的方法来减轻和衡量这个,最近有一个排行榜,挑战和指标集的配音StereoSet。但是很少(如果有的话)得到广泛使用。

Facebook团队表示,其工作考虑了人类如何通过社交和社交方式构建语言和性别认同。也就是说,正在发言它占(1)从人的性别偏压约,(2)从所述人的性别偏压正在发言到,和(3)从扬声器的性别偏见。该框架试图以这种方式捕捉描述女性的形容词,动词和名词与描述男性的形容词,动词和名词不同的事实。收件人的性别影响他们与他人交谈的方式;以及性别对一个人的身份的重要性。

利用此框架和Facebook的ParlAI(用于训练和测试NLP模型的开源Python工具集),研究人员开发了分类器,将句子的偏见分解为维度-偏见于所讨论人员的性别等,同时包括性别信息。落在男女二进制数之外。团队对分类器进行了培训,内容包括从Wikipedia,Funpedia(非正式的Wikipedia版本),Yelp评论,OpenSubtitles(电影对话),LIGHT(聊天幻想对话)和其他来源中提取的一系列文本。之所以选择这些关键字,是因为它们包含有关作者和收件人性别的信息,可以为模型的决策提供依据。

研究人员还通过收集两名志愿者演讲者之间的对话,创建了一个专门的评估语料库-MDGender,每个演讲者都有一个包含性别信息的角色描述,并负责采用该角色并与维基百科的传记部分进行对话。注释者被要求重写对话中的每个回合,以清楚地表明他们是在谈论一个男人或一个女人,以一个男人或一个女人的身份说话,并且正在与一个男人或女人说话。例如,对“您今天好吗?我刚下班”可能被改写为“嘿,我和我的朋友和她的狗一起去喝咖啡。”

在实验中,研究小组评估了针对MDGender的性别偏见分类器,测量了男性,女性和中性类别的百分比准确性。他们发现,性能最佳的模型(即所谓的多任务模型)在所有数据集上正确地分解了77%的句子,而在Wikipedia上则仅分解了81.82%的句子。

在另一组测试中,研究人员应用性能最佳的分类器来控制所生成文本的性别,在Wikipedia中检测有偏见的文本,并探索令人反感的内容与性别之间的相互作用。

他们报告说,在包含来自Reddit的250,000个文本片段的数据集上对分类器进行训练后,分类器就可以根据命令生成性别句子,例如“ Awwww,听起来很棒”和“您可以做到!”单独地,该模型设法对一组传记中的段落进行评分,以识别哪些是“大约”维度中的男性(74%偏向男性),但是分类器对女性页面的女性化更有信心,这表明女性传记包含更多性别的文字)。最后,在对分类器进行训练并将其应用于流行的带有明显性别的单词的语料库之后,他们发现25%的男性单词属于“令人反感”的类别,例如“性暗示”。

“在理想的世界中,我们期望描述男性,女性和具有其他性别认同的人的文字之间几乎没有区别,除了使用明显的性别词语,例如代词或名字。因此,机器学习模型将无法掌握性别标签之间的统计差异(即性别偏见),因为这样的差异将不存在。不幸的是,我们知道情况并非如此。”合著者写道。“我们为此目的提供了一个更细粒度的框架,分析了模型和数据中性别偏见的存在,并通过发布可用于解决众多基于文本的用例的这些问题的工具来赋予他人权力。”

免责声明:本文由用户上传,如有侵权请联系删除!