如何对抗算法偏见？| Physics World 专栏 / 四六文摘

pixabay.com

近年来，物理学家们越来越多地开发人工智能（AI）和机器学习（ML）技术，以增进我们对物理世界的理解。不过，人们也越来越担心这些系统中的偏见及其对整个社会的广泛影响。

Physics World 的这篇文章，探讨了人工智能中的种族和性别偏见问题，以及物理学家们可以如何认识和解决这些问题。

作者｜Juliana Photopoulos

翻译｜王雨丹

校译｜于茗骞

● 　● 　●

2011年，在佐治亚理工学院攻读本科学位时，加纳裔美国计算机科学家乔伊·布奥兰维尼（Joy Buolamwini）发现，机器人无法陪她玩一把简单的躲猫猫游戏——因为机器无法识别她黑色的脸庞。2015年，麻省理工学院媒体实验室的硕士研究生布奥兰维尼参加了一个名为 “Aspire Mirror” 的科学艺术项目，在处理面部分析软件时也遇到了类似的问题：只有当她戴上白色面罩时，软件才能检测到她的脸。

这两件事只是巧合吗？

好奇心驱使布奥兰维尼去探索这其中的奥秘。她将自己的照片上传到四个不同的面部识别系统中，但结果都不如人意：要么根本识别不出是一张人脸，要么就是性别不对。她把系统的这种偏见称为 “编码凝视”（coded gaze）。随后，她决定对来自3个非洲国家和3个欧洲国家的1270名政客进行面部测试，他们有着不同的面部特征、肤色和性别。这一测试成为了她的硕士论文项目：“性别阴影：商用性别分析中的交叉精度差异”（Gender Shades: Intersectional accuracy disparities in commercial gender classification）（图1）。布奥兰维尼发现，由微软，IBM和Megvii开发的三种商用面部识别技术，在识别面部深色皮肤的女性时都会出错，识错率约35%。而在白人男性身上，它们的识别结果几乎完美（99%）[1]。

图1 精准度大比较 | 图源Joy Buolamwini

乔伊·布奥兰维尼（Joy Buolamwini）、蒂姆尼特·格布鲁（Timnit Gebru）、黛博拉·拉吉（Deborah Raji）及其同事致力于 “性别阴影” 项目（Gender Shades），以评估人工智能性别分类产品的准确性。这一项目研究了三家公司的商业产品，评估他们如何对来自非洲和欧洲国家的1270张人像进行分类。受试者按性别、肤色以及二者的交集进行分组。研究发现，尽管这些产品总体上具有较高的准确性，但不同组之间的错误率存在显著差异。所有公司的产品在面部识别上的精度，都是男性优于女性、浅肤色人群优于深肤色人群。其中，对深肤色女性的识别最差，三分之一以上的识别结果不及格。精度差异的一个关键因素，是机器在训练图像和基准数据集时缺乏多样性。

人们通常认为，机器能做出更明智、更好和更客观的决定，但这些现存的算法偏见，无疑消除了机器中立的概念，并且复制了社会现有的不平等现象。从黑人被误标记为大猩猩，到谷歌搜索 “黑人女孩” 或 “拉丁女孩” 弹出成人内容，再到医疗设备对肤色较深的人而言效果不佳…… 很明显，机器算法存在固有的歧视。

“这个不平等的社会充斥着种族主义和性别歧视，所以即使计算机编程人员心存善念，算法也会有偏见和歧视。” 来自纽约大学AI Now研究所的乔伊·利西·兰金（Joy Lisi Rankin）说道，她是人工智能中性别、种族和权力研究项目的负责人，其著作包括《美国人民计算史》（ A People’s History of Computing in the United States）[2]。“它们只会反映和放大世界上更大的偏见。”

物理学家越来越多地将人工智能和机器学习应用到不同领域，从医学物理到材料学等等。虽然他们可能认为自己的研究只会应用于物理学，但他们的发现也可以转化到社会层面。

“作为粒子物理学家，我们的主要目标是开发工具和算法，以助我们找到超越标准模型的物理学。但不幸的是，我们没有停下来思考，没有料到这些工具和算法将如何在技术中得到广泛应用，并在社会中每天被用来进一步压迫边缘化的个体，”杰西卡·埃斯基维尔（Jessica Esquivel）说道，他是伊利诺伊州芝加哥费米国家加速器实验室（Fermilab）的物理学家和数据分析员，正致力于开发人工智能算法来增强Muon g-2实验中的束流存储和优化。

更重要的是，物理学中缺乏多样性的现状，不仅会影响到已完成的工作，也会影响正在被创建的系统。“性别和种族的失衡问题，无疑是纠正人工智能中一些更广泛的偏见问题的障碍。” 新泽西州普林斯顿大学的粒子物理和机器学习研究员萨凡纳·泰斯（Savannah Thais）表示。这就是为什么物理学家需要意识到他们现有的偏见，更重要的是，作为一个群体，他们需要扪心自问：自己到底应该做什么。

“智慧生命” 的诞生

机器可以成为智能生物，这一想法已经存在了几个世纪，古希腊和其他文明都有有关于机器人的神话。但直到第二次世界大战之后，科学家、数学家和哲学家们才开始真正讨论创造人工思维的可能性。

1950年，英国数学家阿兰·图灵（Alan Turing）提出了一个著名的问题：机器是否会思考？他提出用图灵测试（Turing Test）来测量机器的智力。六年后，在新罕布什尔州汉诺威市的人工智能达特茅斯夏季研究项目期间，人工智能的研究领域正式成立。基于人类思维过程可以在计算机程序中被定义和复制的想法，“人工智能”（artificial intelligence）一词由美国数学家约翰·麦卡锡（John McCarthy）首创，取代了以前使用的 “自动机研究”（automata studies）。

虽然上世纪五六十年代奠定了人工智能和机器学习的基础，但这一领域真正实现腾飞还是花了一段时间。“直到过去10年间，强大的计算能力、标记数据和高科技公司的财富才结合起来，使大规模的人工智能成为了可能。” 兰金表示。而且，正如1983年麻省理工学院《学术界平等的障碍：计算机科学领域的女性》报告所强调的那样 [3]，尽管美国黑人和拉丁美裔妇女早在上世纪70年代就开始讨论计算机中的歧视和不平等问题，但直到近十年间，有关计算机系统中的偏见问题才得到了更广泛的讨论。

图2 在计算机发展早期，计算机操作是一项主要由女性完成的低薪工作。随着这一领域声望渐高，白人男性逐渐占据了主导地位。图为1972年，一名美国政府的女性雇员正在使用NCR 796-201可视终端 | 图源：National Archives at College Park

实际上，自上世纪40到60年代，女性已经成为了英美两国计算机行业的核心，正因如此，计算机领域对于女性的偏见才更令人惊讶。

“计算机过去是 '人’，而不是机器，而且这些'人’大多都是女性。”兰金表示，“但当她们被淘汰且被白人男性取而代之时，这个领域便发生了变化。” 正如她说的那样：“计算机行业从女性化和不受重视变得声望日盛和更加男性化。”事实上，上世纪80年代中期，在美国获得计算机科学学位的所有毕业生中，将近40％是女性；但是到了2010年，这一比例已降至15％。

在科学、技术、工程、数学和医学领域，计算机科学和物理一样，从业者的性别差距都是最大的 [4]。尽管获得物理学学位的女性人数有所增加，但在美国授予的所有学位类型中，女性所占比例仅为20%，黑人的比例则更低。2017年，美国仅有3%的物理学本科学位授予了黑人学生。在英国也存在着类似的问题，2018年英国所有本科生中，女性占了57.5%，但在所有物理学本科生中，黑人女性只占了1.7%。

这种性别和人种上的分布差异，对研究的构建、进行和实施都产生了严重的影响。兰金表示，构建算法技术时缺乏群体多样性，而新兴的技术又可能会伤害到妇女、有色人种、残疾人和LGBTQ群体，这二者之间形成了一个有害的反馈循环。一个现实的例子就是亚马逊的招聘算法，这一算法基于历史的招聘实践和申请人数据，会首先拒绝女性的工作申请。最后，亚马逊弃用了这一招聘算法，因为既往的招聘史将性别偏见深深刻进了他们的系统中，无法确保招聘公平。

机器算法偏见中的许多问题在《偏见系统》（Discriminating Systems）这份报告中得到了解决 [5]。《偏见系统》是AI Now研究所2019年的一份重要报告，报告表明，不应将群体多样性和人工智能的偏见问题分开来考虑，因为它们是 “同一问题的两个方面”。兰金补充说，职场性骚扰也与歧视和偏见有关，她指出，据美国国家科学院、工程院和医学院报告，科学领域中半数以上的女性教职员工都经历过某种形式的性骚扰。

泰斯表示，从多方来看，物理学中的多种声音是至关重要的。她目前正在为欧洲核子研究组织（CERN）的高光度大型强子对撞机开发基于机器学习的加速重建算法。“大部分物理研究人员没有与受到这些算法影响的其他种族、性别和群体的人群直接接触的经验。” 埃斯基维尔认为，正因如此，被边缘化的科学家个体需要参与到算法的开发中来，以确保他们不会被偏见所淹没。

美国斯坦福大学人工智能研究员普拉图莎·卡卢里（Pratyusha Kalluri）也这样认为。她参与创建了 “激进人工智能网络”（Radical AI Network），该网络提倡反压迫技术，并为那些被人工智能边缘化的人发声。卡卢里去年在Nature 上写道：“是时候把被边缘化和受算法影响的群体置于人工智能研究的中心了，他们的需求、知识和梦想应该指导技术的发展。” [6]

物理学家的角色

让我们回到费米实验室。布莱恩·诺德（Brian Nord）是一位宇宙学家，他利用人工智能来寻找宇宙起源和进化的线索。他解释说：“在多年的观测中，望远镜扫描天空，收集包括图像在内的大量复杂数据，而我则使用人工智能来分析这些数据，以了解导致时空扩张加速的暗能量。”

然而，2016年，他在阅读了 ProPublica 的一份调查报告后意识到：人工智能可能有害且会对黑人产生偏见 [7]。该报告分析了一个名为COMPAS的风险评估软件，该软件在美国法庭上用于预测哪些罪犯最有可能再次犯罪，以及决定保释条件。调查发现，不论是所犯罪行的严重程度还是再次犯罪的实际可能性，黑人被贴上高风险标签的可能性几乎是白人的两倍。对此，诺德表示：“我非常担心自己在开发算法时的'共谋’行为，将来这些算法的应用可能会对我不利。” 作为黑人，他知道面部识别技术对他这样的人有偏见，经常错认黑人，且监管不严。

因此，虽然物理学家可能已经开发出某种人工智能技术来解决纯粹的科学问题，但在现实世界中，它的应用却超出了他们的控制范围——人工智能的使用者可能会动机不纯。“这更有可能使我的权利受到侵犯，剥夺我在群体、社会和生活各方面的权利，” 诺德说道。

对于这些问题，诺德决定不另起炉灶，而是建立一个由物理学家和计算机科学家组成的联盟，以便在开发算法时争取更多的审查。他指出，向美国执法机构和其他私人机构提供面部识别设备的Clearview AI等公司，正在搜集社交媒体数据，然后在未经用户明确同意的情况下向执法部门出售监控服务。他警告说，许多国家都在利用监视技术对民众进行广泛的压迫，“以数据为主导的技术剥夺了人们的权利，例如数据隐私问题、数据和科学如何被用来侵犯民权、技术如何维护白人至上和监视资本主义的历史等，物理学家应该致力于理解这些权力结构。”

为了让这个问题引起更广泛的关注，诺德、埃斯奎维尔和其他同事给粒子物理学界写了一封信。这也是 “雪团” 项目（Snowmass）的一部分，“雪团” 定期为美国和美国之外的粒子物理界的未来发展树立科学远景。他们在信中讨论了 “计算研究的伦理意义和科学家的角色”，强调了无论是作为个人、还是在各机构和基金会任职的物理学家们，都应该关心他们正在构建和实施的算法 [8]。

泰斯还敦促物理学家们——这些有着深厚技术知识的公民们，积极参与到人工智能伦理的治理中来 [9]。她说：“让物理学家们意识到人工智能和机器学习方面的偏见问题非常重要，即使在机器学习的物理学研究应用中通常不会出现这种情况。” 泰斯解释说，这样做的原因之一是，许多物理学家离开原有领域，到计算机软件、硬件和数据科技公司工作。“许多这样的公司都在使用人工数据，因此我们必须让学生们提前具有责任意识。我们不能只教授技术技能，而忽视更广泛的社会背景，因为许多人最终将把这些方法应用到物理学之外。”

对此，泰斯和埃斯基维尔也都认为，物理学家在理解和管理人工智能方面扮演着重要的角色，因为他们往往必须使用产出更精确输出数据的方法，来解释和量化系统的不确定性，然后才能抵消数据中的固有偏差。泰斯说：“有了这种更加 '黑匣子’ 化的机器学习算法后，我们真的很想了解它的准确性，了解它在边界情况下是如何工作的，以及它为什么在某个特定的问题上表现最好。而这些都是物理学家们曾完成过的任务。”

另一位利用物理学来提高人工智能精准度和可靠性的研究人员，是帕耶尔·达斯（Payel Das），她是IBM托马斯·J·沃森研究中心的首席研究员。为了设计新的材料和抗生素，她和团队正在开发机器学习算法：将从数据和物理原理结合起来，从而使一项新科学发现的成功率提高百倍。达斯说：“我们经常借助已有的科学知识或其他形式的知识（例如基于物理学原理），来增强、指导或验证人工智能模型，以使其系统更耐用、高效、易于解释和可靠。” 她对此做了进一步解释，即“通过使用物理学驱动的学习，人们可以在准确性、可靠性和归纳偏差等方面对人工智能模型进行交叉检查。”

算法偏见的现实影响

算法决策工具可能是为科学研究而开发的，但被用于商业监视，在这种情况下，数据中任何微小的偏差都会产生现实后果。

2015年，一位黑人软件开发人员在推特上说，谷歌相册将他和朋友的照片标记为 “大猩猩”。而谷歌公司通过删除 “大猩猩” （gorillas）及其他表示灵长类动物的词来解决了这个问题。通过审查这些搜索，谷歌相册的识别照片服务再也找不出如 “大猩猩” “黑猩猩” 和 “猴子” 等灵长类动物。

在搜索 “黑人女孩” “拉丁女孩” 或 “亚洲女孩” 等词条时，谷歌广告门户网站会提供关联色情内容的关键词建议 [10]。搜索这些族裔的 “男孩” 也大多返回了与色情有关的建议，但搜索 “白人女孩” 或 “白人男孩” 时则未有建议词条出现。2020年6月，谷歌广告门户还在客体化黑人、拉丁裔和亚洲人，现已通过阻止这些词条的出现来解决该问题。

红外医疗技术（例如脉搏血氧仪），在深色皮肤上无法正常工作，因为其穿过皮肤的光线较少 [11]。这种情况会导致读数不准确，可能意味着患者无法获得所需的医疗护理。同样的红外线技术，在公共洗手间的皂液器上也被证明几乎不起作用。

审核算法

去年，数据伦理与创新中心（Centre for Data Ethics and Innovation）发表了一篇关于算法决策偏见的评论 [12]。该中心属于英国政府的数据驱动和技术独立咨询机构。研究发现，过去几年，在招聘、金融服务、警务和地方政府四个部门，算法决策有了显著增长，并发现了算法偏见存在的明确证据。报告呼吁各组织积极利用数据来识别和减轻算法偏见，并确保了解其工具的功能和局限。来自爱丁堡大学的人工智能教授、贝叶斯中心（Bayes Centre）主任迈克尔·罗瓦佐斯（Michael Rovatsos）也表达了这种看法：“要想真正获取数据或算法是非常困难的”，他补充说，政府应要求公司进行审计，并应该要求其在现实世界中应用的系统保持透明。

就像布奥兰维尼一样，一些研究人员正试图利用他们在人工智能方面的科学经验，从外部揭示商业算法中的偏见。其中包括数学家凯西·奥尼尔（Cathy O'Neil），她在2016年撰写了《数学杀伤性武器》（Weapons of Math Destruction）一书，讲述了她在数据偏见方面的工作。2018年，她成立了一家咨询公司，并与公司私下合作，审核他们的算法。如今，布奥兰维尼还在继续她的工作，通过非盈利的算法正义联盟（Algorithmic Justice League）创建更公平和负责任的技术，这是她于2016年成立的一个跨学科研究机构，旨在了解人工智能技术的社会意义。

图3 镜子 | 图源TJ Rak

计算机科学家乔伊·布奥兰维尼（Joy Buolamwini）通过一些面部分析演示测试了自己的这张照片。微软和Face++没有检测到她的脸，而IBM和Kairos搞错了她的性别。

2018年，她与计算机科学家提姆尼特·格布鲁（格布鲁是 “Black in AI” 的创始人之一）共同发表了《性别阴影》（Gender Shades）研究报告，研究结果后被发送给了涉及到的公司。一年后，他们又进行了一项后续研究以重新审核，并新增了两家公司：亚马逊和凯罗斯（Kairos） [13]。在计算机科学家、现任Mozilla基金会研究员黛博拉·拉吉的带领下，该研究的后续调查发现，这两家公司存在巨大的精度错误——亚马逊的面部识别软件甚至无法对米歇尔·奥巴马（Michelle Obama）脸进行正确分类，但最初的三家公司识别精度已经有了明显改善，这表明他们的数据集是用更多样化的图像进行训练的。

这两项研究对现实世界产生了深远的影响：促成了两项美国联邦法案：《算法责任法案》（Algorithmic Accountability Act）和《禁止生物特征住房壁垒法案》（No Biometric Barriers Act），以及纽约和马萨诸塞州的州法案。这项研究还说服了微软、IBM和亚马逊停止为警方办案提供面部识别技术。如今，她正在继续算法评估的工作，并在去年与谷歌的同事一起开发了一个用于人工智能准确度的算法审计框架。“内部审计至关重要，因为它允许在将系统被部署到世界各地之前对其进行更改，” 她补充说，人工智能有时所涉及的偏见可能对特定人群有害，“因此，确定在这些决策中最易受伤害的群体，并对人工智能领域发展过程中可能引入偏见的时刻进行审查是很重要的。”

2019年，AI Now研究所发布的一份详细报告 [14]，为有兴趣负责人地使用算法决策工具的公共机构提供了一个架构，并在随后发布了算法问责政策工具包。该报告呼吁，人工智能和机器学习领域的研究人员应该了解自己正在构建什么，还要考虑从事领域的潜在风险和危害，并更好地记录模型和数据来源。

埃斯基韦尔指出，物理学家了解其数据来源的重要性（尤其是用于训练机器学习系统的数据集），“许多用于粒子物理数据的算法都是经过微调后的架构，由人工智能专家开发，并经过行业标准数据集训练。然而，这些数据后被证明充斥着种族主义、不公平对待和性别歧视。” 她以麻省理工学院为例：麻省理工学院删除了曾广泛使用的、拥有8000万张图像的人工智能数据集，因为这些图像被以攻击性的、种族主义的和厌女的方式贴上标签 [15]。

格布鲁和同事最近还强调了大型数据集现存的一些问题，例如 Common Crawl ——一个网页爬虫数据的开放式储存，其中充满了白人至上主义、年龄歧视和厌女主义等观点的过度代表 [16]，而她最近也因为这篇文章被谷歌人工智能的伦理团队解雇。基于这些现实情况，埃斯基韦尔清楚地表明：学术界 “有机会成为开发这些工具的公立第三方”。

消除偏见

在2019年的报告中, AI Now 研究所还建议对人工智能偏见领域的研究应不止于技术修正。“我们不仅需要改变算法或系统，还需要改变行业制度和社会结构，” 兰金解释说。她认为，要想监管、消除或尽量减少人工智能算法中的偏见和歧视，就必须采取 “大规模的集体行动”，让自然科学界以外的人参与进来也会对此有所裨益。

诺德也认为，物理学家需要与其他学科的科学家及社会科学家、伦理学家们合作。

“不幸的是，就这些花费了大量时间和精力进行文献和群体研究的各领域而言，我没有看到物理学家或计算机科学家们充分参与进来。” 他指出，“几乎每隔几周，就会有一个新的基于机器学习的应用程序出现，但它们糟糕、有害、毫无意义，甚至试图去完成一些不可能和不道德的事情。”例如，德克萨斯大学奥斯汀分校最近才停止使用一个机器学习系统预测研究生院录取学生的可能性，该系统的数据基于此前的录取周期，因此会产生算法上的偏见。对此，诺德问道：“为什么我们要在一个必然需要人文主义的地方寻求这种充斥着技术官僚主义的解决方案？”

对于算法偏见，泰斯坚持认为，物理学家必须厘清这些偏见问题的现状，并了解其他人为缓解这些偏见而采取的方法。“我们必须将这些对话纳入围绕机器学习和人工智能的所有讨论中。” 她希望物理学家们可以参加相关的会议、研讨会或演讲，“这项技术深刻影响着我们生活的方方面面，因此，不把相关工作放在更广泛的社会背景下是不负责任的。”

对此，诺德的思考更加清晰：“物理学家们在自问是否 '能够’ 构建或施行某些人工智能技术之前，应该先问自己是否 '应该’。” 他补充表示，将来也有可能会停止使用现行的一些有害技术，“使用这些技术与否，即是个体也是社会的选择。”

原文链接：

https://physicsworld.com/a/fighting-algorithmic-bias-in-artificial-intelligence/

参考资料（上下滑动可浏览）

1. http://proceedings.mlr.press/v81/buolamwini18a.html

2. https://www.hup.harvard.edu/catalog.php?isbn=9780674970977

3. https://homes.cs.washington.edu/~lazowska/mit/

4. https://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.2004956

5. https://ainowinstitute.org/discriminatingsystems.pdf

6. https://www.nature.com/articles/d41586-020-02003-2

7. https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing

8. https://www.snowmass21.org/docs/files/summaries/CommF/SNOWMASS21-CommF6_CommF3-CompF3_CompF6_brian_nord-054.pdf

9. https://physics.aps.org/articles/v13/107

10. https://themarkup.org/google-the-giant/2020/07/23/google-advertising-keywords-black-girls

11. http://bostonreview.net/science-nature-race/amy-moran-thomas-how-popular-medical-device-encodes-racial-bias

12. https://www.gov.uk/government/publications/cdei-publishes-review-into-bias-in-algorithmic-decision-making

13. https://dl.acm.org/doi/proceedings/10.1145/3306618?tocHeading=heading12

14. https://ainowinstitute.org/reports.html

15. https://gizmodo.com/mit-takes-down-popular-ai-dataset-due-to-racist-misogy-1844244206

16. https://dl.acm.org/doi/proceedings/10.1145/3442188

▲ 本文为Physics World 专栏的第42篇文章。

如何对抗算法偏见？| Physics World 专栏

相关推荐