陈根:纠偏AI歧视,从打破行业偏见开始

文/陈根

科技是人类现有文化的延伸。科技在延展了人类智慧的同时,也继承了人们的偏见和歧视。

当前,人工智能作为第四次工业革命中的代表性技术,正在迅速改变我们所认知的世界。然而与此同时,现实世界中,由人所创造、从人类数据中学习观察的人工智能,也常常表现出和人类相似的偏见,不论是招聘中的性别歧视,还是人脸识别下的种族误判。

歧视的发生不仅折射出社会中原就存在的性别陈规与偏见,在设计与营销决策的过程中,人工智能还将进一步放大这些偏见。在科技能量日益增强的当下,思考和解决这些歧视的发生变得越来越重要。

AI偏见,是人类意志的产物

与随机杂乱、物竞天择的进化过程不同,人工智能是人类意志的产物,是为了达成某种目的而形成的。尽管人工智能作为技术包含着一个客观结构,但人工智能同时服务于人的目的理性活动。也就是说,任何一种人工智能算法在诞生前就已经被概念化,并且在开发的过程中必然伴随着开发者的意志

然而,从开发者的角度来看,美国劳工局的数据显示,虽然女性在劳动力市场中占了59%的比例,但在科技界往往只有20-30%的女性员工。在与程序开发相关的工作中,网站开发是女性比例最高的职业,但也只有不到40%。

据估计,截至2018年,仅仅在美国就有140万个与计算机相关的就业机会,而女性只会获得这其中29%的工作。人工智能的开发也很自然地继承了从业上的性别不平衡,没有足够的女性样本参与使得人工智能的知识不可避免地出现漏洞,这就是为什么会出现偏差错误的原因。

人工智能Now作为一家研究人工智能对社会影响的研究机构,其研究就表明,男性主导的人工智能产业与其生产的歧视性系统及产品之间有着明显的联系。比如,在机器学习领域里,其偏见的来源就包括不完整的或有偏差的训练数据集、训练模型代入人的标签和偏见,以及算法和技术的缺陷。

当训练数据中缺少某种统计类别时,人工智能习得的模型就无法正确衡量这部分特征。如果训练数据中男性比例过低,这一算法模型应用于男性时就有更大的误差;如果训练数据中关于“医生”的照片大部分是女性,搜索“医生”图片时,算法就会放大女性出现的概率。

于是,当科技从业者们的性别不平衡进一步表现在有偏差的训练数据集里时,性别歧视就出现了。亚马逊的Alexa和苹果的Siri等常见人工智能系统的核心——自然语言处理(NLP)就存在性别偏见,人工智能在词嵌入上的性别偏见,就像单词联想游戏一样。其中,这些系统通常将“男人”与“医生”相关联,将“女人”与“护士”相关联。而这也正是训练样本不完整、不足的典型代表。

从训练模型代入人的标签和偏见来看,绝大多数商业人工智能系统都使用监督机器学习,因此训练数据需要人为打上标签。这个过程中,就难免会有意无意将人的偏见编码到算法模型中。倘若人在设定标签时,将身材的胖瘦联系起来,算法自然会继承这一偏见

同时,这些偏见在算法和技术的缺陷下进一步被隐匿,当算法和所有人的生活紧密相关算法却以一种所有无法理解的方式在黑箱操作。“算法黑箱”带来的某种技术屏障使得无论是程序错误,还是算法歧视,在人工智能的深度学习中,都变得难以识别。偏见也因而无从解释。

此外,正是由于科技行业女性的低比例,使得科技行业弥漫的性别偏见难以打破、研发出来的人工智能产品折射出来的男尊女卑的“女性观”得不到纠偏。这种物化女性、加固性别刻板印象的趋势则进一步打击了女性进入科技界的意愿。从开发到应用,性别的歧视就在这样的不良循环里存在着,随时发生着。

适时纠偏,重建技术公平

当前,偏见、歧视、错误都是人工智能进步的必经之路,其前提是人们能够在意识到偏见存在时做出改变,适时纠偏。

显然,人工智能算法由人类开发,被人类使用。开发者们的价值观和偏见都将对算法造成极大影响。这也是为什么社会需要更多的女性科研人员参与人工智能的设计,甚至是将女性用户的需求以及尊重性别平等的理念融入到人工智能的系统里的重要原因

从技术开发的过程来看,不公正的数据集则是偏见的土壤——如果用于训练机器学习算法的数据集无法代表客观现实情况,那么这一算法的应用结果往往也带有对特定群体的歧视和偏见。事实上,算法存在的前提就是数据信息,而算法的本质则是对数据信息的获取、占有和处理,在此基础上产生新的数据和信息。简言之,算法是对数据信息或获取的所有知识进行改造和再生产

由于算法的“技术逻辑”是结构化了的事实和规则“推理”出确定可重复的新的事实和规则,以至于在很长一段时间里人们都认为,这种脱胎于大数据技术的算法技术本身并无所谓好坏的问题,其在伦理判断层面上是中性的。

然而,随着人工智能的第三次勃兴,产业化和社会化应用创新不断加快,数据量级增长,人们逐渐意识到算法所依赖的大数据并非中立。它们从真实社会中抽取,必然带有社会固有的不平等、排斥性和歧视的痕迹。因此,算法偏见最直接的解决思路就是将原本不均衡的数据集进行调整

比如,确保训练样本的多样性,在训练数据中使用与男性数量相近的女性样本,确保给样本打标签的人们有着多元化的背景等。

2018年,微软就曾与专家合作修正和扩展了用于训练Face API的数据集。Face API作为微软Azure中的一个API,提供预训练算法以检测、识别和分析人脸图像中的属性。新数据通过调整肤色、性别和年龄等所占的比例,将肤色较深的男性和女性之间的识别错误率降低20倍,女性的识别误差率降低9倍

此外,也有公司尝试通过构建全球社区,大规模地把某个组织可能在寻找的任何信息汇集起来,并以这种广度和深度相结合的方式进行,这使得引入截然不同的数据来训练人工智能系统成为可能,以帮助克服算法偏见等问题。

毋庸置疑,构建更加公正的数据集算法偏见重要的解决方法之一,在此基础上,可以应用新的机器学习去除偏见技术。比如,哥伦比亚大学的研究者曾开发的一款名为DeepXplore的软件,就可以通过技术手段使得系统犯错,以暴露算法神经网络中的缺陷。

DeepXplore使用差分测试,通过以不同的方式看待事物。如果其他模型都对给定的输入做出一致的预测,而只有一个模型对此做出了不同的预测,那么这个模型就会被判定有一个漏洞的方法,为打开黑箱做出了重要的贡献。

此外,2018年谷歌也曾推出新工具 What-If,作为 TensorBoard 中用于检测偏见的工具。利用该工具,开发者可以通过交互式可视界面和反事实推理探究机器学习模型的特征重要性,找出误分类原因、确定决策边界,检测算法公平性等。

显然,现实社会中的偏见产生的原因盘根错节,技术作为一面镜子,映射了人类社会许多固有的偏见。尽管长期以来,人们都一直致力于消除偏见,但人们至今也尚未彻底将其消灭。

偏见作为生活中不可避免的事实而存在着,但这并不意味着偏见和歧视也是新技术不可避免的方面。人工智能作为第四次工业革命中的代表性技术,始终有机会重新开始纠正偏见。技术由人类开发,为人类服务,而能否创造对每个人都有效和公平的技术,从来都取决于人类,而不是机器。

(0)

相关推荐

  • 禁止算法识别性别,能消解歧视吗?

    海外科技圈的政治正确风潮,早已不算新闻了,并且已经遍布科技领域的各个角度. Facebook将默认"男性在前"的新增好友logo,改为"女性在前",并且大小相当 ...

  • 当AI是一名种族主义者

    全文共 2639 字,阅读大约需要 5 分钟 人们一般会认为,基于数据和程序运行的人工智能算法,能做到不受情感因素影响,达到客观中立,可是有研究者发现,事实并非如此. 一部揭示该问题的纪录片<编 ...

  • 连夜下架杨笠代言的Intel,扯下了科技圈“男孩俱乐部”的遮羞布

    英特尔代言人的瓜,大家应该都吃到了. 前不久英特尔官方因为被部分男性网友抵制,下架了脱口秀演员杨笠代言内容,又引起了部分女性群体的不满.没能硬刚到底的英特尔,如今两边不讨好. 女性消费者在科技产品业务 ...

  • 像教我们的孩子一样教人工智能

    --选自Motherboard-- 作者:JORDAN PEARSON 全球技术地图编译 孩 子并非天生就有种族或性别歧视--厌恶和仇恨都是被教出来的.人工智能也一样,是人类教会了它们一切. 据Pro ...

  • 如何对抗算法偏见?| Physics World 专栏

    pixabay.com 近年来,物理学家们越来越多地开发人工智能(AI)和机器学习(ML)技术,以增进我们对物理世界的理解.不过,人们也越来越担心这些系统中的偏见及其对整个社会的广泛影响. Physi ...

  • AI的“色差”与“纠偏”

    在美国学术界声援BLM(Black Lives Matter)之后,事情的走向有点难以预料. 学术界的反种族歧视反省似乎没有了下文,但是如火如荼的BLM运动早已蔓延开来,这次将矛头指向了AI界. 事情 ...

  • 当年轻人开始谈论AI伦理

    当人工智能技术从象牙塔走进现实生活,与AI伦理有关的议题逐渐成为学术界争论的焦点,甚也有一些年轻人也开始思考算法的伦理和风险. 撰文 /   Alter 编辑 /    胖爷 赛博朋克的电影里,常常可 ...

  • 我们应该如何理解李飞飞价值十亿美金的“人文AI”计划?

    AI自从以应用角度走进大众视野,就一直逃不出"人文主义"的苛责.作为一种依靠于海量数据运转的技术,AI之所以能够作为提升效率的工具,主要还是因为对人类经验的高度集中. 而" ...

  • 指望AI永远保持客观,其实可能才真是一种奢望

    如果你在某个周末抽空回顾十多年前的经典科幻片,就会发现好莱坞非常擅于将人工智能设置为肩负统治人类重担的终极大BOSS.无论是黑客帝国里的史密斯,还是终结者里的天网,甚至是生化危机里的红后,都体现出一种 ...

  • 陈根:AI,能否识别不明癌症原发灶?

    文/陈根 原发灶不明癌症(CUP)是一类"经过详细检查,但始终无法确认癌症原发灶"的转移性癌症统称,在所有癌症患者中占比1%-2%.这类患者往往会经历各种各样的检查,但最终只能依据 ...

  • 陈根:新型显微镜,打破目前最高分辨率

    文/陈根 在2500年前,希腊哲学家们曾对物质的组成问题争论不休.到了200年前,化学家们才在理论上发现了亚原子尺度上的结构.为了看到亚原子细微的结构,科学家也在不断努力. 从16世纪的光学显微镜发明 ...

  • 陈根:AI筛选抗生素候选药物,或将扭转耐药危机

    文/陈根 耐抗生素的"超级病菌"的崛起使得公共卫生威胁迫在眉睫,需要新的抗生素来帮助扭转局势,但开发新的抗生素并不是一项容易的工作,除了需要耗费大量的成本还需要漫长的时间.而现在, ...

  • 陈根:算法歧视,真的存在吗?

    文/陈根 人工智能的发展让人们逐也渐意识到算法所依赖的大数据并非中立.它们从真实社会中抽取,必然带有社会固有的不平等.排斥性和歧视的痕迹. 早在20世纪80年代,伦敦圣乔治医学院用计算机浏览招生简历, ...

  • 陈根:AI制造,困境犹存

    文/陈根 无农不稳,无工不强.作为真正具有强大造血功能的产业,加工制造业对经济的持续繁荣和社会稳定举足轻重. 工业的发展让人类有更大的能力去改造自然并获取资源,其生产的产品被直接或间接地运用于人们的消 ...

  • 陈根:AI制药,时候未到

    文/陈根 人工智能(AI)发展至今,已成为社会生活和生产中一种非常真实的力量.这种力量将会,甚至已经,颠覆了世界上的几乎所有行为.随着机器人.智能手表.智能音箱.虚拟助理等科技产品的出现,人工智能技术 ...

  • 陈根:算法,为何会存在偏见?

    文|陈根 由于算法对数据的掌控及后续分析,衍生出了丰富的信息要素深刻影响经济与社会进程.算法之下,个人信息的掌握和分析成为简单和日常的事情,人自然而然地成了计算的客体,由此衍生的算法可能带有偏见. 大 ...

  • 陈根:眼镜行业,一本万利了吗?

    文/陈根 眼镜行业的暴利,已经是众所周知的事情,也几乎成为市场默许的存在.这从"20元的镜架,200元卖给你是讲人情,300元卖给你是讲交情,400元卖给你是讲行情"的市场流传的吐 ...

  • 陈根:打破传统认知——肿瘤细胞摄取葡萄糖水平并非最高

    文/陈根 早在1922年,德国著名医学家.诺贝尔奖获得者Otto Warburg就指出,癌细胞会以非常高的速率消耗葡萄糖,无论是否有充足的氧气,癌细胞都可以通过糖进行活跃地酵解. 这种癌细胞使用糖解作 ...