大数据的阴暗面

全球技术地图
创新丨前沿丨科普丨资讯
大数据下的数学模型几乎主导着生活中的各个领域-从计算机屏幕上的广告,到自动贩卖机存储的各类商品,以及求职者参加的测试。但是当严重偏差或统计数据错误致使模型存在缺陷时,会发生什么呢?
哈佛大学数学博士凯茜·奥尼尔认为,人们会因此受到伤害。奥尼尔同时还是mathbabe(数学宝贝)的博主。其著作《数学杀伤武器》一书,描述了混乱的模型会导致教师失业、保险费用上调和工人工作倦怠等负面现象发生。
奥尼尔掌握着数学模型的第一手资料。在其职业生涯中,她曾在华尔街当过定量分析师,职责是建立对冲基金预测模型,她还做过企业数据分析师,负责预测消费者购买意图和在线点击情况。最近,她还为哥伦比亚大学设计了一个数据新闻程序。
在Engineering 360特约编辑拉瑞·马隆尼的采访中,奥尼尔谈论了诱发破坏性算法的原因,分享了更全面、更道德的建模理念。
建模的要求越来越高,对于工程师来说,这是一个热门话题,他们设计的模型影响着从产品设计、工厂运营到项目管理的一切事情。
马隆尼:在我们的社会和经济中,数学模型的误用情况如何?
奥尼尔:这种现象非常普遍,也影响着生活中的各个领域,包括教育、就业、信贷以及刑事司法制度。许多人都有这种错觉,认为算法模型和预测分析本质上是公平客观的,因此,对这些算法的监管就非常少。简单地说,算法就是自动执行过去操作的一种策略机制。但如果之前的操作方法存在缺陷,那这些错误也会一起编入模型。
马隆尼:您能从您的书中举出一些例子吗?
奥尼尔:我将举三个例子来展示问题的广泛性,以及模型中可能潜藏的缺陷。
第一个是教师增值模型中存在的统计缺陷。教师增值模型旨在评估教师,找出不达标者,通过学生的实际成绩与预期成绩对比,来对教师进行评估。该模型的主要问题是统计模式不一致,在这种情况下,即使是对一个从不改变教学风格的老师来说,每年的分数也会出现很大的不同。
为什么会这样?因为其中存在很多变量,如测试时间、学生在测试期间是否饥饿,甚至包括当时的室内温度。这些因素造成的不确定性使模型很难计算出每位学生的预期得分,并且这种不确定性会随着班级规模的变大而增加。
尽管存在这些问题,全国各地仍在使用该模型进行高风险决策,包括教师聘任和解聘。不仅如此,教师增值模型保密性极高,复杂性极强。大多数教师不明白其运作模式,也没有人告诉他们如何才能取得更好的成绩。总之,这种模型靠不住,基本上没有达到淘汰不良教师的目的。
马隆尼:那生活中的其他领域如何呢?
奥尼尔:另一个典型的例子是执法领域中预知执法的建模,这决定了警力会如何分派。这里的漏洞是数据存在偏差,因为该模型是基于逮捕记录建立的,而逮捕记录很难完整体现犯罪情况。与富裕地区相比,许多城市的贫困区域,包括少数民族聚居区,向来都会受到更多的警方监查。虽然黑人和白人吸食大麻的比例差不多,但黑人更有可能遭到逮捕。因此,如果基于逮捕记录建模,只会让已经过度布控的社区得到更多的警力。
此外,许多人力资源部门会使用算法模型进行人格测验。尽管现在有许多规定保护个人免于招聘不公,但针对求职者筛选模型的审查却很少或基本不存在。例如,有一种模型会过滤掉那些有过精神疾病记录的人,这种行为有违美国残疾人法案。
马隆尼:对于产品开发和销售过程中的模型使用,您有什么担忧?
奥尼尔:如果你去问硅谷的风险资本家,利用建模来创建具有针对性的在线产品广告是什么,他们大多都会告诉你,这就是一种服务,因为广告专门针对人们可能会买的商品。
对我们许多人来说,这种广告的确是一种服务。然而,对于低收入消费群体来说,这样的广告可能是掠夺性的。因为即使没有进行相关搜索,他们还是会经常看到发薪日贷款或盈利性大学这样的广告。
作为实验,我上网搜索了食品券的信息,在点击量排名前5的网页中,有3家都跳转到了同一家网站,该网站在传播营利性大学问询信息。问题的关键是,在通过网络定向广告推广产品或服务时,我们需要扪心自问:谁会成为这种方法的受害者呢?
马隆尼:您在书中谈到,人们会越来越多地使用运筹学创建更精益、更有效的经营模式。您对该领域的建模有什么担忧?
奥尼尔:我不想对整个领域作出的努力进行抨击,因为运营研究和相关的制造技术确实带来一些非常不错的好处,例如适时生产和供应链的实践等。但这里,我要再次强调,负责建模的技术人员应该意识到谁会成为潜在的受害者。
例如,基于准时制生产的排班软件就可能会通过改变工人的作息规律来保证数学模型的运行。通常情况下,工人们基本上不知道什么时候会轮班,这就让照顾孩子,或读夜校以改变其职业前景等规划变得非常困难。其他情况下,排班软件还可用于将工作时长正好控制在低于医疗保险的保障时间之下。
马隆尼:那用于产品和服务的价格模型怎么样?
奥尼尔:在越来越多的情况中,大数据的出现会导致定价结构减少对产品或服务内在价值的依赖,而是更多地基于人们可能愿意支付的金额。越来越多的价格模型会把消费群体作为定价依据。
在我的书中,我引用了《消费者报告》中一份关于汽车保险的研究,研究表明,根据信用评分等人口数据的不同,人们缴纳的保险费用存在着巨大差异。在这种情况下,当涉及到车险时,理财之道要比你的驾驶记录更重要。
马隆尼:您在书中提到,一些高科技公司在已经在用软件和建模去评估其技术人员中的创意人才。这样的方法真的有用吗?
奥尼尔:我觉得这种方法是非常值得怀疑的。首先,你如何定义创意?由于我们看不到人的想法,建模者不得不选择相对薄弱的指标,如电子邮件的数量,或个人升职频率等。
马隆尼:怎样做才能确保大数据驱动的模型是公正客观的呢?
奥尼尔:建模的关键步骤之一是建立一个有效的反馈回路,它可以为模型建立一个健康的生态系统。一旦模型投入使用,反馈回路就会识别问题,之后就此作出改善。你可以把它比作良好的自动化设计,它会根据客户的反馈,自动添加、完善或修复系统功能。只要有了健康的反馈回路,就可以修复设计缺陷。
然而,当算法高度保密以至于无法问责时,反馈回路就不起作用了。最近在汽车界,大众的排放测试涉嫌欺骗政府,反馈回路就没有起作用。由于欺骗手段太过精诈,人们很难看清问题所在。
马隆尼:还有没有其他办法能够预防缺陷模型的出现?
奥尼尔:当你在构建一个数据驱动的算法时,你需要确保它是在自动模拟一个可信的人类决策过程。你的模型必须是好的,甚至更好。此外,你还需要对它进行持续的监测,以确保模型的公平,合法和非歧视性。
针对算法的审查已经在研发当中了。例如,普林斯顿的研究人员已经推出了一个软件项目来检测搜索引擎和求职网站等自动系统中存在的偏差。另外,哈佛数学家米拉·伯恩斯坦建立了一个模型,该模型可以扫描产业供应链,帮助企业彻底清除产品中通过压榨劳力生产而来的组件。
你还需要从模型针对的目标人群身上获取更多意见。比如说,回到我先前引用的教师评估系统的例子,在一个公正的评估建模系统中,反馈回路应当持续吸收教师们对模型改进提出的意见。
马隆尼:这些模型需不需要政府更多的监管?
奥尼尔:正如处理第一次工业革命的暴行那样,政府在模型监管中扮演着非常强大的角色。但这并不容易,因为一些企业正在利用问题算法敛财。随着建模对更多生活领域的影响,全体监管人员都必须更加精通技术。
平等就业机会委员会已经开始审查招聘中采用的人格测验,联邦贸易委员会也已经参与了与偏差建模相关的价格歧视诉讼。
最后,还有自我调节方面。数据科学家以及基于数据的建模者需要考虑自己的做法是否符合道德规范。就像商业教育的其他领域一样,对于即将在数据科学和运筹学等领域工作的人来说,道德课程也有必要成为其课程的一部分。

选自丨Engineering360

编译丨全球技术地图

投稿丨gjjsjjyjs@126.com

合作咨询丨iite_er(微信号)

(0)

相关推荐

  • 数据分析师的种类、职责与升级路线

    众所周知现在数据分析师的待遇都是非常客观的,但是你知道数据分析师也是有很多种类的,并且不同的种类的数据分析师,岗位职责.升级路线都是不同的吗? 数据分析师一般分为:数据产品.数据分析师.数据建模师.数 ...

  • 用Excel建模进行决策树分析

    决策树(Decision Tree)在机器学习中也是比较常见的一种算法,最早的决策树算法是ID3,改善后得到了C4.5算法,进一步改进后形成了我们现在使用的C5.0算法,综合性能大幅提高. 算法核心: ...

  • 【大数据】两化融合下的大数据未来

    工业大数据特征 " 在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的<大数据时代>中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理.IBM提出的大数据的5V ...

  • 为精细化工行业,打造大数据化工电商网站平台

    为企业打造百万级化工电子商务系统平台,也支持为化工行业定制大数据化化工网站平台,[数商云]借助工业大脑算法平台与知识图谱技术为客户建立大数据分析的化工电商网站系统,实现:化工行业生产/控制参数优化,关 ...

  • 天眼查大数据:我国目前有5万多家无人机相关企业,行业分布广泛

    在刚刚结束的五一假期中,我国多个城市运用无人机在夜空中进行表演,给市民和游客带来了一场场惊艳的视觉盛宴.据中新网报道,5月1日晚,福建省漳州高新区龙江岁月夜空格外美丽,数百架无人机腾空飞起,在上空摆出 ...

  • 我们这张总是暴露给大数据的脸,还安全吗?

    经过3.15曝光人脸识别滥用[1].人脸识别第一案二审[2].公安部破获22起贩卖人脸数据案件[3].以及房企因收集人脸信息被市监局处以罚款[4]等事件后,人脸数据已经站在了风口浪尖.正在这个合规如火 ...

  • 《2021五一旅行大数据报告》

    在线旅讯 · 2021-05-06 07:15:26                 携程酒店预订间夜以及GMV在假期前三天连续突破平台历史峰值,对比2019年同期,单日订单量增幅最高达70%. 5月 ...

  • 离婚大数据曝光:“婚姻的真相,跟谁过其实都一样”

    文 | 哲学君图 | 网络 来源 | 哲学人生网(ID:zxrsnet) 前段时间,民政部发布了最新统计的结婚离婚大数据. 数据一发出来,就引发全网热议. 2020年,我国结婚登记数据为813.1万对 ...

  • 中国人的健康大数据,惨不忍睹,反思吧!

    70%中国人过劳死危险:76%白领亚健康:20%患慢性病:慢性病死亡率占86%:中年死亡的原因中22%是心脑血管病......健康大数据不容乐观! 威胁健康的致命因素有哪些?健康大数据告诉你 健康大数 ...

  • 从史上最热“五一”黄金周,聊聊中国人在百度地图大数据中“看”到什么

    根据文化和旅游部的统计,2021年"五一"假期期间全国国内旅游出游2.3亿人次,同比增长119.7%,按可比口径恢复至疫前同期的103.2%,全国5A级旅游景区接待游客约4800万 ...

  • 浅谈新时代商业银行大数据审计系统应用

    随着时代发展和互联网信息技术的日益进步,互联网大数据审计引起商业银行的重视和支持,科技强审的战略思想逐渐深入人心.要切实解决审计工作"看得准"."看得清".&q ...