陈根:算法黑箱与数据正义

文/陈根

在万物互联的背景下,以云计算为用,以个人数据为体,以机器学习为主的智能应用已经“润物细无声”。从今日头条的个性化推送到蚂蚁金服的芝麻信用评分,从京东的“奶爸当家指数”到某旅游网站用大数据“杀熟”,个人信息自动化分析深嵌入到我们日常生活之中。

与此同时,越来越多的数据产生,算法逐渐从过去单一的数学分析工具转变为能够对社会产生重要影响的力量,建立在大数据和机器深度学习基础上的算法,具备越来越强的自主学习与决策功能。

算法通过既有知识产生出新知识和规则的功能被急速地放大,对市场、社会、政府以及每个人都产生了极大的影响力。算法一方面给我们带来了便利,比如智能投顾或智能医疗,但另一方面,却绝非完美无缺,由于算法依赖于大数据,而大数据并非中立,这使得算法不仅可能出错,甚至还可能存在“恶意”。

一般来说,算法是为解决特定问题而对一定数据进行分析、计算和求解的操作程序。算法,最初仅用来分析简单的、范围较小的问题,输入输出、通用性、可行性、确定性和有穷性等是算法的基本特征

算法存在的前提就是数据信息,而算法的本质则是对数据信息的获取、占有和处理,在此基础上产生新的数据和信息。简言之,算法是对数据信息或获取的所有知识进行改造和再生产。

由于算法的“技术逻辑”是结构化了的事实和规则“推理”出确定可重复的新的事实和规则,以至于在很长一段时间里人们都认为,这种脱胎于大数据技术的算法技术本身并无所谓好坏的问题,其在伦理判断层面上是中性的。

然而,随着人工智能的第三次勃兴,产业化和社会化应用创新不断加快,数据量级增长,人们逐渐意识到算法所依赖的大数据并非中立。它们从真实社会中抽取,必然带有社会固有的不平等、排斥性和歧视的痕迹。

此外,正是深度学习引领了第三次人工智能的浪潮,目前大部分表现优异的应用都用到了深度学习,AlphaGo就是一个典型的例证。与传统机器学习不同,深度学习并不遵循数据输入、特征提取、特征选择、逻辑推理、预测的过程,而是由计算机直接从事物原始特征出发,自动学习和生成高级的认知结果。

在人工智能深度学习输入的数据和其输出的答案之间,存在着人们无法洞悉的“隐层”,它被称为“黑箱”。这里的“黑箱”并不只意味着不能观察,还意味着即使计算机试图向我们解释,人们也无法理解。

事实上,早在1962年,美国的埃鲁尔在其《技术社会》一书中就指出,人们传统上认为的技术由人所发明就必然能够为人所控制的观点是肤浅的、不切实际的。技术的发展通常会脱离人类的控制,即使是技术人员和科学家,也不能够控制其所发明的技术。

进入人工智能时代,算法的飞速发展和自我进化已初步验证了埃鲁尔的预言,深度学习更是凸显了“算法黑箱”现象带来的某种技术屏障。以至于无论是程序错误,还是算法歧视,在人工智能的深度学习中,都变得难以识别。

(0)

相关推荐

  • 人工智能与信息安全:新的革命与挑战

    人工智能,是一种借鉴生物感知系统和神经系统来开发相应模拟算法的计算机技术,其主要特点是可从数据中学习特征并进行自我迭代训练. 通常,人工智能算法往往需要大量的数据以及庞大的计算资源作为支撑.随着计算机 ...

  • 陈根:DNA存储数据,是否可行?

    文/陈根 随着互联网.物联网以及各类智能设施的发展,人类已经进入了一个数据呈爆炸式增长的时代.统计显示,目前全世界每天产生的邮件.照片.推文.视频等数字文件超过 250 万 Gb,全世界总数字文件高达 ...

  • 陈根:从实体数据到虚拟空间,数字孪生的来路与进路

    文/陈根 科技不仅是一个时代的标签,它所引导的产业变革更是在雕刻这个时代. 数字时代下,数字孪生作为最重要的数字技术之一在人类社会数字化的进程中具有不可替代的重要意义,也因此频繁出现在各大峰会论坛的演 ...

  • 陈根:算法黑箱,不再黑箱

    文/陈根 在人工智能深度学习输入的数据和其输出的答案之间,存在着人们无法洞悉的"隐层",它被称为"黑箱".这里的"黑箱"并不只意味着不能观察 ...

  • 陈根:北大博士送外卖背后,算法秩序浮现

    文/陈根 外卖骑手,再次引发全网关注.这一次,起因变成了发表在顶刊<社会学研究>上的一篇博士论文:北大博士后陈龙为做研究,加入了在中关村的一个外卖骑手团队,体验了 5 个半月的配送工作,写 ...

  • 陈根:走进癌症,算法测癌

    文/陈根 癌症的个性化,加之精准医学时代的到来,正对过去癌症临床指南造成了全新的.巨大的挑战. 事实上,一直以来,癌症作为一类复杂疾病,都是多种疾病的统称,包括肺癌.胃癌.肠道癌.皮肤癌等.这些癌症有 ...

  • 陈根:隐私计算,能否破局“数据孤岛”?

    文/陈根 当前,与传统的资本.土地.劳动.技术等一样,数据已成为重要生产要素之一.其与算力.算法组合,作为一种新型社会生产力,在人们的生产生活中发挥显著作用.越来越多的业务场景需要多方数据的流通和共享 ...

  • 陈根:研究开发新软件——高效处理基因数据

    文/陈根 现代医学的发展,让基因表达得以检测,其最经典的方法是根据在细胞或生物体中所观察到的生物化学或表型的变化来决定某种特定基因是否表达.大分子分离技术的进步,使得特异的基因产物或蛋白分子的识别和分 ...

  • 陈根:算法新进展——可“预测”癌症语言?

    文/陈根 当打开Netflix的时候,它会不会给你推荐一些剧,"恰好"是你感兴趣的:当在Facebook上聊天时,它会不会给你推荐一些朋友,"恰好"是你欣赏的: ...

  • 陈根:数字织物——可存储、处理数据

    文/陈根 从通过汗水为可穿戴设备提供能量的可伸缩织物,到从运动中获取能量的衬衫,再到可以形成可穿戴显示器的可织LED纤维,智能纺织品总是能带给人们新的惊喜. 近日,美国麻省理工大学研究人员又发明出一种 ...