陈根:算法黑箱与数据正义
文/陈根
在万物互联的背景下,以云计算为用,以个人数据为体,以机器学习为主的智能应用已经“润物细无声”。从今日头条的个性化推送到蚂蚁金服的芝麻信用评分,从京东的“奶爸当家指数”到某旅游网站用大数据“杀熟”,个人信息自动化分析深嵌入到我们日常生活之中。
与此同时,越来越多的数据产生,算法逐渐从过去单一的数学分析工具转变为能够对社会产生重要影响的力量,建立在大数据和机器深度学习基础上的算法,具备越来越强的自主学习与决策功能。
算法通过既有知识产生出新知识和规则的功能被急速地放大,对市场、社会、政府以及每个人都产生了极大的影响力。算法一方面给我们带来了便利,比如智能投顾或智能医疗,但另一方面,却绝非完美无缺,由于算法依赖于大数据,而大数据并非中立,这使得算法不仅可能出错,甚至还可能存在“恶意”。
一般来说,算法是为解决特定问题而对一定数据进行分析、计算和求解的操作程序。算法,最初仅用来分析简单的、范围较小的问题,输入输出、通用性、可行性、确定性和有穷性等是算法的基本特征。
算法存在的前提就是数据信息,而算法的本质则是对数据信息的获取、占有和处理,在此基础上产生新的数据和信息。简言之,算法是对数据信息或获取的所有知识进行改造和再生产。
由于算法的“技术逻辑”是结构化了的事实和规则“推理”出确定可重复的新的事实和规则,以至于在很长一段时间里人们都认为,这种脱胎于大数据技术的算法技术本身并无所谓好坏的问题,其在伦理判断层面上是中性的。
然而,随着人工智能的第三次勃兴,产业化和社会化应用创新不断加快,数据量级增长,人们逐渐意识到算法所依赖的大数据并非中立。它们从真实社会中抽取,必然带有社会固有的不平等、排斥性和歧视的痕迹。
此外,正是深度学习引领了第三次人工智能的浪潮,目前大部分表现优异的应用都用到了深度学习,AlphaGo就是一个典型的例证。与传统机器学习不同,深度学习并不遵循数据输入、特征提取、特征选择、逻辑推理、预测的过程,而是由计算机直接从事物原始特征出发,自动学习和生成高级的认知结果。
在人工智能深度学习输入的数据和其输出的答案之间,存在着人们无法洞悉的“隐层”,它被称为“黑箱”。这里的“黑箱”并不只意味着不能观察,还意味着即使计算机试图向我们解释,人们也无法理解。
事实上,早在1962年,美国的埃鲁尔在其《技术社会》一书中就指出,人们传统上认为的技术由人所发明就必然能够为人所控制的观点是肤浅的、不切实际的。技术的发展通常会脱离人类的控制,即使是技术人员和科学家,也不能够控制其所发明的技术。
进入人工智能时代,算法的飞速发展和自我进化已初步验证了埃鲁尔的预言,深度学习更是凸显了“算法黑箱”现象带来的某种技术屏障。以至于无论是程序错误,还是算法歧视,在人工智能的深度学习中,都变得难以识别。