情报攻略│从棱镜计划看大数据时代下的情报分析
摘要:棱镜计划自被曝光之日起,就受到了世界各方面的广泛关注,而大家关注的焦点主要集中在个人隐私与保护上,其实棱镜计划针对哪些大数据、通过哪些分析、实现了何种战略目标,更值得关注与讨论。文章从情报分析的视角剖析了棱镜计划的数据基础、分析过程与方法、实施目标,进而对大数据时代下的情报分析进行探讨。曾供职于美国中央情报局(CIA)的技术分析员爱德华·斯诺登(Edward Snowden)于 2013 年 6 月将美国国家安全局(NSA)关于棱镜计划(PRISM)监听项目的秘密文档披露给了《卫报》和《华盛顿邮报》,引起了大家的广泛关注。围绕美国情报监视的相关讨论、分析和评论可谓铺天盖地,指责美国家安全局侵犯公民隐私、非法窃取外国情报的批评声音成为关注与讨论的焦点。然而,作为情报研究人员,反以思之,如果我们拥有这些大规模数据,是否能够完成相应的情报分析?面对这些大数据与情报任务,该如何开展工作,经过哪些步骤,需要运用哪些方法?这些问题也同样值得我们深思。PRISM 是一项由 NSA 自 2007 年起开始实施的绝密电子监听计划。该计划的正式名号为“US-984XN”。根据报道,泄露的文件中描述 PRISM 计划能够对即时通信和现存资料进行深度的监听。许可的监听对象包括任何在美国以外地区使用参与计划公司服务的客户,或是任何与国外人士通信的美国公民。NSA 在 PRISM 中可以获得电子邮件、视频和语音交谈、影片、照片、VIP 交谈内容、档案传输、登录通知,以及社交网络细节等。《总统每日简报》里很多报告都使用了来自 PRISM 的资料。与此同时,大数据研究计划主动公开。2012 年美国奥巴马政府发布了“大数据研究和发展倡议”,正式启动“大数据发展计划”,并为此投入两亿美元以上资金。该计划将提升美国利用收集的庞大而复杂的数字资料提炼真知灼见的能力,推进和改善联邦政府部门的数据收集、组织和分析的工具及技术,以提高从大量、复杂的数据集中获取知识和洞见的能力,强化美国国家安全,协助加速科学、工程领域创新步伐,转变学习和教育模式。把这两件事情关联在一起,我们不禁想到,如何针对大数据进行有效地分析与处理,更好地挖掘出有价值的情报,为国家的战略规划与制定提供必要的情报支撑,可能这才是从情报视角看 PRISM 的重点。鉴于此,本研究将深入剖析 PRISM 的数据基础、分析过程与方法、实施目标,从情报分析的视角全面展示 PRISM,并对大数据时代下的情报分析进行探讨。PRISM 在大数据与战略目标之间存在一个黑盒,而揭开此盒就需要剖析大数据情报分析的过程与方法(见图 1),这正是本文的研究重点与价值所在。“棱镜”项目监视范围很广,参加 PRISM 的公司有近十家,包 括(按 加入 项 目 的 时 间)微 软(2007 年)、雅 虎(2008 年)、Google (2009 年)、Facebook(2009 年)、Paltalk(2009 年)、YouTube(2010年)、Skype(2011 年)、美国在线(2011 年)以及苹果公司(2012 年)等(见图 2)。这些公司都是典型的大数据公司,通过不同的方式掌握着海量用户的信息。在数据的采集方式或来源方面,当前的大数据主要包括访问日志采集、社交网络数据、过程行为数据、传感网络数据、智能终端数据,移动终端、视频采集、语音通话等数据。数据获取技术的革命性进步、传感器等自动采集的数据、Web2.0 等用户生成数据(UGC)以及移动设备生成的数据(位置、移动和行为信息等)等多源数据使得数据生产迅速、数据存量庞大。大数据的特点包括数据存量大且增长迅速、数据类型繁多结构复杂、价值密度低等。受到 NSA 信息监视项目“棱镜”监控的信息主要有10 类:电邮、即时消息、视频、照片、存储数据、语音聊天、文件传输、视频会议、登录时间和社交网络资料的细节(见图 3)。NSA 可从公共、商业等来源扩大通讯数据,来源包括银行代码、保险信息、社交网络“脸谱”档案、乘客名单、选举名册、GPS 坐标信息,也包括财产记录和未具体说明的税务资料。来自交易、业务往来、事件和电子邮件等的内部数据能够为组织提供有价值的洞察与分析。技术的发展极大地扩展了信息的传播媒介和传播能力,印刷媒介(报纸、杂志、宣传册等)、电子媒介(电视、广播、电影、电话等)、网络媒介(社交网站、视频分享网站、博客等)、展示媒介(陈列、橱窗、广告等)和其他媒介(政府数据、航拍图片和学术信息)等形成了多位一体的公开信息来源渠道。据美国中央情报局统计,2007 年的情报收集总数中超过 80%来自公开信息。公开信息有多种渠道与来源,把不同渠道、利用多种采集方式获取的具有不同数据结构的信息汇聚到一起,形成具有统一格式、可以面向多种应用的数据集合,称之为多源信息融合。同一个事实或规律可以同时隐藏在不同的数据形式中,也可能是每一种数据形式分别支持了同一个事实或规律的某一个或几个侧面,这既为数据和信息分析的结论的交叉验证提供了契机,也要求分析者在分析研究过程中有意识地融集各种类型的数据,从多种信息源中发现潜在价值与情报。因此,综合利用多来源、多形式的数据是现代科学决策的鲜明特点。“兼听则明,偏信则暗”,多维度、多数据源的分析才有说服力。PRISM 的每个数据源,其数据规模都是巨大的,是典型 的 大 数 据 。如 Facebook 有 10 亿 节 点 和 千 亿 连 边 ,YouTube 月独立访问人数超过 8 亿,Google 每天都会收到来自全球超过 30 亿条的搜索指令,每个月处理的数据量超过 400PB。Yahoo! 数据中心的Hadoop 云计算平台有 34个集群,总存储容量超过100PB。据美国《连线》杂志报道,NSA 正在盐湖县与图埃勒县交界处建造一个新的数据中心,这个“数据中心”占地 48 万平方米,耗资 17 亿美元。在这个巨大的“数据中心”里,有四个 25000 平方英尺的大厅将用来存放服务器,NSA 每 6 小时可以收集 74 兆兆级字节的数据,如此计算下来,这些收集的未经编辑原始数据几乎每 24 小时便能填满 4 个美国国会图书馆。PRISM 中较好地体现了大数据,而大数据存在、产生并应用于很多领域。从数据存量的角度,一般认为 PB 以上级别的数据就可称之为大数据。维基百科将大数据定义为无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。万维网具有超过万亿的统一资源定位符(URL),淘宝网站每天有超过数千万笔交易,单日数据产生量超过 50TB。百度公司目前数据总量接近 1000PB,每天大约要处理 60 亿次搜索请求。医疗卫生、地理信息、电子商务、影视娱乐、科学研究等行业,每天都产生大量的数据。根据赛门铁克公司的调研报告,全球企业的信息存储总量已达 2.2ZB(1ZB 等于 1000EB),年增长达 67%。而麦肯锡全球研究院(MGI)预测,到 2020年,全球数据使用量预计达到 35ZB。如何处理超大规模的网络数据、移动数据、射频采集数据、社会计算数据,已经成为科研学术界和产业界亟待解决的关键科学技术问题。邦弗朗尼原理表明并非给定数据集和挖掘任务就肯定能挖掘出合理的结果,因此,分析就变得很重要。数据具有累积性和关联性,单个地点或单一来源的信息可能不会暴露用户的隐私,但是如果有办法将某个人的很多行为从不同的独立地点聚集在一起时,他的隐私就很可能会暴露,因为有关他的信息已经足够多,这就是 PRISM中大数据的原理。例如,通过 Google 的检索日志可以获取用户关注信息的兴趣点以及关注热点的变化,通过Facebook、paltalk 等社交网站可以了解用户的人际网络与活动动态,通过微软、Yahoo!可以掌握人们联机工作的时间、方式以及内容等。而把这些信息融合到一起,可以较为全面地认识并掌握某个用户或某类群体的信息行为特征。大数据时代在数据分析理念上有三个转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样。大数据处理的一个重要逻辑就是将价值含量较低的海量数据进行价值凝练和萃取,在不失代表性的前提下进行数据简化处理。亚马逊的推荐系统用更快更便宜的方式找到数据的相关性,梳理出了有趣的相关关系,但并不知道背后的原因。在大数据环境下,知道“是什么”就已经足够,不必非要弄清楚“为什么”。情报分析的理念在大数据时代也需要做出相应的调整与转变。如何有效地利用好大数据,从中分析出有决策价值的情报,值得我们关注。大数据时代下的情报研究应从单一领域情报研究转向全领域情报研究、综合利用多种数据源、注重新型信息资源的分析、强调情报研究的严谨性和情报研究的智能化五个方面。传统的情报分析流程包括计划与指示、搜集、分析与处理、报告撰写、研究传递等过程。大数据环境下的情报分析流程除了原有的过程之外,更加强调信息搜集与分析处理,具体包括:情报需求定义、情报计划制定、信息检索与数据采集、多源信息融合与清洗、信息分析与内容挖掘、信息展现与情报提炼、报告撰写与情报传递等一系列过程(见图 4)。大数据时代的情报分析,首先要明确情报任务的类型,确定情报任务的主题,分析情报任务的情境,捕捉情报用户的特点,然后把情报需要转化成情报需求,并明确地给予定义。在明确了情报需求以后,根据需求确定情报流程、构建指标体系、计划情报时间、组建情报队伍、选择合适的研究方法、选配相应的技术与工具。根据情报任计划确定信息检索与数据采集的来源渠道、范围、规模、类型,然后制定收集策略并实施收集,对收集的数据结果进行评估,包括数据规模、时效性、真伪等。对数据进行预处理,把多种来源、不同结构的数据进行融合,重复的数据进行过滤、对重名、别名等问题进行识别、数据拆分提取、查漏补缺、数据降维等一系列操作。经过预处理的数据可以进行分析挖掘,形成有决策支持或参考价值的情报报告,在恰当的时间以合适的方式把准确的情报传递。大数据从不同视角反映人物、事件或活动的相关信息,把这些数据融合汇聚在一起进行相关分析,可以更全面地揭示事物联系,挖掘新的模式与关系,从而为市场的开拓、商业模式的制定、竞争机会的选择提供有力的数据支撑与决策参考。一个国家拥有数据的规模和运用数据的能力将成为综合国力的重要组成部分,对数据的占有和控制也将成为国家间和企业间新的争夺焦点。如在赛博战领域如何利用大数据分析(Big Data Analysis,BDA)实现赛博态势感知、在电子战领域如何利用 BDA 实现有源与无源情报的分类与融合等。此外,随 BDA 而来的诸多新类型情报也有待进一步研究,如移动情报、云情报、社会情报、大数据情报等。在大数据时代,情报人员需要围绕情报任务与需求,广泛搜集各类相关信息、运用多种工具与方法进行内容分析,监测其中的新现象、新情况、新异常,并根据蛛丝马迹发现其中的规律、本质、战略意图等,并将这些内容“填充”到情报分析结果的模式中,或按预定的模式组织所发现的内容,形成情报分析报告。这样的情报对于企业来讲可以服务于产品研发、市场开拓、技术合作、人才争夺等活动,实现跟踪竞争对手的动态、分析战略部署,把握主要趋势与次要趋势,厘清长期战略与近期目标,从而完成趋势判断、动向感知、前瞻预测、情景研判等情报目标,实现“耳目、尖兵、参谋”的情报功能。通过上述分析,本文认为,PRISM 的真正目标并不在个人隐私与保护上,而是如何运用大数据提升科学决策与发展战略。大数据时代数据来源广泛、结构类型复杂、数据规模庞大,如何有效地获取、融合并进行关联、聚类、孤立点、模式、网络、演化等一系列分析,从中发掘出有价值的情报,为战略决策提供全面准确、客观有力的支撑与参考服务,是大数据时代情报分析的重点,也是情报从业人员的关键能力所在。