在疫情防控工作中,哪些大数据可以派上用场?如何有效运用大数据?哪些场景里大数据真正起到了作用?在使用大数据的过程中,如何保护个人隐私?防疫中暴露了哪些大数据工作中的不足,未来该何如改进?针对上述问题,中国工程院院士、中国互联网协会咨询委员会主任邬贺铨日前以“大数据助力疫情防控”为主题,介绍了中国通过大数据进行防疫的经验,还深入剖析了大数据在支撑服务疫情防控相关工作中发挥的重要作用。本文来源于中国互联网协会,编者在不改变原意的基础上对内容略有增减。
现在手机已经成为每个人的另一张身份证。中国2018年移动通信普及率是112%,而全球是106%,也就是说扣除了一人多号,中国是82%,接近发达国家的水平,移动互联网的普及率高于全球的平均水平。中国有独立活动能力的人群几乎都有手机,而且中国实行手机用户的实名制,从手机用户就可以识别持有人的身份。
一般手机在待机的时候,用户会从一个小区移动到另一个小区,这个时候手机要不断接收基站发出的测量信号。读取基站下发的重选小区参数,选择最优小区,在非待机的时候实际上就是切换了。
因为用户可能是在移动的,而蜂窝半径又比较密,因此,更新的时间要比较快。目前的更新是秒级,可以说具有实时性。
手机是根据什么定位呢?主要是利用基站,有几种方法,可以改进基站定位。如果说用比较好的方法,定位精度可以数十米,一般目前可能是一两百米,5G基站更密,定位精度就更高。
当然,除了基站定位以外,我用全球导航卫星和数字地图都可以定位。现在的智能手机比例已经很高了,占手机用户的比例能够达到百分之八九十,而智能手机都装了全球导航卫星接收的能力。定位的精度一般数十米,更好的可以做到米级,但是无法定位室内用户。另外,数字地图公司有它的一些方法来扫描这个街道,因此它的定位甚至可以到每一栋楼。一般来讲,手机用户如果下载了这种数字地图的APP,而且开机并启用了定位功能,它就会随着变化新的位置,发送信息给GPS。所以,能知道你所在的位置。当然,它的定位精度比基站的方法要好得多。但是,只限于装有数字地图APP的用户。有个比较知名的数字地图公司,目前它现有用户数是7个亿(下载),占全国移动用户还不到一半,只有43%,所以说覆盖面是有限的。但是,尽管电信的运营商覆盖定位用户更多、更全面,但是精度并不一定比数字地图公司更好。上图是一个数字地图公司的大数据地图,它可以溯源,武汉春节前将近500万人流到什么地方去,这里可以给出一个很好的走势。有了这些数据,怎么来分析疫情的传播?国际上通常用一种叫SEIR的模型。它把人群分成什么呢?就是已经感染病的人群,E是密切接触者,S目前是健康的,R是最后运算结果是康复人群的,它有一套规律。中国的学者提出了一种改进C-SEIR,增加了P和Q,P是疑似人群,Q是确诊人群。现在国家也是分四类,从中可以计算出疫情传播的模型。这是从1月份到2月9日,中国全国的疫情传播模型。可以看到传播的状况,目前,中国的修正模型,考虑了政府采取措施和大众的对于防疫的意识,但所有上面的模型,还是基于城市里头感染者和没感染者,包括所有的加起来是一个常数,也就是说不考虑城市里面有流入的和流出的。实际上利用电信大数据,可以把流入流出的一部分人考虑进去,可以使得这个模型更精确。
△ 大数据可视化——“疫情方寸间”
当然,有了模型,很多大数据还需要有一种可视化的表现。这里给出一种可视化的方式,下图每个方框表示每个省。比如说右下角的方框——湖北,它的背景颜色就比其他的深,也就是感染人群更多。其中绿色是治愈率,黑色是死亡率,可以看到治愈的比例也比其他省要少,死亡的比例反而还比较高。可以看到,这是一种直观的看法。
大数据可视化——“疫情方寸间”
有了这种行为的大数据,可以精确到每一个小区。左图是百度,以上海为例,右图是腾讯,以深圳为例,它都可以以一种APP的方式来发布,老百姓可以用,下载可以查询,甚至可以查到哪个小区的具体位置,距离你所在地方有多远,里面有多少个是确诊病例。实际上,其中一家公司说,已经覆盖了200多个城市了。现在开始复工了,人流的增加也为疫情的防控带来了一些新的压力。这其中有疫情期间城市的热力图,可以细化到每个县,可以知道什么地方人最多,尽量避免人口的密集。
下图是确诊患者的行程追踪。从底下看是1月21日他离开武汉,乘坐了高铁,到达一个地方,21日又换了一个高铁,到另外一个地方,一直到24日,他发现有症状了,当然他行程还得继续,27日又到了一个地方,30日又到了下一个地方,31日确诊了。根据这种确诊患者的行程追溯,可以很好地知道他到过哪里。现在有些地方是依靠流行病学的调查,去问这个患者,你什么时间到什么地方,一个是他记不准,另一个说不准,利用手机的大数据,可以很好的知道。同时,通过计费数据,也可以知道他平时比较密切的联系人,也可以知道有没有可能是密切接触者。
△ 基于卫建委+交通+工信数据查找密切接触者
将卫健委的数据、交通系统的数据、工信部门的数据组合起来,可以找出密切接触者。比如说,卫健委可以知道确诊患者的姓名、身份证号,然后通过交通部,可以给出这个患者半个多月来乘坐过的航班车次,卫健委让工信部提出,这些人的手机号是什么?根据手机号,地方政府可以找到密切接触者,当然这是从官方的查找。实际上平台也可以开放,同行者可以在同行查询平台查出我所坐的航班和车次及车厢,车上有没有确诊患者,可以很好地发现密切接触者。目前,是返程复工还有节后回家的时间,有些人隐瞒了自己来自疫区、到过疫区的经历,回到家、回到村子里头还到处走,虽然看上去没有症状,但是可能已经感染了,并且是有很强的传染性,导致了疫情扩散,导致几十人甚至上百人被隔离,或者已经被感染。通过手机定位,是可以知道这个用户是不是来自疫区,还是到过疫区,但是这种数据不能直接提供给街道、小区和乡镇,因为隐私的保护原因,如果开放给他们,很可能不一定是查患者,说不定用作其他,所以不能这样做。现在怎么办呢?根据《个人信息保护法》,本人是可以查询自己信息的。所以,工信部现在统筹三个运营商,提供了用户行程的服务。用户提出来,你可以查询你本人,在14天前到过什么地方,当时工信部提出是按停留4个小时以上,这个时候,你有清单,就可以上当地的用工单位、街道、小区来证明你自己没有到过疫区,这就是自证。目前,这件事情已经开放查询上千万人次了。现在面临返程复工,有些地方的疫情防控措施甚至扩大化,对一些疫情确诊人数比较多的省,要求全部都不许人家回来。严控不能失控,硬核但不能乱来,所以实际上,返程的一些检查是必要的,当然就会对旅途带来一些影响。以高德地图为例,他给出一个人从济南要到上海,沿途经过城市的疫情情况列出来了,上海市对进上海的人有什么管理及要求也列出来了,包括高速路入口、出口的车流量,以及大概这个过程中间有很多检查站,路程需要多长时间也列出,“返程直通车”平台也方便大家,如果返程的人知道,我路上大概要多长时间,要做好什么准备。除了电信和互联网公司的大数据以外,事实上还有其他大数据。我这里讲的是电力大数据,一个家里边是否有人在家,是否有人回来,根据用电的情况是能区别出来。所以,国网电力杭州公司,做了1000多万条数据收集,开发出大数据分析的算法,能够很好地知道,这里边有没有居家隔离的人,有没有独居的人,社区可以根据这个来判断是不是做针对性地服务。
利用电力的用电状况,也可以知道复工状况,根据用电量,广东在2月14日已经是正常时候用电量的60%,也就是复工率差不多60%。浙江2月14日的复工率不到1/3,尤其是温州,属于疫情比较严重的地方,复工率只有12%。这些是可以比较宏观地掌握了复工的趋势。
大数据不仅用于追踪人群等,还可以帮助智能诊断。从现在统计看,新冠肺炎患者的核酸检测,目前只有30%是阳性,尽管它是患病的人,确诊了,但是只有30%。
原因是什么?取样是从口腔部来取样的,实际上这里边感染不算严重,肺部才严重。因此,判断还要根据CT,一个肺扫描出几百张这样CT照片,一张张看是比较难的。
利用大数据,可以用人工智能的技术,可以把它还原回一个3D三维的肺,比较容易看有没有纤维化,有没有肺变为毛玻璃状。同时,现在还可以根据医疗的经验,开发出感染肺炎患者的CT影像大数据分析评价系统,不一定要医生看了,这些CT照片可以放系统上,进行分析,能帮助医生进行病灶分析。过去医生可能要看5个多小时,现在几分钟就可以,因为它把几百张变成一张了。
大数据本身在新冠肺炎新药研制和疫苗研制里,也会发挥作用。新药研制总体上过程是比较长的,新药的筛选、活性的评价、药理的分析、安全评价等等,到临床还要做很多工作。目前是没有特效药的,所以,另外一种途径是老药新用,把一些过去抗艾滋病、流感的药物重新检验一下,看它有没有可能对新冠肺炎有效。已经上市的和临床实验的药有近万种,一种一种来筛选时间是很长的,而且现在去积累数据,已经不容易了,如果原来有积累更多的数据更好。
这里举一个例子,清华的药学院,它的人工智能药物研发大数据平台,收集了以前冠状病毒研究里边涉及的900多个小分子的实验信息,利用这个就有可能加快药物的筛选。
大数据也在优化医疗紧缺物资的生产组织和调度上有很好的用处。海尔开发了疫情医疗物资信息共享资源汇聚平台,一方面连接医院,780多家医院;另一方面联系需求的社区,以及能生产这些医疗物资的企业500多家,它发布了这个需求5000多万件,另外,它的采购不限于中国,还到全球,所以实现了抗疫资源的精准对接。湖北有一个医疗物资需求平台,是由志愿者开发的,它爬取网上的数据,按城市医院类别分类,登出需求、运输和联系方式。四川也开发了防控应急物资的管理系统,把物资的入库、调度、审批、库存、日常消耗需求汇总在一起,提高了应急物资配置的调度效率,当然这些都是从网上获取数据。现在难题是什么?卫健委并没有得到所有医院的床位数据,因为过去是不联网的,这样导致不能实时地知道什么床位是有富余的,什么可以调度出来。所以这也说明,过去这方面的工作都不足。另外,数据需要融合。现在不少小区实行了封闭管理,现在已经有上线的专项排查APP,不用手登记,用手机一扫身份证,报上体温,数据自动联网。还可以记录下来现在到药店购买发烧药、咳嗽药的人的实名数据,因为有些人已经有病了,没到医院自己买药,实际上是有很大风险的。还可以将公交卡、网约车的数据结合起来,这次疫情也是考验,联防联控协调调度的机制,包括跨部门大数据的协调能力。现在是复工了,很多企业需要工人,但是人员流动密集又有风险,因此企业面临两难。杭州采用一种绿红黄三色的健康码的管理方式,区别用户是不是接触过确诊患者、疑似患者,是不是来自重点疫区,以及隔离长短,可以分别对待。但是,你会担心填报是不是真实?这里边健康码是要联系到云端的,跟网上掌握的数据匹配,大数据能查出不实的信息。大数据是双刃剑,怎么做到隐私保护。实际上,电信的大数据只考虑了信令和计费,不含通信的内容,但是尽管这样,患者的行为数据也是敏感的。电信大数据目前只限于疫情的管控,疫情结束以后,不会再保留有关的原始数据。现在特别要注意的是,除了国务院卫生健康部门依法授权的机构以外,其他任何单位和个人,不得以疫情防控,治病防治为由,未经被收集者同意收集用户的个人信息。这里就难了,又要保护个人信息,又要利用大数据联防联控,怎么办呢?有一种方法,就是原始数据可用不可见。什么叫可用不可见?有关部委,卫健委、交通部、公安部、工信部等可以上报数据的样本,帮助疫情大数据分析调试平台来调试算法和程序,一旦调试好程序,再下发到相关部委,在相关部委的各自范围里头运行并产生结果。最后汇报给上面的结果已经不是原始数据了。这样不改变数据的归属所有权和存储位置,只带走了不含敏感数据的分析结果。疫情大数据也是需要特别进行安全防护的。从下图可以看出绿色是健康数据,健康数据是黑客所重点关注的,甚至2014年,中国的网站受攻击最多的是医疗卫生的网站。
美国也统计过,遭遇黑客医疗数据的泄露损失很高,而且疫情大数据不但是商业利益问题,还关联国家政治社会问题。我们以为疫情大数据系统是内网就没问题,但实际上内网也会遭遇攻击。在疫情大数据的系统上,要明确接入权限与过程审计,用各种各样的安全措施来确保安全。另外,大数据的应用需要法律保证。《传染病防治法》规定,有关部门要报告疫情和监测,但是没有明确哪一级地方政府有权收集当地运营商跟疫情有关的数据,也没有明确政府应该开放什么数据,应该公布什么信息。所以,我们建议,要出台《传染病防治法》的实施细则,要明确省市政府对疫情防控数据的收集权限和政府各个部门,以及相关企业提供疫情防控有关数据的责任。电信大数据对疫情防控有用,但不够。因为用户的信令数据面很广,而且实时性很好。实际上,每个用户平均每天有200条左右的信令数据,应该是很好的,很详尽。基站的定位精度只有百米的量级,实际上100米的半径里,根据这个来确定密切接触者是不准确的,因为有很多人隔100米和隔10米的情况是不同的。卫星导航+数字地图的定位精度是比电信基站的定位精度要优,但是它的用户数覆盖不够,所以两者的结合可能比较好。电信大数据对疫情防控是有很好作用的,但是还是有限的,所以仅有电信大数据不够,需要跟有关部委融合。大数据本身是一种方法,整个医疗不仅仅是在院中,还涉及到院前、院后和医院管理,涉及到很多环节。大数据也不是智慧医疗的唯一方法,也是要跟其他信息技术结合,同时也要跟医学专业知识结合,需要信息技术和医学界的紧密合作。最后,跟17年前的非典疫情相比,本次疫情是更严峻的大考。但现在用上了先进的医疗技术和大数据等新一代信息技术,大数据的应用环境将进一步优化,在联防联控精准施策中将发挥更大的作用。我们一定能够打赢疫情防控的人民战争、总体战、阻击战。