数据驱动 | 助力印度“精准扶贫”

这是现感的第5篇文章

上周在朋友圈刷屏的文章《一个月里我跟踪了108个居民,发现一个特别好玩的事,80%的人手里都拿着一个尿壶》里,华南理工大学建筑学院的何志森老师讲述了建筑与人文融合的好玩又温情的案例。这些案例里,无论是为卖糖葫芦的阿姨设计逃离路线以摆脱城管收摊,还是在枕头里放GPS收集流浪汉的移动轨迹来为他们改善生活设施,其实都给我们展现了创新的、多样化的人工数据收集方式。(所以在做数据向善的项目时,我们不用局限于已有的数据库,以及别因为没有数据就放弃了尝试呀)

这次我们要介绍的,就是在没有任何已有数据的情况下,通过问卷调查来人工收集数据的案例。这个案例同样来自印度的Socialcops。之前我们分享过他们与盖茨慈善基金会的合作项目,这次他们则与印度马哈拉施特拉邦的地方政府合作,希望利用数据科学制定290个村落的个性化发展方案。

无论从文化还是族群的角度,印度社会的复杂性和多元性都排在世界前列。数以千计的语言和上百个族群使得印度在推进城镇化的进程中面临着巨大的挑战。这次项目选中的钱德拉布尔市(Chandrapur)是印度最多元也最落后的区域之一。

△ 图中红点为印度钱德拉布尔市(Chandrapur)

290个村落,

个个都是不一样的烟火

这290个村落主要集中在钱德拉布尔市的3个街区:Mul,Pombhurna,Jiwati。其中,Mul是城乡结合部,通电率最高,达到83.22%;而Pombhurna主要由乡村和部落人口组成,液化石油气在Pombhurna的渗透率最高,达到了32.86%;而在Jiwati,90%都是部落人口,其中31.58%是游牧民。

在街区内,有些村落没有通电、有些村落则缺少流动水源、还有的村落缺少作物收成。三个街区的人口构成和发展状况都相差甚远,一个传统的、统一的发展规划显然无法满足各个村落的具体需求。

△项目所选择的Mul,Pombhurna,Jiwati

三个街区的部分发展情况数据

  穿过丛林去搜集数据

为了获得更有助于制定个性化发展方案的数据,数据科学家们与当地的NGOs决定使用调查问卷来搜集初始数据。然而,收集初始数据比想象的还要艰难:钱德拉布尔有33%的地区被森林覆盖,人们居住的地方较为分散;而且多数地区没有接入通信网络,手机和网络都无法使用;更重要的是,项目的任务量很大,需要超过900个志愿者在90天内进入290个村落挨家挨户访问调查。

困难一点点被克服了。经过18天的严格培训,这900多个志愿者穿过丛林,开始他们的数据搜集之旅。而在此之前,他们中的大多数人甚至都没有使用智能手机或平板电脑的经历。

△ 志愿者正在接受

Collect App的使用方法培训

△ 大批志愿者正在接受

Collect App的使用方法培训

△接受完培训的志愿者

在拜访每家每户开展数据收集工作

这是田野调查经理Gopal的一天:在一月的寒风中,早上7点他就离开了钱德拉布尔的总部。在两个小时后Gopal到达他负责的街区,给当地志愿者分发平板电脑,并在上午10点开始在附近的83个村庄开展入户调查。

他们使用问卷调查软件Collect App搜集数据,每个问卷有150-200个问题。在之前,这些问卷已经进行过反复测试和完善,并且根据不同部落的语言修改成了多个版本,在软件内就可以简单地切换不同语言。在离线情况下,App仍然能够保存调查数据以及定位调查家户的位置。问卷主要旨在搜集村落的基础设施状况、健康卫生状况和教育状况等方面的数据。每户的数据点超过150个,每个村落的数据点则超过200个。

△Collect App的功能界面:离线收集;

离线定位;简洁的问卷界面;

不同当地语言的切换

为了保证被访者正确理解了问卷问题,在访问间隙Gopal会定期对几位村干部的答题情况进行抽查。他也会检查调查志愿者的访问情,以及时纠正他们的错误。除此之外,任何偏离参数范围或者与其他数据不一致的数据都会被标注为可疑数据,并且有问题的数据和相应的问卷问题会以日报形式自动发送给Gopal以便二次检查。这样的机制大大地提高了数据的质量。

漫长的一天结束后,Gopal穿过黑漆漆的丛林回到钱德拉布尔时,通常已经是夜里11点。他需要在深夜验证和同步数据。其他志愿者则需要到有网络的临近乡镇上传他们平板电脑里的数据。

就在像Gopal一样的大量志愿者的努力下,这个政府、公益组织、商业机构三方协作的项目成果显著。超过50个协调组织、900多个志愿者在三个月内一共访问了16万人,搜集了超过690万数据点。同时他们还修正了2011年印度人口普查数据中存在的错漏,比如24个村落被重复记录在两个城市名下;有一些村落并未被统计;也有一些普查里记录的村落志愿者并没有找到等等。

  290个个性化的发展规划

数据搜集完毕后,数据科学家们开始对数据进行一致性检验(具体的数据检验过程可以看我们之前的数据驱动推文呀)。在那之后,他们将所有的数据点归纳成了80个发展指标,涵盖在5个层级中:经济状况、教育状况、健康卫生状况、居住状况和国家福利计划覆盖情况。

为了进行地区间的比较,数据科学家对不同指标划定了赋值打分范围,再按照设定的划分标准对每个地区的各个指标进行打分和排名。接着他们对所有的数据可视化,将他们整合到了一个交互面板里。这个面板可以进行地区之间的对比、村落之间的对比,查看各个村落的档案,甚至各个家户的档案。

△各个地区之间的不同发展数据

△显示不同村落在同一指标上的表现

△单个村落的档案

最后,项目利用算法搜集和匹配了每一个村落的发展数据,并且针对每一个村落的具体情况制定了发展方案。Mul街区的政府发展办公室则将这些数据驱动的建议中的60%-70%都纳入了当地2016-2017年的发展规划中。另外,当电力部门希望推进电网覆盖率的时候,他们可以轻易地找出还未通电的家户;当森林部希望提高液化石油气使用率的时候,他们也能迅速找出没被覆盖的地区。

△ 每个村落在每个发展指标上的发展规划建议

之前我们介绍的几个案例(链接在后面呀)大都是由公益组织提供已经储存好的结构化数据给数据科学家,数据科学家们在此基础上,再寻找其他的数据(可能来自于政府部门,可能来自于其他组织)来辅助分析。但如果你的组织并没有电子化的数据,甚至像这个案例里所展现的那样,连数据都没有,依然是可以通过各种方式将数据电子化后来进行分析和决策指导的。

参考资料传送门:

1.案例的PPT展示:https://www.slideshare.net/socialcops/case-study-socialcops-tata-trusts-in-chandrapur

2.案例的文本展示:

https://socialcops.com/case-studies/village-development-plans-powered-through-data-intelligence/

3.案例的报道:

https://www.livemint.com/Sundayapp/QMbWi2VuPKfInCaNZnJbyL/The-quiet-digital-revolution-in-Chandrapur.html

新来的你,快戳图片认识一下我们吧

上一期数据驱动分享了农业投资案例

我们还有数据留心小栏目

如果你也对数据科学和公益的结合能产生的巨大能量感到好奇,

就请多多关注我们现感的推文哟,期待你加入进来一起做炫酷的事。

(0)

相关推荐