陈根:数据清洗机器人,MIT首发
文/陈根
当前,数据量的快速增长已经成为了IT管理部门所面对的最难于解决的问题之一。数据量的增长严重降低了应用程序的性能,降低了应用程序的稳定性,并且消耗了大量的投资,同时对备份与恢复也增加了巨大的负担。
显然,对于IT管理部门来说,不能永无止境的投入大量资金来升级系统存储水平、提高服务器性能,以此来满足不断增长的数据量。数据清理在这个时候就显得尤为重要。
通过数据清理和数据归档的实施可以有效的提高数据库性能,确保核心业务不会因为长时间数据积累而出现性能问题,从而应用可以更加迅捷地提供优质服务。当然,数据清理技术也经过了漫长的发展且仍在研发之中。
根据Anaconda和Figure Eight进行的调查,数据清理可能需要数据科学家四分之一的时间。并且,自动化数据清理对于数据清理而言极具挑战性——因为不同的数据集需要不同类型的清理,而且经常需要对世界上的对象进行常理性的判断。
基于此,近日,麻省理工学院(MIT)的研究人员就称,他们发明了一种新的系统,可以自动清除“脏数据”(dirty data)——数据分析师、数据工程师和数据科学家害怕的打字错误、重复、缺失值、拼写错误和不一致。
新系统被称为PClean,是概率计算项目(Probabilistic Computing Project)研究人员编写的针对特定领域的概率编程语言,旨在简化人工智能应用程序的开发并实现自动化,例如时间序列和数据库进行建模。
PClean使用一种基于知识的方法来自动化数据清理过程:用户对数据库的背景知识以及可能出现的问题进行编码。用户可以给PClean关于域和关于数据可能被破坏的背景知识。PClean通过常识概率推理结合这些知识来得出答案。
PClean是第一个贝叶斯数据清理系统,它可以结合领域专业知识和常识性推理,自动清理数据库中的数百万条记录。PClean工作所需的代码行数要比其他最先进的选择少得多:PClean程序只需要大约50行代码就可以在准确性和运行时方面超过基准测试。
显然,大数据时代里还需要更多数据清理技术的开发,这也将为未来大数据的发展提供更多的保证。