推荐一个python库:Vaex

我在忙什么呢?最近我在研究各种工具产品的智能化趋势,数据的充沛、算法的成熟,以往我们pc互联网创造的工具都有被改造一遍的可能。

我最看重几个机制,比如数据存储与应用分离、模块化、流程自动化、个人/开发者生产内容、平台与插件生态等等。

这些机制理解起来非常简单,但是可以诞生非常强大的复杂系统/生态。

简单的才是最有效的解决方案。

我喜欢关注各种代码的核心运行机制,欣赏开发者所具备的创造力跟想象力。推荐今天看到一个不错的python库。用于日常的数据挖掘工作非常不错。

Vaex是一个开源的DataFrame库。

先感受下速度,如果在笔记本电脑上运行:

Pandas将按每秒数百万字符串的顺序进行;

Spark将以每秒1000万个字符串的顺序执行;

Vaex每秒可以处理大约1亿个字符串;

Vaex可以对表格数据集进行可视化、探索、分析,甚至机器学习,这些数据集和你的硬盘驱动器一样大。它可以在一个n维网格上每秒计算超过10亿(10^9)个对象的平均值、和、计数、标准差等统计信息。

可视化使用直方图、使用直方图、密度图和3D立体渲染进行可视化。为此,Vaex采用了内存映射、高效的外核算法和延迟计算等概念来获得最佳性能(不浪费内存)。所有这些都封装在一个类似Pandas的API中。

GitHub:

https://github.com/vaexio/vaex

有兴趣建议尝试下哈~

最后,mixlab第12期活动开始啦

https://www.huodongxing.com/event/9521928020400

(0)

相关推荐