推荐一个python库:Vaex
我在忙什么呢?最近我在研究各种工具产品的智能化趋势,数据的充沛、算法的成熟,以往我们pc互联网创造的工具都有被改造一遍的可能。
我最看重几个机制,比如数据存储与应用分离、模块化、流程自动化、个人/开发者生产内容、平台与插件生态等等。
这些机制理解起来非常简单,但是可以诞生非常强大的复杂系统/生态。
简单的才是最有效的解决方案。
我喜欢关注各种代码的核心运行机制,欣赏开发者所具备的创造力跟想象力。推荐今天看到一个不错的python库。用于日常的数据挖掘工作非常不错。
Vaex是一个开源的DataFrame库。
先感受下速度,如果在笔记本电脑上运行:
Pandas将按每秒数百万字符串的顺序进行;
Spark将以每秒1000万个字符串的顺序执行;
Vaex每秒可以处理大约1亿个字符串;
Vaex可以对表格数据集进行可视化、探索、分析,甚至机器学习,这些数据集和你的硬盘驱动器一样大。它可以在一个n维网格上每秒计算超过10亿(10^9)个对象的平均值、和、计数、标准差等统计信息。
可视化使用直方图、使用直方图、密度图和3D立体渲染进行可视化。为此,Vaex采用了内存映射、高效的外核算法和延迟计算等概念来获得最佳性能(不浪费内存)。所有这些都封装在一个类似Pandas的API中。
GitHub:
https://github.com/vaexio/vaex
有兴趣建议尝试下哈~
最后,mixlab第12期活动开始啦
https://www.huodongxing.com/event/9521928020400
赞 (0)