每周一本书之《全栈数据之门》:数据科学的全栈基础入门宝典

数据猿导读

《全栈数据之门》以数据分析领域最热的Python语言为主要线索,介绍了数据分析库numpy、Pandas与机器学习库scikit-learn,使用了可视化环境Orange 3来理解算法的一些细节。

本周小编准备高冷一把,要为大家推荐的是一本纯粹的技术性书籍(想看快餐文化的童鞋们抱歉啦)——《全栈数据之门》。

本书作者任柳江一直工作在数据处理与数据挖掘的第一线,具有丰富的理论知识和实践经验,精通多种数据挖掘与分析的工具的使用,此外,爱好阅读的他还将技术的境界与佛法道义结合,将一本看似枯燥的技术手册赋予了文学的美感。

《全栈数据之门》以数据分析领域最热的Python语言为主要线索,介绍了数据分析库numpy、Pandas与机器学习库scikit-learn,使用了可视化环境Orange 3来理解算法的一些细节。

对于机器学习,既有常用算法kNN与Kmeans的应用,决策树与随机森林的实战,还涉及常用特征工程与深度学习中的自动编程器。在大数据Hadoop与Hive环境的基础之上,使用Spark的ML/MLlib库集成了前面的各部分内容,让分布式机器学习更容易。大量的工具与技能实战的介绍将各部分融合成一个全栈的数据科学内容。

《全栈数据之门》并不是从入门到精通地介绍某一种技术,其内容定位于数据科学的全栈基础入门,全部内容来自当前业界最实用的技能,有非常基础的,也有比较深入的,有些甚至需要深入领悟才能理解。

本书从内容上共分为8个章节,分别是:

第1、2、3 章:内容比较单一,涉及基础的Linux、Python 与Hadoop 知识。如果对这三章中的某些知识不熟悉,建议先阅读。

第4章:本章比较特殊,其内容也是数据科学中比较重要的,不仅需要前3章的知识,也需要部分Spark的知识,因为Spark的特殊性,单独放到机器学习之后了。

第5、6 章:涉及数据科学中最重要的主题:机器学习与算法,介绍了机器学习的常用环境、概念、方法以及几个典型的算法应用。这两章是本书的难点,如果不熟悉,必须单独攻克。

第7章:Spark 本身就是一个全栈框架,无论是在分布式计算还是在机器学习领域,都大有用处。因此最好有前面章节的基础知识,方能更好地理解本章的内容,尤其是MLlib/ML 库,必须有机器学习算法的知识。

最后一章:第8章反而是最简单的,因为基本不涉及技术细节,但对整个数据科学的理解,以及技术积累都是非常重要的。

适读人群:

本书适用于任何想在数据领域有所作为的人,包括学生、爱好者、在职人员与科研工作者。无论想从事数据分析、数据工程、数据挖掘或者机器学习,或许都能在书中找到一些之前没有接触过的内容。

本书由 数据猿联合电子工业出版社 共同推荐

【本栏目合作伙伴】:清华大学出版社、电子工业出版社、北京师范大学出版社、中国人民大学出版社。

更多“每周一本书”,可加作者Abby微信:wmh4178(请注明姓名、公司)交流

(0)

相关推荐