统计分析/机器学习最强整理指南
#更新记录#
第一版更新概述:第一版学习指南,主要是基本的学习框架和学习路径,通过第一版书单,相信大家能够建立统计分析/机器学习的整体理论认知。
第二版更新概述:增加了非统计/CS 童鞋的入门书籍,增加了机器学习的外文资料介绍,增加了更多行业实践资料,调整了部分书籍的推荐顺序。
第三版更新概述:增加凸优化内容,修订推荐顺序和内容,增加资源整理板块
第四版更新概述:增加入门及 SPSSModeler 书籍,增加 Python 书籍
第五版更新概述:增加科普读物推荐,修订数学原理、机器学习等多个栏目的推荐书目
#清单学习方式#
我会按照基础到入门给出详细推荐,并且附上个人点评。同时尽量做到各个资料在内容上并不重复(即使内容上有重复,也会在难度上做出区分),希望可以以最直接的方式告诉大家应该怎么选择。
《学习清单》中包含八大部分,大家根据各自学习进度选择主题学习即可,无需按照顺序阅读,其中每个部分的学习建议如下:
1 科普读物:也许你只是对统计分析有着纯粹的兴趣,也许你只是想作为科普学习一下大数据或者相关技术,那么你可以选择这个栏目作为兴趣阅读;
2 初学入门:如你是数据分析及数据挖掘的初学者,建议根据情况选择这部分内容。另外《谁说菜鸟》和《小白学》推荐级别高于《深入浅出系列》;
3 数学原理知识:这部分属于先验知识,但是在学习上并不需要学习好这部分再开始第二阶段。完全可以先跳过该部分内容,事后再补充学习;
4 统计分析学习资料:建议选择其一学习即可,其中统计推断可以作为进阶学习材料;
5 机器学习资料:如果你基础一般,可以先看《小白学》的免费课程。如果你数学及编程基础相对扎实,优先推荐吴恩达的机器学习课程及西瓜书,(推荐配套南瓜书一起阅读);外文系列可以作为进阶选择性阅读;
6 SPSS 学习资料:SPSS Statistice工具使用推荐张文彤的教材,SPSS Modeler的使用推荐《IBM SPSS Modeler数据挖掘权威指南》。案例型的应用学习推荐《 IBM SPSS 数据分析与挖掘实战案例精粹》,尤其值得注意的是,如果从案例分析出发,即使你不使用 SPSS,该书作为行业应用学习也会给你很大启发。
7 Python学习资料:推荐《利用 python 进行数据分析》以及《Scikit-Learn 与 TensorFlow 机器学习实用指南》
8 R语言学习资料:推荐《R 语言实战》
9 行业应用资料:根据需要选择性阅读
#学习清单推荐#
#1科普读物#
也许你只是对统计分析有着纯粹的兴趣,也许你只是想作为科普学习一下大数据或者相关技术,那么你可以选择如下书籍作为兴趣阅读:
1.1《女士品茶》
有人说它是统计学最经典的入门读物,甚至被誉为统计学届的《苏菲的世界》(这个就见仁见智吧,不过也可以一窥它的地位了),作者很好地梳理了统计学的发展脉络,把各种奇闻轶事融入到统计学的概念当中,所以如果不深究还是挺有趣的。为啥说不深究呢,这是因为浩彬老师认为本书其实也有一定的硬核,尤其是最后关于哲学角度的剖析,即使是统计学专业读完相信也会有很深刻的体会。另外这本书一度绝版,多年前浩彬老师还是一度从旧书商处高价讨回来的,不过现在有新版就很容易购买到了。
1.2 数学之美
吴军老师作品,非常经典的科普书籍,可以说是在讨论数学是如何互联网在互联网技术中大放异彩的科普读物,如果读者有一定的数学基础,那么相信虽然本书有不少公式,但是吴军老师出色的写作技巧还是可以让你读得津津有味,如痴如醉。
1.3 统计之美
李舰老师作品,相比于女士品茶,个人更加推荐统计之美作为统计分析的入门书籍。本书中,每章每节,作者都会从从古到今的故事中选择一些案例作为引子,再结合统计学的思想向你娓娓道来,不仅易读,更重要是易懂,也有趣。本书涵盖统计与科学入手,再到概率与数学,到数据可视化,模型与方法,再到大数据时代最后到数据的陷阱,基本上读罢本书,从统计的起源到现在大数据时代的相关内容,都让你有一个比较全面的认知
#2初学入门#
统计分析/机器学习已经不仅仅只是相关专业人士的私藏,现在有更多跨专业的童鞋也希望学习相关知识来提供自身领域的能力,因此这里简单给大家介绍几本入门学习材料。
2.1 小白学数据挖掘与机器学习(SPSS Modeler 案例篇)
彩印书籍,情人眼里出西施,作为入门级书籍,浩彬老师还是认为非常不错的,主要在于:
(1)通俗易懂:采用生活化的案例作为突破,漫画化方式深入浅出全面解析机器学习的算法理论知识,再使用实践案例进行巩固,大大降低初学者的入门门槛。;
(2)内容丰富:理论知识上涵盖了主流的统计分析技术(t 检验,相关分析,卡方检验等),机器学习算法(分类算法,聚类算法,关联规则,集成学习);
(3)规划合理:实践案例中涵盖数据处理,数据探索,算法建模,模型评估等内容,涵盖整个数据挖掘的全流程;
另外,比较优势的一点是,本书附带了 37 节免费的视频课程,非常好的和书本内容做了互补,免费视频课程地址:
https://edu.hellobi.com/course/281
另外,此书和菜鸟系列的差异主要在于菜鸟更重于传统的数据分析,本书更着重于数据挖掘。
2.2《谁说菜鸟不会数据分析》系列
菜鸟系列分别是入门篇,工具篇和 SPSS 篇。该系列书籍是彩印的,同时入门篇提供了数据分析的基本概念和简单的 Excel 使用技巧,工具篇和 SPSS 篇提供了对工具的入门掌握,整个系列的好处是直观简单,能够帮助非相关的专业人士快速建立起对基本概念的认知和基本的数据分析思想,硬要说“缺点”则是过于简单,但对于入门同学来说,这个层面刚刚好。
三本书的内容其实在数据分析基本概念这部分都是存在部分重复,因此可以根据需要先买一本(建议黄色入门篇),如果你还记得多年前学过的基本分析知识,更具现在的工具使用情况可以考虑工具篇(现在的你需要经常 Excel,想学习写一份简单的分析报告)或 SPSS 篇(现在的你,被期望使用一些统计分析方法,有一些稍深入一点的见解)
2.3 深入浅出系列统计学,深入浅出数据分析
毕竟是基本入门,浩彬老撕认为只选一个系列就足够了。如果你确实想看得更多旁敲侧击,可以看看《深入浅出统计学》,以及《深入浅出数据分析》。相比于《小白》和《菜鸟》,浩彬老撕认为《深入浅出系列》内容稍多,但是行文逻辑相比于前面略有发散,个人更建议《小白》和《菜鸟》。
#3数学原理知识#
值得注意的是,尽管逻辑上看数学原理知识这部分属于机器学习的先验知识,但是在学习上并不需要学习好这部分再开始第三部分统计分析或者第四部分机器学习。完全可以先跳过该部分内容,事后再补充学习。
3.1 课程
可汗学院公开课:线性代数课程
因为网易公开课有翻译,因此下面中文字幕课程链接,这里真要给网易 100 个赞,字幕做得很好。
http://open.163.com/special/Khan/linearalgebra.html
“可汗学院(Khan Academy),是由孟加拉裔美国人萨尔曼·可汗创立的一家教育性非营利组织,主旨在于利用网络影片进行免费授课,现有关于数学、历史、金融、物理、化学、生物、天文学等科目的内容,教学影片超过 2000 段,机构的使命是加快各年龄学生的学习速度。”
3.2 参考书籍
(1)线性代数及其应用 豆瓣评分 9.2
非常好的线性代数教材,本书是翻印版本,相比于传统国内教材,本书对于原理的讲解更为透彻,建议作为工具书,里面的知识足够支撑我们后续统计分析和机器学习需要。
(2)凸优化 豆瓣评分 9.4
在机器学习领域,除了矩阵相关知识外,凸优化的只是也是极其的重要。一旦你开始学习机器学习相关算法理论,你会发现很有理论的源头都能在这里找到很好的解释。
当然,在后续学习中有些算法也会用到微积分的知识,但是都比较基础,因此遇到不懂的时候直接查资料即可,就没有特定推荐材料了。
#4统计分析学习资料#
4.1 统计学/概率课程
同样推荐可汗学院的统计学和概率课程,而且刚好这两门课程也被网易公开课进行了翻译:
(1)可汗学院公开课:统计学
http://open.163.com/special/Khan/khstatistics.html
(2) 可汗学院公开课:概率
http://open.163.com/special/Khan/probability.html
这两本课程总体不算太难,适合入门。个人觉得讲授还是蛮有特点的,粗暴直接,另外举的例子也是蛮有趣的。
4.2 统计学/概率参考书
(1)统计学 豆瓣评分 8.8作者 William Mendenhall / Terry Sincich
《统计学(原书第 5 版)》内容丰富,很少涉及统计学理论的严格数学证明,绝大部分是与实际应用紧密联系的例子和练习,适合作为理工科各专业本科生、研究生的统计学教材,也可作为相关领域研究人员的参考读物。” 非常注重实用的统计学课程,偏应用,少数学证明,可读性比较强;
(2)统计学 豆瓣评分 7.3作者:贾俊平,何晓群,金勇进
统计比较通用的入门教材了,不知不觉竟然到了第六版,个人认为也算是兼顾数学证明和应用,可读性没有上面强,有很多统计学专业的起始教材也会选择这本,当然个人更推荐上一本。
(3)统计推断 豆瓣评分 8.8,/英本原本 9.2作者:William Mendenhall / Terry Sincich
非常经典经典的统计学教材,借用介绍“从概率论的基础开始,通过例子与习题的旁征博引,引进了大量近代统计处理的新技术和一些国内同类教材中不常见而又广为使用的分布。其内容既包括工科概率入门、经典统计和现代统计的基础,又加进了不少近代统计中数据处理的实用方法和思想” 可以作为研究生所用教材,有深度,但是作者循序渐进,解释得非常漂亮。
#5机器学习资料#
5.1 机器学习课程
推荐 Andrew NG 吴恩达的斯坦福机器学习课程,英文授课,但是已有完善的中文字幕,内容非常丰富且充实(20 节),并且讲解得非常的好,如果你想学习机器学习,一定不能错过!
Coursera 地址:
https://www.coursera.org/learn/machine-learning#
网易公开课地址:
https://open.163.com/newview/movie/courseintro?newurl=IEU2H8NIJ
同时该课程配有课件讲义,同样建议大家在学习视频课程之余多看讲义和习题,虽然是英文,但是阅读上基本没有什么问题,就讲义本身也是非常的棒。
如果大家学习完 Andrew NG 的机器学习,还想通过其他课程触类旁通,相互借鉴的话,可以上 Coursera 上门搜索还有其他选择,例如台大的机器学习基础等等,但毫无疑问首推 Andrew NG 的课程;
另外上面 0.2 部分的《小白学数据挖掘与机器学习》也包括了免费的视频课程,大家也可以借鉴一下。
5.2 机器学习教材
中文系列:
(1)机器学习 豆瓣评分 8.9
作者:周志华
被戏称为《西瓜书》,最好的中文机器学习教材之一(其实我想把之一去掉),作为机器学习的入门教材来说,它不但涵盖内容范围全,同时逻辑清晰,可读性强。并且大部分算法有比较完整的算法推导和伪代码,对于学习掌握非常有帮助。强烈推荐!
(2)机器学习公式详解(南瓜书)
周志华老师的西瓜书是机器学习领域的经典入门教材之一,周老师为了使尽可能多的读者通过西瓜书对机器学习有所了解, 所以在书中对部分公式的推导细节没有详述,但是这对那些想深究公式推导细节的读者来说可能“不太友好”。近日有个github仓库“南瓜书(PumpkinBook)”对西瓜书里比较难理解的公式加以解析,以及对部分公式补充具体的推导细节。非常推荐西瓜书及南瓜书共同服用!并且经过几年的开源之后,南瓜书在2021年3月也已经出版了!
仓库链接:https://github.com/datawhalechina/pumpkin-book
在线阅读地址:https://datawhalechina.github.io/pumpkin-book/
纸质书籍可以到京东及当当购买,价格非常优惠,值得收藏!
(3)统计学习方法(第二版) 豆瓣评分:9.3
作者:李航
个人认为中文教材里面少见的精品。相比于西瓜书,要精简得多,但逻辑非常的清晰,部分算法的讲解要更加优美,可读性要低于《西瓜书》,可能不太适合入门者,但是还是非常值得推荐阅读学习,目前该书更新了第二版,推荐购买新版,新增了很多内容。
特别地。清华大学袁春老师制作了配套课件,下载地址(袁春老师主页):
http://www.sz.tsinghua.edu.cn/publish/sz/139/2010/20101218141443318939067/20101218141443318939067_.html
外文系列
(4)Pattern Recognition And Machine Learning 豆瓣评分 9.6
作者:Christopher Bishop
三大机器学习外本经典教材之一,PRML,没太多好说的,经典,好书!相对理论的一本书,不但全面,而且深入!针对于某一算法可能会给于多种介绍和解释,我个人觉得可以作为西瓜书之后的进阶教材。
另外,网上有 PRML 的中文翻译版本,是哈工大马春鹏的自发翻译,但由于牵涉到版权问题,这里不提供链接了,确实有需要的同学相信大家可以找到的。
附《关于网上流传的 PRML 中文翻译稿的声明》
http://weibo.com/p/1001603885799136480788
(5)The Elements of Statistical Learning(统计学习基础)
豆瓣英本原版评分 9.4(2008 年) 中文评分 7.4
作者:Trevor Hastie
三大机器学习外本经典教材之一,这本书被广大人民喜称为 ESL,虽然书名是统计学习基础,但是此书一点都不基础,一点都不~另外此书还有一本专门的入门版本 ISL(后面会介绍)
这本书涵盖了非常多的内容,讲解深入,有人评价说,“有了这本书就不需要其他机器学习教材”,虽然有点夸张,但是此书实际是机器学习的经典巨作,如果你真的希望好好研究机器学习,此书非常值得仔细研读,另外此书要求不低的统计理论和数学基础。
此外,这本书还有一个牛逼的地方在于,作者把书放在网上免费下载:
http://statweb.stanford.edu/~tibs/ElemStatLearn/
(6)Machine Learning-A Probabilistic Perspective
豆瓣评分 9.3 (2012 年)
作者:Kevin P. Murphy
三大机器学习外本经典教材之一,PRML。留意时间线,三本经典教材的出版日期从 2007,到 2008,再到 2012。因此相比于以上两本书,本书的最大特点是“新”,因此内容比 PRML 和 ESL 要更广一点,但个人觉得深入度不够前两者。建议是先读前者,MLAPP 用于补充。
#6 SPSS学习资料#
SPSS是非常著名的统计分析及数据挖掘软件,无论是分为统计模块 SPSS Statistics还是数据挖掘模块 SPSS Modeler,都以图形化界面易用性著称,即使使用者没有任何编程技巧也能顺序完成专业的统计分析及机器学习。
考虑到 SPSS 分为统计模块 Statistics 以及数据挖掘模块 Modeler , 因此也分为两大块介绍
6.1SPSS Statistics 统计分析资料
SPSS Statistics 市面上的书籍比较多,从我个人的角度,认为张文彤老师的系列足以让大家加深对统计体系的理解,同时也能很好掌握在实际的应用当中如何使用统计分析帮助我们完成任务,我认为掌握统计分析原理实战和 SPSS 操作,以下两本书足矣。
(1) SPSS 统计分析基础教程
提供了包括医疗、经济、市场研究等方面的案例贯穿了全书,能够很好从实际应用角度把统计分析原理和 SPSS 操作结合起来,也提供了很好的结果解读,不失为一本极好的工具指南。
(2)SPSS统计分析高级教程
相比于基础教材,高级教程介绍了更多的统计算法模型,同时也提供了一些统计新方法和新观点的讲解。整体来说直观易懂,能够很好提升实战能力。
6.2 SPSS Modeler 机器学习教程
(1)Modeler 官方的帮助文档和 Sample 文件
Modeler 提供完备 Sample 数据和数据建模文件,并且配套中文说明,可以帮助入门者一步一步搭建数据建模流并理解实际应用场景。Modeler 提供的帮助文档包括有算法说明,节点说明,Crisp-dm 方法论,应用文档等,其中比较重要两个文档是:ModelerApplications 以及 ModelerUsersGuide
SPSS Modeler 官方文档(多国语言,含中文)官方下载:
http://www-01.ibm.com/support/docview.wss?uid=swg27046871
(2)IBM SPSS Modeler 18.0 数据挖掘权威指南
目前最新的 IBM SPSS Modeler 工具手册,本书是一本以数据挖掘应用为主导,以 SPSS Modeler 为实践框架的应用指南,一共包括 23 章内容,涵盖整个数据挖掘流程的主要内容、算法理论以及实践细节,并且每章都有“独门”实践小技巧,因此,即使是作者是两名 IBM 曾经的 SPSS 高级工程师,也是打磨了很久才把这个作品写好。作为一本“SPSS 字典”,23 章的内容中涵盖了数据挖掘方法论、特征工程、数据可视化、统计检验、机器学习、自动建模、蒙特卡洛模拟,R 与 Python 集成、模型部署以及性能优化等,全面覆盖在数据挖掘项目中用户可能遇到的内容。
(3) IBM SPSS 数据分析与挖掘实战案例精粹
提供了医疗、金融、保险、汽车、快速消费品、市场研究、互联网等多个行业的数据分析/挖掘案例,基于实战需求,详细讲解整个案例的完整分析过程,并将模型和软件的介绍融于案例讲解之中,尤其是书本最后几章实践案例,从商业问题界定到商业应用,给出了非常详尽的建模指南,个人认为目前市面上 Modeler 最好的工具手册;另外即使不是使用 SPSS,而是用其他工具,该书后面的例子也值得大家研读。
#7 Python 学习资料 #
注意:本章节的学习不一定要按照顺序,请根据你的个人情况和喜好(确实是喜好)进行选择。
7.1 Python编程从入门到实践
非常好的Python 入门书籍,这本书倒不全是和数据分析无关,或者说不是针对于数据分析用的书,但是如果你已经决定使用Python 作为你的数据分析语言,那我仍然认为这本书非常值得一读。当然你可以选择阅读完后面的 python 数据分析书籍后,再回过头来读这一本,也未尝不可。
7.2 利用 python 进行数据分析
非常经典的书籍,又爱又恨。一本对 Pandas 有非常透彻说明的书籍(当然对 numpy 以及 matplotlib 也有不少的篇幅),作为工具书非常合适,作为你要学习数据操纵的书非常合适。是的,本书并没有讨论 sklearn,没有机器学习的内容,因此非常专注于 pandas 的使用。因此如果你希望能够利用 python 做好数据分析,这本书的内容,你确实需要掌握,但是相对而言,难免有所枯燥。
7.3 Scikit-Learn 与 TensorFlow 机器学习实用指南or Hands-On Machine Learning with Scikit-Learn and TensorFlow
个人认为极好的 python 机器学习书籍,主要介绍了 Scikit_learn 以及 Tensorflow,从最简单的线性回归到深度神经网络都有涉及。尤其是开始的三章尤其经典,如果你之前没有用 python 进行过一个数据挖掘项目,相信开始的三章会让你获益匪浅(即使你已经学会数据挖掘一段时日了,但是该部分的内容,我相信你也会获得收获),另外关于 tensorflow 的相关内容也是写得非常的好,如果你读不下去官方文档,这本书也是一个非常好的选择。如果硬要说不足,可能就是相对新手不太友好,但是多看几遍的话,学透完全不是问题。
7.4 Python 数据挖掘入门与实践
入门读物,应用案例要多于 Scikit-Learn 与 TensorFlow 机器学习实用指南,但是深度以及专业程度还是要差一点,两者可以互为补充阅读。
#8 R语言学习资料 #
8.1 R语言实战
首先这本书绝对可以担当日常工具手册,从基本操作,数据处理,数据建模,图形展示都给出了非常详尽的介绍;其次虽然是工具手册,但是能够结合基本统计知识于简单案例,具有很强实践性,强烈建议各位把书中的代码都实现,相信能够大大提升 R 的功力。最后说一句,此书翻译得不错。
PS 该书已经出版第二版,京东上第一版价格 55.70,第二版是 84.20,虽然贵了 50%。第二版做了大量更新和修正,新增了接近 200 页内容,介绍数据挖掘、预测性分析和高级编程,资金充裕的童鞋可以选购新版本学习。
8.2AnIntroduction to Statistical Learning(统计学习导论)
此书被广大人民群众称为 ISL,没错,就是上面 ESL 的入门版本。无论作为统计教材推荐还是 R 语言教材推荐都称得上 5 星的读物。ISL 虽然是入门版本,但是绝对不是因为内容简单。深入浅出,内容详细,常常读完有种恍然大悟的感觉,同时能够结合 R 语言介绍,大大的加分。另外此书中文版译作统计学习导论
#9 行业应用资料 #
前面分别介绍了理论以及工具使用部分,但是要知道数据挖掘领域业务知识和应用场景是非常的重要,因此本部门主要为大家介绍一些行业应用材料。
9.1 《数据掘金——电子商务运营突围》
虽说《数据掘金——电子商务运营突围》一书主要定位是给电商从业人员,但是浩彬老撕相信,当中的一些数据分析逻辑以及技巧,都能够对其他行业的数据分析人员,市场人员,运营人员带来很大的启发,本书目前比较大的问题就是有点旧了、
9.2 《游戏数据分析的艺术》
游戏行业数据分析比较重要的参考读物。如果是非游戏行业,仅是想学习数据思维,浩彬老撕觉得《游戏数据分析的艺术》要比《数据掘金——电子商务运营突围》略好,因为本书的逻辑性和框架性更强一点。美中不足的可能就是分析角度还是不够深入,同时没能针对工具实现有更详细的说明。
9.3 啤酒与尿布
虽然都是讨论行业的分析应用,但与前两者不同的是,本书更偏重于业务以及分析的思维。因此如果你是零售行业从业者,本身相信可以给你带来一些有趣的角度。Ps:此书貌似已经没有再版,有需要的童鞋可能只可以下载电子书和买二手书。