7本能使你成为一名更好的数据科学家的书
从事数据科学和大规模应用机器学习的书籍将为您提供更广阔的视野
我最早在2010年住院期间开始编写代码。我对自己说:“如果我被困在这里,我想学习一些有用的东西。”像大多数冒险的人一样,我很快就被这种新发现的力量所迷惑!即使是我在C ++中能够做得非常简单的事情,也让我看到了所有可能性和奇迹。
在我攻读博士学位期间,我第一次被介绍给机器学习。我当时正在研究用于优化高功率激光防御系统的工具和技术,但偶然发现了强化学习。这些技术可以迅速超越并超越传统的方法来优化这些令人难以置信的复杂系统,并且它们提出了完全新颖的方法,挑战了一些常规设计。
在过去的十年中,术语“数据科学”已经发展为广泛使用和不成比例的流行。我们已经看到大量工作被重新命名为“ 21世纪最勤奋的工作”的另一种风格,并且目睹了诸如大数据,机器学习和人工智能等流行语的兴起(和高峰?)。

> Google trends data for big data, machine learning, and artificial intelligence for the last ten years (image by the author adapted from Google Trends).
数据科学已将许多人吸引到了高薪和具有自治承诺的领域。使用数学和统计数据来推动业务成果并实现价值的概念很有趣,并且对预测未来的想法充满了幻想。对于许多开始从事数据科学工作的人来说,很容易被所有可能带走。最新的云技术和机器学习工具可供您探索。
不过,我们开始看到这种趋势的阴暗面。从医疗保健和司法制度方面的种族偏见,到全球最大的公司之一的招聘过程中的性别歧视,尽管某些行业最聪明的人都在努力,但偏见的模式仍在蔓延。
但是,明智的做法是,在预测现实世界的混乱时,信任模型和机器会产生成本。如今,2008年金融危机的影响仍然非常现实。我们已经亲眼目睹了在遵循复杂模型而没有深入了解它们的细微差别,局限性和隐含假设的情况下做出大规模决策时所造成的损害。我很高兴看到机器学习和AI社区已经在采取行动避免这些错误。
数据科学家有广泛的主题需要学习-这是该职位最令人兴奋的方面之一。这种学习也不限于技术知识。数据科学家需要学会交流发现结果,并帮助组织从其数据中获取价值。
社区喜欢共享技术信息,但经常陷入关于哪种工具最好或云平台大战的争论。在许多情况下,数据科学家应该更加担心是否应该使用这些工具以及它们可能产生的影响(正面和负面)。您能否自信地说您的数据没有偏见?如果不是,您是否知道该怎么做?
根据这次讨论,我想提出一些我有见地的书。这些书中的每一个都提供了要汲取的经验教训,从最近的历史背景中汲取的教训,或者是对边缘群体的不同看法。这些书都改变了我的思维方式,并最终提高了我为工作带来价值的能力。
希望您在考虑工作的投入和产出以及它所处的广阔环境时会采用一种新的哲学。
1.纳西姆·尼古拉斯·塔勒布(Nassim Nicholas Taleb)的《被随机性愚弄》

本书从概率和风险的角度提出了一种非常规的思维方法。与相似的材料相比,这本书苛刻,自以为是的风格和详尽,经过深思熟虑的内容都令人耳目一新。Nassim Taleb从衍生品交易商,数学家和哲学家的角度撰写文章。他是风险,不确定性和定量建模方面的专家。
这本书的主要外卖不是在事实之后被随机事件所迷惑的。生存偏见是一个重要的教训,值得考虑,一个让我更深入地考虑建造模型时的特征的因果关系。
前几章提到了有关俄罗斯轮盘赌的观点,它是一种图形化的强大提示,可以在观察历史事件时考虑所有可能的结果。
“概率不仅仅是骰子或更复杂的变体的赔率计算;这是对我们知识缺乏确定性的接受以及对付我们无知的方法的发展。”
2. CarolineCriado-Pérez的《看不见的女人》

本书提供了令人难以置信的洞察力,以解决我已经意识到但完全不熟悉的问题。现代世界主要是为男性建造的,立即使一半人口处于不利地位。
我们开始在数据和AI世界中听到有关这方面的恐怖故事。不论您的性别是什么(对于非二元个人而言,这些问题都可能会更加复杂),这本书有很多地方可以解决。它暴露了数据中非常真实的性别差距,即我们对女性的系统性歧视所造成的知识差距,导致普遍存在的,看不见的偏见,会对妇女的生活产生负面影响。
“这种以男性为主导的文化的结果是,男性经验,男性观点已被普遍认为,而女性经验-毕竟占全球人口的一半-被视为利基市场。。”
3.凯茜·奥尼尔的《数学毁灭武器》

本书围绕着如此众多决策工具的规模和自动化如何加剧和加剧不平等现象展开讨论。我们已经在新闻中看到了一些例子,例如Facebook的新趋势主题算法和数据驱动的策略,这引发了以下问题:还有多少未报告?
该书认为,这些工具都具有三个共同点:不透明度,缩放比例和损坏。它们中的许多是专有的,或者某种程度上不受审查。即使最近有可解释的方法趋势,许多模型仍然是一个黑匣子。如果您无法解释它们,如何判断模型是否有偏差?
大规模部署后,它们会影响大部分人口,这只会增加某些人遭受高度负面结果的机会。这可能是由于通过基础数据将种族主义或其他偏见编码到模型中或使掠夺性公司能够针对易受攻击的个人而造成的。
这本书应该让您质疑您的预测中潜在的偏见和不公。
“大数据流程编码过去。他们不是发明未来。这样做需要道德想象力,这只是人类可以提供的东西。我们必须将更好地值明确地嵌入到我们的算法中,从而创建遵循我们道德领先的大数据模型。有时这意味着将公平放在利润之前。“
4.斯科特·帕特森的《黑池》

本书介绍了相对近期的股市向我们现在所知道的高度计算系统的过渡。如今,在高频交易的世界中已经部署了预测模型,每秒可以做出数百万个决策。
本书揭示了这个庞大而复杂的生态系统背后的某些丑陋之处。它经常谈论如何通过使用这些工具使系统变得难以理解。该书还重点介绍了如何在无需深入了解主题的情况下使用计算方法来解决各种问题,因为这是危险的力量。
“多么昂贵而不必要的混乱。如果您只是重新分配所有正在解决这个人为制造的问题的人,那么您可能会在一年内找到治愈癌症的方法。”
5. Shoshana Zuboff的《监视资本主义时代》

这本书是许多人推荐的,也是正确的。它写得很出色,解决了一个日益增长的迫在眉睫的真理:许多大公司比以往任何时候都更有力量,比我们最亲密的朋友和家人对我们的了解更多。这些组织为了利益而预测和控制我们的行为符合利益。所有这些最终的影响可能是与这些系统交互的人的人性空前的变化。
随着时间的流逝,信息的不平等随着这些组织中越来越成功的组织将其优势集中于对我们的了解越来越多。更糟糕的是,立法者或更广泛的社会几乎没有抵抗力。
希望这本书会让您质疑如何应用您的工作,或者至少使您知道如何使用这些工具来修改和塑造行为。
“监视资本主义单方面宣称人类经验是免费的原材料,可以转化为行为数据。”
6.詹姆斯·格里克的《混乱》

这是另一本书,深入探讨了我们与未知和不可知的关系。本书是对混沌科学的回顾,解释了我们在理解上的局限性以及无法准确地对现实世界进行建模。
本书为模型何时失效提供了良好的环境,提醒我们现实世界总是复杂得多。
“只有在拥有正确的隐喻让您感知到它之后,您才能看到某些东西。”
7.查尔斯·惠兰(Charles Wheelan)的《裸统计》

在此列表中,似乎不容易读懂统计信息(针对数据科学家的建议),但提供的观点很有价值。在许多情况下,数据科学家需要对非技术利益相关者进行教育和交流。因此,至关重要的是要记住,并不是每个人都像您一样理解(甚至关心)统计,数学或技术方面的知识。
作为一般的数据科学家和技术专家,我们常常因迷失在细节和复杂性上而感到内—,因为这就是我们的热情所在。很多时候,我看到一个会议室里挤满了人,同事开始解释他们模型的内部工作原理。
本书的沟通风格和示例的质量都处于正确的水平。此外,在阅读本文时,我一直在思考目标受众。牢记目标受众的想法将加强您的交流并提高您增加价值的能力。
“容易掌握统计数据,但是没有统计数据很难说出真相。”
结论
此清单上的七本书应该为拓宽数据科学领域的人们的视野打下坚实的基础。牢记洞见和观点应为您提供更大的背景信息,以了解您的决策的潜在影响。
如果您认为有什么书可以大大补充此清单,请告诉我。
(本文由闻数起舞翻译自Binary Decision Trees的文章《7 Non-Data Science Books That Will Make You a Better Data Scientist》,转载请注明出处,原文链接:https://medium.com/better-programming/7-non-data-science-books-that-will-make-you-a-better-data-scientist-1e2844d75fa1)
