学科建设 | 十字路口的统计学: 谁在应对挑战?
编者按
最近国内统计学届召开多次学科建设相关会议,故重发本报告作为一种思路参考。本报告讨论了统计学科面临的机遇和挑战,由“统计和数据科学的作用/价值”、“科学和社会应用中的挑战”、“基础研究”、“专业文化与社区责任”、“博士教育”五部分组成,内容来源于2018年10月15日至10月17日在弗吉尼亚州举行的“十字路口的统计:数据科学时代的挑战和机遇”研讨会的报告。该报告由Xuming He组织并由指导委员会(成员为James Berger, Xuming He, David Madigan, Susan Murphy, Bin Yu和Jon Wellner)审核,由吴喜之老师翻译,已得到委员会和译者授权。
什么是未来?未来的数据分析能够涉及巨大的进步,克服真正的困难,并为科技的各个领域提供出色的服务。会是这样吗?这完全依赖于我们,依赖于我们是愿意选择解决实际问题的坎坷道路,还是选择由不真实的假定、武断的准则及脱离实际的抽象的结果构成的平坦的道路。谁来应对挑战?
——JOHN W. TUKEY (1962), “FUTURE OF DATA ANALYSIS”
执行摘要
我们的世界越来越依赖数据和计算来创造知识、做出关键决策以及更好地预测未来。数据科学已成为一个新的领域,通过集成和开发来自统计、计算机科学及实际领域的想法、概念和工具来支持这些数据驱动的活动。数据科学现在推动着生物学、天文学、材料科学、政治科学和医学等多元化领域,更不用说全球经济的广阔领域、政府的主要活动以及日常社交和社会功能。
统计领域正处于十字路口:我们要么通过拥抱和引领数据科学而蓬勃发展,要么拒绝并变得无关紧要。从长远来看,要繁荣发展,我们必须重新定义、扩展和转变统计领域。我们必须发展并成长为从数据中收集和提取有用信息的跨学科科学。随着各数据科学实体在校园、行业和政府中快速建立,成功转型的机会窗口有限,我们绝不能错过。为实现这个变革,我们现在必须通过重新构想我们的教育计划、重新思考教师的招聘和晋升以及加速必要的文化变迁。
我们的领域受益于对毕业生日益增长的需求,但一些新领域提供了更相关的训练,而至少相对而言,统计教育停滞不前。此外,在领导位置上缺乏统计人员,我们并没有主导校园或其他地方的数据科学对话。如果我们现在不站出来,我们就有可能失去资源、人才,甚至失去统计的未来。今天,我们的毕业生很容易找到工作,这反映出数据科学家对市场的绝望,不应该让我们感到轻松。
学术院系必须采取大胆和战略性的步骤来领导和推动转型,然而,我们现有的大多数教师都准备不足,无法引领道路。使问题更加复杂的是,那些尚未接触到统计可以解决实际问题的天才学生正倾向于那些更明显地这样做的学科,从而扼杀了将产生急需的未来统计领袖的关键教师渠道。我们需要重新思考我们如何聘请统计教师、如何资助他们的工作、以及用于规范和奖励学术生涯发展的指标。统计领域正在扩大,并将继续这样做,但战略性的及不断变化的资源分配必须仍然是学术院系的高度优先事项。统计学家需要与现实世界的问题合作,以影响外部世界,超越具体的问题解决,以区别于领域科学家,并开发基于经验证据和理论研究的一般工具,在程式化模型下,为数据科学提供见解。
理论可以为实践提供关键的支架。例如,Stein关于James-Stein估计的开创性理论工作是思想开放的和根本的;它引导我们进行规范化,这在当今的大数据问题中非常有用。理论分析还提供了经验上成功的自助法、广义估计方程和序贯蒙特卡罗的见解和支持。另一方面,如果统计中的理论工作既与实践无关,也无源于实践的动机,那么,前面引用的Tuky(1962)的话,“不真实的假定、武断的标准和抽象的结果”,那么大多数此类工作的仅有的实际目的将是在简历中生成一个条目(并牺牲从审稿者到编辑的大量工作)。优雅和深度是数学中合理的治理指标;偶尔统计理论也可以优雅而深入,但不管怎样,我们的指标是不同的。良好的统计理论必须指导和加强实践,否则我们在浪费我们的时间和精力——时间和精力可以更好地花费并且在数据科学时代推动统计工作是十分必要的。
统计是一门基础学科,对数据科学至关重要。与我们的计算机科学和领域科学的伙伴合作,我们可以在我们的基础上构建并转换统计成为Fisher、Box、Tukey和Breiman最初设想的学科。统计包括实践、计算和理论,但这些组成部分之间的平衡已经严重扭曲,而且缺乏联系。在必须继续推动理论界限的同时,更多的统计人员需要投入于实践以证明我们对社会的价值,为基础研究方向提供信息,并有效地教学,使学生学习实用技能。现在,更新基本概念、基础设施、教学模式和适应新的数据科学时代的文化的时机已经成熟。更具体地说,我们总结我们的主要调查结果和建议如下:
1. 实践的中心作用
今天,我们紧迫地需要以相关的计算和理论为支撑,把实践放在学科的中心。统计和数据科学的研究和教育必须着眼于解决现实世界的问题,总体上必须投入科学和领域问题,对统计以外的领域产生可衡量的影响和贡献。随着数据科学的迅速成熟,这是行业转型以拥抱和引领以数据为中心的世界的关键时期。统计领域的领导人需要做更多的工作,以加快转型,并将这一领域推广到广大科学界和公众领域。
2. 强调影响
该专业需要在学术成就评估中更加重视统计研究的科学和社会影响。NSF等政府机构应鼓励统计学家和其他科学家之间的研究伙伴关系,以确保基础研究在科学、工程和社会方面具有良好基础。ASA和IMS等专业组织也应促进这一点。主要大学的晋升和任期研究评估需要更广阔的视野,不仅要衡量专业内的影响,还要衡量在应用领域的影响。社区需要重视软件/平台开发的重要性。当前过分强调出版物的数量对专业是有害的。对于实践和理论而言,质量和影响应该是主要的评估指标。
3. 为更好的实践做研究
为了使统计研究有效地支持科学与现实世界中的数据问题,毋庸置疑,统计研究的表述必须反映和捕捉现代数据问题中存在的现实。例如,基础研究在动态建模,因果分析和关于依赖性及异质性的推断方法中是需要的。
4. 迎接重大挑战
该领域已准备好接受重大研究问题,以开发经过实践证明的统计调查过程,包括问题制定、数据处理以及统计和机器学习方法/算法,用于分析新兴数据类型(例如文本,图像,关系型数据)、开发支持和推进此类工作的相关理论、发展计算平台,这些计算平台考虑了统计效率、计算、通信和存储成本以及人员参与成本之间的各种平衡。我们必须解决统计和数据科学所有研究领域的研究协议、评估指标和基础架构开发方面的问题。
5. 更广泛的方法评估指标
方法论的发展需要较少关注单一目标下的最优性,而应更多地关注涉及稳定性/稳健性、可再现性、公平性、计算可行性、经验证据和在领域科学中已证明的影响的适当指标。
6. 训练现代技能
我们必须培养在批判性思维、建模、计算和交流等方面有重要技能的下一代统计学家和数据科学家。我们需要重新构想我们的博士学位课程,以适应统计学的必要转变。
背景
“十字路口的统计:数据科学时代的挑战和机遇”研讨会于2018年10月15日星期一至10月17日星期三在弗吉尼亚州阿灵顿的万豪水晶门户酒店举行。此次研讨会聚集了约48位领先的研究人员和教育工作者,利用数据科学时代前所未有的机遇和挑战,为统计领域制定10-20年的愿景。2018年9月10日至10月2日举行了两次研讨会前网络研讨会,数百名在线参与者参加了此次研讨会。网络研讨会和研讨会由来自Knowinnovation的促进团队协助,目的是寻求社区的广泛投入,并牢记以下三个目标:
1.识别需要新的统计基础,方法论和计算思想的新兴研究主题;
2.应对不同应用领域中数据驱动的重要挑战,并促进跨学科合作以应对重要的科学挑战;
3.创建一个充满活力的研究社区,在统计的不同子领域之间保持适当的平衡,包括对基金会的投资。
该项目由NSF赞助,由指导委员会和一组主题负责人组织。这个由六名成员组成的指导委员会由James Berger, Xuming He, David Madigan, Susan Murphy, Bin Yu和Jon Wellner组成,负责项目的总体规划。十名主题负责人负责主持和总结在线论坛和研讨会上的讨论。主题负责人包括David Banks, Alicia Carriquiry, David Higdon, Jennifer Hill, Nicholas Horton, Michael Jordan, Marianthi Markatou, Dylan Small, Marina Vannucci和Ming Yuan。
本执行摘要由Xuming He, David Madigan, Bin Yu和Jon Wellner编写。该报告的第一版是由Xuming He组织并由指导委员会监督的大量撰稿人提供的。我们的撰稿人代表不同的统计人员小组,他们共享报告中讨论的核心价值,但不一定在每个细节上都达成一致。指导委员会有意选择在报告中包含挑衅性言论,以鼓励更广泛社区的讨论和辩论。
该报告旨在能让广泛的统计和数据科学领域的主要利益相关的读看到,包括学术院系,大学行政管理部门和资助机构。
在第1节中讨论了统计和数据科学的作用和价值之后,本报告重点关注与新兴研究和应用中的数据驱动挑战相关的两个目标。第2节从科学和社会应用引起的数据挑战中确定新兴研究主题,第3节讨论基础研究中的许多新兴领域。执行摘要中还总结了如何应对这些数据驱动的挑战并促进跨学科合作。第4节(专业文化和社区责任)和第5节(博士教育)涉及创建充满活力的研究社区并保持适当平衡的第三个目标。
1. 统计和数据科学的作用/价值
2002年,NSF举办了一个研讨会,讨论统计学界未来的挑战和机遇;参见Lindsay Kettenring, and Siegmund(2004)。那时,统计界看到了越来越多的大规模数据的出现带来的快速变化和持续增长。从那时起,该领域的发展加速了,包括统计领域的本科和研究生课程的规模以及统计领域与其他领域之间相互作用的广度。同时,公共和私营部门都接受了大数据,因为越来越多的人认识到大数据可以深入了解生物过程的本质、精密医学、气候变化、社会和经济行为、风险评估和决策。数据科学已将自身展示为一种自然的跨领域发现方法。
毫无疑问,被认为是从数据中学习的统计学在数据科学中具有中心地位。实际上,一些统计系最近更名为统计和数据科学系(例如,耶鲁大学,卡内基梅隆大学和UT奥斯汀分校)。全国各地的大学(例如,密歇根大学)现在都为本科生提供数据科学专业,并且越来越多的机构以各种名称提供了数据科学硕士学位课程,这些机构来自各个领域,例如商学院,信息学院和计算机科学学院。统计界认识到,我们正处在十字路口,拥有前所未有的机会,使其自身现代化成为数据科学的主要参与者。
1.1 统计作为数据驱动的学科
自从统计学作为一个领域诞生以来,它就一直受到科学技术进步的影响。今天,在几乎每个学科中都需要收集和分析数据的情况下,这一点可能尤其如此。随着数据驱动的科学范式成为一种新规范,我们有机会改变自己的领域,并在数据科学中发挥领导作用,尤其是在统计思维与计算思维之间的相互作用上。正如Wender(2017)在国家科学院的报告所讨论的那样,大数据既有希望,也有危险。统计数据正处于以数据为中心的世界的中心,可以帮助私营和公共部门的科学家和领导者实现大数据的真正潜力。
为了融入当今重要的社会和科学计划,我们绝不能将研究局限于纯粹的知识好奇心,也不能将对下一代统计学家和数据科学家的培训仅限于传统课程,无论它们曾经多么成功。10月的研讨会以三位在精密医学领域最前沿的数据科学家(Simon Tavaré)、微数据的使用(Julia Lane)和天文数据(Robert Lupton)的演讲为开端,并继续讨论了许多数据挑战。我们同意,虽然统计数据本身就是一个领域,但它与应用的紧密联系必须继续并加强,这些应用自然包括来自物理科学、社会科学、医学、工程、金融、工业、治理、体育和艺术的各种数据问题。
统计和数据科学的核心价值在于它如何促进科学和社会的理解与发现。合理的数据收集实验设计可提高效率和数据质量。统计过程控制导致制造质量的提高。不确定性的统计量化在确认分析和减少错误发现的风险中起着至关重要的作用。重采样方法和贝叶斯计算在广泛的应用中很有用,因为它们可以容纳复杂的模型。对于统计和数据科学而言,持续证明其对现实世界问题的价值很重要。
统计学发展了作为数据分析指导原则的基础和理论。计算方法和软件开发对于实践同样重要。我们工作的影响不应局限于任何单个应用程序,统计的进步可以对许多应用产生重大影响(例如,Bootstrap、MCMC和贝叶斯计算、类似LASSO的压缩感知方法、一般的适用于大数据的非参数化方法,例如随机森林和深度神经网络)。
许多成熟的统计方法已被“商品化”—有免费的,高质量的软件可以执行许多统计分析。这些方法通常可以提供价值,但需要统计学家扮演新角色。我们需要训练下一代的数据科学家,他们具有在问题表述和对统计概念的正确解释等方面的关键技能。
新理论、方法和方法的动机可能源于由新的调查领域驱动的大规模协作调查,这些调查通过现代传感和数据收集技术以及最先进的数据存储和计算平台而得以实现。这些调查几乎影响了所有领域,并改变了统计与之相关的方式。从农业到社交网络,从遗传学到商业分析,统计学家和数据科学家都处于独特的位置,可以帮助科学家解决有关数据发现的重要问题。
统计人员和统计学如何协助和进行科学研究有很多方式。它们包括:
1.通用方法和软件(例如,回归,用于设计实验的DOE软件)的应用
由于改进的软件和数据平台,在线帮助(例如堆栈交换)、开放源代码的用户支持的灵活通用软件环境(python,R),通用工具的使用近来有迅速的强大正面效果。统计方法和软件已经出现爆炸式增长,现在可供所有用户使用(R包,python)。大数据科学家显然从这种把统计提供给应用的模式中受益。此外,由于他们具有从现代(数据密集型,HPC和网格)平台访问数据的技能,因此可以将已开发的方法和软件应用于新出现的问题。
2.作为大学环境中的顾问或自由职业者
统计人员和数据科学家可能会专注于特定类型的问题或各种类型的问题,通常是多学科团队努力的一部分。这是统计学和数据科学在以后几十年需要产生影响的领域—因此,我们应该牢记这一点来进行激励、培训和开展研究。统计人员和数据科学家可以而且应该在国家实验室、国家项目(例如大型天气观测望远镜,DARPA),主要行业(例如制药公司,保险公司)和政府(例如美国人口普查,USDA)中发挥积极作用)。
3.作为学术研究人员
在这种环境下,研究与教学自然融合。但是,协作/多学科科学的深度可能会受到其他约束的限制。一个主要的约束是教师需要以主要作者的身份出版大量出版物。学术院系需要找到鼓励研究人员参与大规模,多学科科学工作的方法。对学术成就的评估需要不限于只考虑本领域的出版物数量。应该强调对实际领域科学和数据科学实践中的领导作用的可衡量的影响。为了使我们的领域在未来十年中蓬勃发展,迫切需要这样的变革。
1.2 统计与人工智能
在许多技术和科学领域,“人工智能”(AI)一词已开始被广泛地用来描述使用数据分析和基于数据的决定来代替传统的计算机编程,这往往是在补充甚至取代人类的判断。
大约在1955年,人工智能的最初目标是在软件和硬件方面模仿人类的智慧。这一目标仍然是一个崇高的愿望,但可以说,这一目标远未实现。在接下来的几十年中,人工智能研究人员致力于实现这一目标,探索了一系列方法,包括逻辑推理、约束满意度、规划、概率推理和从数据中学习。后者通常被称为“机器学习”(ML),这个术语在20世纪80年代开始被自我认定为人工智能研究人员的研究人员所广泛使用。然而,到20世纪90年代,ML的方法和理论原理显然与统计方法和原则密切相关,即使不是一模一样的,ML和统计之间的区别开始消失。这两个传统的研究人员对跨越旧边界的问题做出了重大贡献。对ML产生了粗略的表征,强调分类、预测、非参数和计算效率。
这些新兴理念直接适用于工业中新出现的问题,20世纪90年代和2000年代,ML在关键任务领域,如欺诈检测、供应链建模、推荐系统、诊断、个性化搜索、广告展示、工业机器人和物流。这些应用依靠开发平台来收集和处理日益大量的数据,这项活动需要计算机科学其他分支,特别是分布式系统和数据库的专门知识。工业界开始使用“数据科学”一词来指能够以这种方式混合统计、数据库和分布式系统的个人和研究团队。同时,科学界的研究者,尤其是天文学,基因组学和地球科学的研究者,开始建立用于大规模数据分析的平台,并经常与业界共享资源(通过开源软件的出现),并且他们的企业通常也被称为“数据科学”。最后,整个企业不仅涉及平台,而且与大规模数据有关,“数据科学”也在挑战新环境中开始涉及应用统计的一些经典问题(例如,缺失数据、可视化和因果关系)。
在过去十年中,这些趋势发生了哪些变化,以至于被贴上了“AI”的标签?主要的变化是,数据集在计算机视觉、语音识别和语言翻译等领域出现,这些领域具有足够的规模和范围,可以构建系统,利用这些数据来模拟人类的感知和语言技能。实现这一点的算法是ML算法,这些算法与20世纪80年代相比变化不大,其中最重要的算法是神经网络中的反向传播,该算法在80年代开发,其根源在于20世纪50年代在最佳控制、信号处理、优化和统计。平台已经改变,但是这些变化是工业和科学中大规模数据分析的更大趋势的一部分。简而言之,新的数据集的出现使得计算机视觉、语音识别和语言翻译的经典AI中心取得了显著进展,这引发了整个企业的扩张,以反映其模仿人类的初衷。
Jordan(2019)将经典的模仿人类的人工智能与智能增强(intelligence augmentation,IA)区别开来。在智能增强(IA)中,计算机用于增强人类的感知,认知和决策能力,如搜索引擎和图像处理;在智能基础设施(intelligent infrastructure, II)中,网络的设备需要与多个人类决策者一起做出大量近乎同时的决策,例如在现代交通、商业、医药和金融系统中。统计原则在IA和II中至少与AI一样重要。此外,在II中,统计原则将需要与微观经济学原则相融合,以便相互作用的决策者可以有效地合作以应对稀缺性并确保公平和机会的获取。
数据科学、机器学习和统计在它们要解决的问题方面有着基本相同的目标。这些领域的研究人员从不同但相互重叠的角度开发了方法论和方法。统计学并不认同模仿人类来构建自主学习系统的总体目标,而是侧重于不确定性下的推理和决策过程中涉及的科学、数学、计算和社会问题。这些交错领域之间正在发生一些交互和协作,并且还需要更多。对于深度学习的最新突破,人类的印记或参与以及计算能力是必不可少的,但是对于某些任务(例如病理报告解读),我们可以想象,随着时间的推移,人类将在人类前进到下一个挑战时,机器将扮演更重要的角色。
2. 科学和社会应用中的挑战
2.1 数据挑战
新兴的数据问题将推动数据挑战。数据科学和IT市场的生态系统正在迅速进化,从而创造了具有可能无法预料的创新的新跨度。Netflix建立了电视内容推荐系统,然后对其进行反向工程,以创造新的流派来吸引观众。同样,YouTube也为小众表演者创造了新的机会来发现他们的艺术并将其商品化––比如业余乐队的一个音乐家表演吸引了万分之一的美国人,YouTube和其他载体便可以将他们的音乐卖给三万个客户,并且他们可以辞去日常工作。我们脚下的大地正在变化,我们必须比前几代统计学家变得更加敏捷和富有企业家精神,以实现统计学的转变。国家科学院的报告“海量数据分析的前沿”(http://nap.edu/18374)讨论了大数据带来的许多挑战。
复杂的领域问题伴随着不同的数据形式:数字、图像/视频、语音和文本、以及这些形式的集成。统计的转变是由大胆的实践和跨学科研究驱动的,这些学科在计算和理论的支持下来解决此类数据问题。相关的理论和计算是始终需要的,但与过去相比,在很大程度上,有价值的学术成就将建立在在实践和跨学科研究的基础上。
具体来说,在新时代,我们看到以下数据挑战:
1. 数据的复杂方式多种多样:数量、速度、多样性、有效性,如果包括对抗性训练,甚至用V代表Vendetta(仇杀队)
2. 在许多情况下,可用数据并不是总体的有代表性的样本
3. 通常,观察到的数据是许多不同数据生成机制的叠加
4. 一些特定的解决方案可以推广,而某些则不能。我们可以在类似问题上借用其强项及获得启发,但是每种分析都必须适合于实际情况,以实现最大的收益
5. 欧盟的“通用数据保护条例”对分析施加了紧迫性,因为人们可能会反复随意地选择加入或退出研究,并且分析人员可能需要不断进行昂贵的重新计算
6. “通用数据保护条例”还要求透明性和可解释性。如果某人被拒绝贷款,那么分析师必须能够解释原因——他们需要再稳定工作两年,或者他们每年需要多赚5000美元。定义可解释性的含义是当前的研究
7. 可重复性:数据的清洁程序和处理需要成为可重复性管道的一部分。我们需要制定一套通用标准
8. 公平性:负责任的数据分析必须解决公平性问题。当数据涉及人群的时候,抽样或测量中的偏差会导致歧视。我们必须教育所有人在数据分析中关于确保公平性的需要;参见,例如,Dwork et al(2012)
相应的文化和人类结构需要与这些数据挑战保持一致:
1. 基础设施:需要考虑到与数据分析有关的“费用”,包括组织大量数据和理解数据结构。这需要物理基础设施(数据库、在线存储库、数据管理、GitHub和共享软件)以及具有适当知识/培训的数据“专家”
2. 随着问题空间变得越来越复杂(例如,基因组学或社交网络中的因果推理),需要多学科团队,甚至需要确定一个可处理的问题
3. 数据挑战通常是依赖于领域的;不同的领域(从物理科学到社会科学)需要具有不同技能/专业知识的统计学家和数据科学家。重新构想的统计教育计划需要用这样的技能来训练我们的学生
统计本身产生于科学家需要量化地使用测量、观察和实验以更好地理解科学现象的需要。天文学、赌博和遗传学等初始应用领域推动了统计理论、概念和方法的开发和使用。自Breiman(2001)以来,我们在将机器学习作为统计的一部分方面取得了进展。在数据科学时代,新兴应用非常丰富。在接下来的几个小节中,我们讨论了选定的几个,并不做出列表是详尽无遗的任何暗示。
2.2 精准健康/医学
精确的健康/医学研究需要对多模式、多尺度、多视角、异质和相依赖数据进行集成和推断;预测和不确定性量化以解决临床医学最大问题;将根据疗效数据(即临床试验数据)获得的结果外推至有效性数据和个别患者的治疗。
由于生物医学研究技术的进步以及捕获和存储大量数据的整体能力的提高,生命科学,医学科学以及公共卫生领域的研究已经发生了重大转变。这些变化将科学生产力的瓶颈从数据生成和收集转移到了数据管理、分析和解释。生物医学和生命科学中数据的爆炸式增长可以用来构建更精确,更准确的疾病分类以进一步发展精确的健康/医学概念,从而有可能彻底改变诊断,治疗和临床决策的制定,以导致进行更个性化的治疗并改善患者预后。例如,降低基因组测序的成本会增加可用的遗传数据,这些数据可用于了解许多疾病的根本原因。此外,电子健康记录可用性的提高提供了对临床数据的访问,而各种移动设备提供了生活方式和其他类型的数据,可用于促进疾病的更准确诊断和治疗。
因此,精密医学是一种新兴的疾病治疗和预防方法,它可以解决个体差异并整合一系列个性化数据,包括基因组、表观遗传、环境、生活方式和病史数据。它着重于将个体分为对疾病的易感性和可能的治疗反应不同的亚群。
为了实现精确健康的承诺,我们需要克服许多科学挑战,这些挑战来自考虑所使用的多个数据源的特征—每个人被收集的数据历史记录,包括医疗记录、健康概况、可穿戴设备、它们所接触的环境、遗传信息等。这些包括不同的数据类型,例如,数值、文本和图像数据(多模式数据)、多分辨率、多视角依赖数据,具有许多不同类型的相关性,例如时间、空间和局部相关。此外,数据中可能存在测量误差和偏差、异质性(局部和空间环境异质性)以及个体变异性和总体异质性。所有上述数据特征都带来了需要解决的基本挑战。
精确健康的基本挑战之一是识别治疗效果的亚组。这是实现精确健康益处的重要一步,因为它提供了关于具有特定特征的个人对特定治疗在疗效或不良反应下如何作出反应的证据。不同的治疗效果不仅包括各亚组发生的治疗效果的数量差异,还包括治疗效果的质量差异。此外,根据研究目标,亚组的特征可能是探索性、数据驱动性或确认性。区分治疗效果的亚组鉴定方法背后的一个关键思想是鉴定可以推动治疗效果改变的预测协变量(生物标志物)。数据驱动的方法通常用于亚组识别,考虑到这一挑战对精确健康的重要性,需要新的方法。一个基本问题是开发用于子组后选择的推断方法。在精密医学研究中需要纳入适当的统计程序和对事后选定子组进行确认分析。
在精密医学领域中出现的其他挑战包括需要开发一种方法来测量一系列疾病的风险以及开发数据集成方法以使人们能够解决重要的推断性问题。数据集成是当前活跃的研究领域,许多科学领域都对此做出了贡献。在生物统计学领域,通过各种形式的荟萃分析在一定条件下进行数据整合。尽管过去和现在在数据集成领域有很多活动,但仍有一些基本问题有待解决。需要开发具有良好统计属性和相关高质量软件的方法,特别是针对各种大规模、高维数据的方法。此外,还需要回答何时不能集成数据集/数据源问题的方法。需要询问何时在分析中合并其他数据没有什么用处,以及如何证明这一行动的合理性。
如果能够获得针对上述挑战的可靠且经过充分测试的解决方案,则其影响将是实质性的,而且将在许多层面上产生影响。在个人层面,它将促进更有效的健康管理,并更好地了解影响健康的外部、非生物因素,以及更好地了解疾病的生物学、社会、环境和其他决定因素;根据个体基因组和表观遗传信息提出更好的治疗方法,并为个体提供更好的自我指导管理;允许个人管理符合其需求的成本效益;并帮助减少不必要的治疗处方。在公共卫生层面,它将更好地了解不同环境因素对健康的影响;提供饮食、运动和其他相关因素对健康影响的更准确归因;增进对健康干预措施副作用的了解;提高新产品开发的有效率;通过提前识别最有可能从特定治疗中受益的个人并确定可能遭受不良事件的个人,从而降低医疗保健成本。
2.3 物理科学中的统计
对于物理科学中出现的复杂数据问题,需要一种新的统计方法。应用程序中的常见主题包括时空数据、不确定性量化、错误设定的逆问题、组合跨尺度的信息(例如,物质科学中的原子尺度到大尺度尺度,人口统计学中从家庭到城市到都市区域)以及使用能够模拟特定的物理现象。
物理科学中的现代研究通常利用新颖的数据源、各种子系统苛刻的计算模型以及为推进科学而需要获取的详细专家知识。这样的研究是多学科的,需要在物理科学、计算建模、数据管理和统计分析方法的多个方面具有专业知识。应用领域众多。部分列表包括天文学和宇宙学、地球物理学、水文学、高能物理、材料科学、预测化学、核物理和粒子物理学。
对于复杂数据的类型和物理科学中出现的问题,迫切需要新的统计方法和计算思想。迄今为止,现代统计推断中的许多工作都是由技术行业或生物医学研究中相对较好的问题驱动的,但是下一代数据(如遥感、卫星图像、天文学、粒子物理学、地球科学、现代成像和探索材料动力学的诊断设施)更加复杂,需要新的统计方法以及规模算法。复杂性源于于底层物理系统的复杂性和测量过程的复杂性(例如,从低信噪图像中解波的对象的形状,由于非线性、物体模型不正确以及计算不正确的卷积内核而导致的偏差;这些都非常重要,因为物理上有趣的参数来自平均数以千万到数亿次的测量)。
与物理科学应用中的新统计方法开发相关的常见主题包括:
·处理时空数据;
·不确定性量化方法,将物理观测与要求苛刻的计算模型相结合,以进行统计推断;
·不适当的逆问题(例如,根据材料与激光或中子束的相互作用来推断材料结构);
·利用大量低信噪比进行推理;
·利用通过搜索空间和/或时间收集的非代表性“机会”数据;
·结合不同类型的测量,这些测量通常来自不同的物理系统,并且通常处于不同的空间和时间分辨率水平(例如,在宇宙学中——超新星的亮度、宇宙微波背景的波动以及遥远星系的畸变);
·将不同分辨率的信息联系起来(例如,从材料的分子成分中推断散装材料的特性,从化学结构推断化合物性质);
·使用基于物理学的知识在未经测试的新体制(例如极端温度、极端应力条件、极端环境下的材料相互作用)下产生外推预测;
·使用数据(和其他类型的证据)在竞争模型之间进行选择,并通过模型组合产生更可靠的预测;
·开发有效利用可用数据源、计算模型、计算资源和统计分析方法的途径,以便做出可靠的科学推断;
·并开发统计方法,以更好地理解和预测罕见的高后果事件(例如流星撞击、桥梁倒塌、特大风暴)。
正如许多人所指出的(包括国家科学院的报告,“海量数据分析的前沿”),大数据中的挑战不仅仅是由于规模:它们还涉及复杂性(物理科学中遇到的复杂性类型本质上是不同于诸如人的数据、遗传和技术数据)。实际上,数据的庞大与数据异质性有很大关系。科学进步将越来越多地源于使用复杂物理过程的可解释模型获得的知识。统计人员和数据科学家必须与领域科学家紧密合作,以了解问题,挑战和科学目标。解决物理科学中特定问题的现有方法可能会忽略统计学家可以识别的数据分析机会。此外,重要的是跨领域转移技术,重点放在可推广的方法上。如果从解决单个问题的方法中得出可推广的方法,科学将进步得更快。
2.4 统计与量子信息科学
量子信息科学研究量子理论和技术,以开发量子器件,用于信息处理、传输、计算、测量和基本理解,而经典方法的效率要低得多,或者根本无法做到。它包括量子通信、量子计算和量子计量学,其中量子通信利用量子资源进行安全通信和其他与密码学有关的任务。量子计算通过使用量子设备而不是遵循经典物理学并被经典计算机使用的电子设备来执行计算;量子计量学利用相干量子系统来增强物理量测量的性能。全球范围内都在进行深入研究,以发掘利用量子特性的许多技术,这些技术可能会导致功能更强大,更普遍的量子设备得到更好的计算、通信和加密。现在,量子技术的发展正处于关键点,正在以超越传统设备的能力来构建量子通信设备和量子计算机,例如量子退火器、量子模拟器和量子密码设备。一方面,统计可以在量子信息科学中发挥关键作用,例如量子设备的认证及其在科学研究中的用途。另一方面,量子计算在革新计算统计和加速机器学习算法方面具有巨大潜力。量子技术发展和基于量子的计算技术(用于统计和机器学习)的统计方法迫切需要,并且量子科学和统计之间的相互作用可能是少数几个最重要的新兴应用之一。量子信息科学利用诸如叠加和纠缠等怪异的量子特性来发明新的量子设备,以实现比相应的经典技术更快的计算、更安全的通信和更好的物理测量。它利用新的量子资源来完成传统技术无法完成的任务。这些量子资源还可能提供不具有经典对应物的数据收集和处理新手段。所有这些将为统计和机器学习提供新的理论、方法和计算技术。
2.5 匿名数据的统计分析
根据最近的一项估算,人类平均每天会产生2.5×1018字节的数据;参见https://www.domo.com/learn/data-never-sleeps-6.几乎所有这些数据都以这样或那样的形式记录,但是当前的法律和法规框架需要进行重大改革,以解决数据收集和使用的道德问题。像1964年的“民权法”一样,某些领域(例如住宿、教育和就业)的道德规范已经制定了五十多年,但目前没有机制来规范使用数据的公司。另外,公众对用户隐私缺乏兴趣。
有一些关于数据匿名化的统计研究,例如统计披露限制、差异性隐私或数据清洁。差异隐私(DP)试图通过注入采样以外的其他噪声来最大程度地降低隐私对个人数据集的影响。截至2018年,人们对获得常用统计算法的差异隐私版本有极大的兴趣,这是一个蓬勃发展的研究领域。DP框架在行业中也有重要用途。例如,苹果公司利用局部差异隐私来了解其用户的行为,而无需跟踪特定用户的使用模式。参见https://www.apple.com/privacy/docs/Differential_Privacy_Overview.pdf.数据清洁是指试图对数据进行匿名处理的一大套做法,以保护对象的身份或其在公开发布的数据集中的机密属性,或确保公平对待每个对象。这可以通过以多种方式进行数据屏蔽,如通过删除(或变换)可能包含标识信息的变量,或者随机生成其分布接近实际数据集的新数据来实现。
随着对隐私的日益重视,数据清洁和差异隐私,或它们的改进版本,都可能成为数据分析的主要工具。但是,仍然存在许多问题和挑战。参见,例如,Bambauer et al.(2014)和Mervis(2019)的《科学》杂志文章。后者讨论了在普查数据上使用DP的可能弊端,包括在对DP过滤(普查数据)后没有足够的信息用于社会科学研究。显然存在一个问题,即如何进行研究以在隐私和数据准确性之间取得平衡?特别是对于统计学家和数据科学家来说,一些关键问题包括:
·各种不同水平的隐私问题能否建成统计模型?当前差异隐私框架旨在最大限度地减少所有用户的数据泄漏。实际上,某些人愿意分享比其他人更多的个人信息,尤其是如果这样可以为他们提供更准确的建模和分析。
·差异性隐私与其他隐私定义的关系如何?更具体地说,是否存在ϵ差异隐私还可以保证其他诸如k匿名的隐私概念的条件?此设置还需要数据集的背景分布,尤其是变量的相关性上,做出假定。
·我们如何正确考虑隐私保护机制引入的附加随机性,无论它们是DP还是别的?这是否需要新的统计推断工具?
·还有其他类似的方法可以简化数据的匿名化吗?这些方法中的任何一种是否提供DP以外的更多功能?
上述问题必须通过经验和理论研究来解决。研究中使用的理论模型和模拟模型需要捕获现实的关键方面,例如,有关普查数据并考虑到实际相关的目标和目标受众。当前的人口普查局使用的隐私保护方法需要与诸如DP等新方法进行系统比较,并明确定义相关和实际目标。提倡DP进行普查的统计研究人员需要了解使用普查数据进行研究和提出政策建议的社会科学家的关注。DP的普查决定应与社会科学研究员和其他利益相关者协商。
3. 基础研究
统计理论的基础研究为我们在统计实践中的工作提供了宝贵的指导和深入的了解。过去20到30年间,统计学基础研究的两个主题涉及一般经验过程的理论以及半参数和非参数模型下限工具的系统开发。随着我们对集中度不平等的理解的迅速发展,推动了经验过程的理论发展。
统计的一个成功案例包括非常通用的可验证Efron的非参数自助法的自助法极限定理,以及在各种问题中更通用的可交换加权的自助法。这些结果已得到进一步开发,以产生适用于海量数据的可扩展自助法。
其他成功案例包括对基于Talagrand(1994)的基础工作的新的浓缩约束技术对模型选择方法的理解,以及非参数贝叶斯方法的巨大发展。半参数和非参数模型的下界和用于构造有效估计量的方法的开发也在持续发展。这些方法开始在因果推理和模型后选择推断方面产生回报。
我们对应用和数据挑战的强调绝不降低统计学基础研究的价值。相反,它更令人信服和迫切地主张对统计学和数据科学的基础研究进行更多的投资。需要新的理论范式来支持和指导新的统计实践,以应对新的数据挑战。我们理论的发展需要摆脱简单化的模型和假设,采用新的框架来反映当今的领域问题和数据现实,从而允许非独立同分布样本以及异构总体和数据源。基础研究的评估指标应包括创新,质量和影响力。在本节中,我们将讨论一些重要的新兴主题。
3.1 模型与算法的作用
传统的统计思维集中在数据生成建模上。简单和可解释的模型通常是黄金标准。但是对于现代应用程序而言,现实往往过于复杂,以至于无法用简单的模型来描述。尽管完全摒弃建模在这些应用程序中的作用将是一个错误,但当今的科学和社会问题促进了对现代应用程序建模的重新校准。
正如George Box的名言所说的:“所有模型都是错误的,但有些模型是有用的。”模型是对现实的近似,它们为特定目的而被开发。通常,数据分析的目的是制定详细的决策,然后建模应反映出这一目标。一个典型的例子是分类,在许多应用中,判别建模是生成建模的更合适的替代选择。在大数据分析中,不建议为所有目的都使用一个模型,无论它多么复杂和适应。在某些应用程序中,可解释和可扩展的局部模型可能是首选,如何跨局部模型有效地借用信息需要进行新的研究。
随着计算机科学思想的注入,数据分析中经常采用算法观点。支持向量机就是一个例子。可以将其视为分类算法。但是,将支持向量机与平滑度正则化绑定在一起并重现内核Hilbert空间,已经对如何工作以及如何对其进行了改进产生了深刻的见识。
许多统计工作都使用生成模型来激励和分析数据分析程序。这样的模型对于设计新程序以及理解和比较现有程序可能是有价值的。但是,我们绝不能止步于此,因为任何关键地依赖于生成模型的推论工作,无论如何谨慎选择,都可能与相识脱节。
在实践中,建模的一个相关挑战是稳健性。需要开发健壮性的新概念,以解决数据科学的统计和计算方面的问题。大部分早期的稳健性文献都是在参数模型的背景下进行的,其中否认了模型的真实性。在这些文献中,统计方法被设计为在给定参数模型的邻域中很好地工作,但是邻域的概念通常在范围上受到限制。稳健性需要一种不同的方法,不仅用于建模,而且还用于数据质量、计算限制等。Yu(2013)主张在统计和数据科学中的稳定性对数据和模型/算法扰动的重要性,以及具有可重复性、稳健性和可解释性的自然连接的重要性。
3.2 不同约束条件下的统计效率
传统的统计效率集中在如何充分利用给定的样本上。虽然这仍然至关重要,但越来越经常地,还需要考虑到其他资源限制因素。最值得注意的之一是计算资源。随着数据量的增加,需要注意任何推断技术的计算方面,并且计算效率应该与旨在推断的统计效率一起考虑。这种需求促使我们在过去几年中研究多项式时间可计算方法的分布推断和极小极大限。尽管取得了一些初步的成功,但到目前为止,我们还没有一个统一而通用的统计框架来解决统计和计算效率之间的关系和平衡。
一个相关的约束是空间。完整存储或分析海量数据集通常不切实际。自从大数据出现以来,计算机科学家就一直在处理这个问题,并提出了许多非常有用的想法来以有限的内存进行存储和查询。值得注意的例子包括随机投影,其中大量变量的主要特征可以通过少量的随机测量来保留,而数据流式传输中的内存非常稀缺,因此我们只能存储单个数据,并且希望以在线形式进行推断。然而,这些非常重要的问题却很少受到统计界的关注。
3.3 数据驱动范式中的推断框架
在许多现代科学应用中,首先收集数据,然后在看到数据后制定科学问题或假设。这种数据驱动的科学范式给统计推断带来了新的挑战。在这种情况下,对经典统计推断的作用的误解可能会导致“呼吁应用较少的能力,放弃对有效的统计方法的研究。”相反,“应该有动机创造统计推理,将目前没有考虑的非正式数据分析活动整合在一起”(Buja和Brown对Lockhart et al。(2014)的讨论)。
此类活动通常以大规模探索性数据分析的形式出现,并且可能涉及交互式数据分析的多次迭代。它们在许多应用中至关重要,并且非常成功。然而,从统计的角度来看,如何在一个更正式的推理框架中适当地考虑这些活动仍然是一个巨大的挑战。一个相关的挑战是如何实现科学的可重复性/可复制性,并传达来自这些复杂数据分析管道的数据驱动发现的不确定性。
Taylor and Tibshirani(2015)提出了一种选择推理的新方法,其中感兴趣的参数可能与数据有关。但是,对无模型结构参数的统计推断仍然是任何验证性分析的重要组成部分;感兴趣的参数可以是科学中的固有数量,也可以是所研究人群的平均治疗效果。在模型选择之后进行基于模型的推断时,我们必须开发适当的推断方法,以解决模型选择中的不确定性。重要的是,我们应更多地注意许多有用但特别的过程,例如数据拆分,并描述何时及为什么这些方法可行以及如何对其进行改进。
3.4 观察研究与实验设计
对原因及后果进行推断,即因果推断,是日常生活和公共政策的核心。因果推断问题的一些示例如下:双膦酸盐是否会导致食道癌?街道上的人口密度(跨时间和邻域)如何影响犯罪率?房东有种族歧视吗?
在线和其他电子活动留下的数据痕迹“数据耗尽”提供了非常大的数据集,可能为因果推断提供了新的机会。这样的数据集的示例包括运输数据集(例如,纽约市出租车数据、Waze/Google地图数据、公共交通数据、Strava数据、交通事故数据)、健康数据集(例如,Medicare/Medicaid数据,保险索赔数据),住宿数据(例如AirBNB数据)、公共安全数据(例如Shotspotter枪声数据、警察公共联系数据、CCTV、远程信息处理)、交易数据(例如金融交易、零售)、教育数据(例如学生水平的管理数据、学校水平的管理数据)、就业数据(例如ADP薪资数据)、公众与政府数据的交互(例如在https://catalog.data.gov/dataset/311-data-in-development的311数据)以及大规模传感器数据(例如,起搏器数据,Fitbit数据)。
需要法治因果推断的新方法,以充分利用这些大数据集进行因果推断。可以从新研究中受益的因果推断的挑战性问题包括:
1. 如何整合来自各种数据源的因果关系证据?我们如何调和得到截然不同结果的观察研究结论?
2. 我们如何量化与因果效应估计相关的真实不确定性?
3. 我们如何利用低精度,低偏差数据和高精度,中等偏差数据的优势?
4. 我们是否可以结合使用无效测试,阴性对照等来建立更好的模型或帮助验证假设?如何将这些准实验设备纳入推断?
5. 已针对相对简单的因果假设(如治疗引起比对照组更高的影响)开发了诸如空试验,阴性对照和多个对照组之类的准实验装置。如果我们想检验复杂的因果假设,例如关于一组基因如何共同作用以调节蛋白质X的生成量该怎么办?如何将这些准实验设备用于有关大型机制模型的复杂因果假设?
6. 如果您具有高维度的结果,可以使用观测数据来帮助定义对于帮助确定未来实验的最佳测试统计量最重要的低维度结构吗?
基于观察性研究进行因果推理的另一个重要挑战是,是否有可能区分模型或程序的成功使用和不成功使用,这是Freedman(1991)提出的一个老问题。对于统计学家和数据科学家来说,这是一个至关重要的问题,因为因果推理在观察研究比随机实验更常见的社会科学和其他领域中流行。这也是统计学家比其他许多人都有更好见解的地方。
3.5 有限人口抽样设计:模型辅助有限采样
抽样调查中通常采用有限的人口抽样,但是至少在最近之前,统计方法已经不在统计的主流范围之内。Cassel,Sarndal,and Wretman(1977)以及Sarndal,Swensson,and Wretman(1992)的书开始在统计理论的框架内系统地处理这些方法。Meng(2018)最近发表的有关采样在大数据中的作用的有启发性的论文应被视为Neyman(1934)所倡导主题的延续。在数据科学时代,这些主题的进一步发展,特别是与两相和多相设计相关的工具,以及模型辅助采样背景下的两阶段和多阶段设计,可能会在使用采样来衡个体子集的昂贵协变量时及使用诸如子采样、“草图”、和“分而治之”方法来减少与大数据计算有关的困难时变得越来越重要。
适用于独立同分布的许多工具采样(包括对相关经验过程方法的系统性理解,例如类似于Talagrand(1994)的简单随机采样的有限采样指数范围)对于大多数更复杂的采样设计尚未出现。
3.6 大规模非凸优化
大数据通常由异构数据或子群体组成。大数据分析的一个重要目标是将每个对象聚集到一个亚人群中,并为每个亚人群提供个性化的处理。这个基本概念是精准医学(第2。2节)和精准营销的基础。这种聚类分析是在高维设置下进行的,其中包括高维变量、潜在因素以及具有数据真实性的环境(如粗尾,缺失值和有偏采样)之间的相互作用。一旦了解了亚群,寻找个性化的治疗方法和预期的反应仍然是一项挑战。如此复杂的系统的现实建模对于精密医学和市场营销以及其他应用极为重要。一种工作模型是在高维环境中采用专家模型的混合。这涉及选择变量,潜在因素及其相互作用以进行聚类,并分别进行处理分配,这通常会导致复杂的大规模非凸优化问题。了解用于此类统计模型的算法和方法在智力上具有挑战性,并且在实践中很重要。
深度学习(将在3.7节中进一步讨论)可以看作是一类现代的高维非参数模型,在许多机器学习问题中都取得了巨大的成功。已经针对诸如此类的大规模非凸优化问题开发了许多启发式算法,例如具有动量的随机梯度方法。但是,关于算法收敛和统计特性的理论很少。这阻碍了我们对问题的理解以及对那些需要关联和因果研究的学科科学(如经济学和社会学)的成功应用。在最坏的情况下,这些高维优化目标函数的情况非常吓人,包括指数级数量的局部最小值,但在大多数典型情况下对统计问题是良性的。理解所使用算法的统计属性(与经典统计中的全局最小值相反)对于大数据的统计实践非常重要。
混合模型和深度学习算法只是统计学家和数据科学家在分析高维非凸优化问题的统计和算法属性方面面临的新挑战的两个实例。其他示例包括Z2同步化、矩阵完成和解决许多工程问题中的二次系统。概率工具和统计模型在理解典型案例的算法复杂性以及所得基于算法的对象的统计属性方面起着至关重要的作用。
3.7 深度学习
今天,似乎有一种对深度学习的热情的海啸;参见LeCun,Bengio,and Hinton(2015)。由于该技术在某些图像分类和自然语言处理任务中已达到超人的性能,因此,现在正投入大量资金来更广泛地部署该技术。媒体宣传了关于在其它信息处理任务中开发超人性能时可能出现的技术未来的猜测。伴随着这股热情的浪潮对统计领域提出了巨大的挑战,因为轻信的媒体报道促使许多非统计爱好者相信,你不再需要统计了。这种信念是错误的;大量的深度学习炒作是基于前瞻性推测,而数百年来的统计数据却取得了坚实的成果,其中一些成就重塑了地球上的生活,例如公共卫生和农业。尽管如此,统计人员应该尽其所能来提高深度学习的研究质量,就像他们致力于改善其他领域的研究一样。
深度学习的成功源于对机器学习通用任务框架的持续使用。在这种框架下,人们被赋予了标签化的训练和测试数据,并且试图通过人们想要的任何设备来改进预测模型,并通过测试集预测误差来对所提出的模型进行评分。通过反复试验,逐渐提高了性能。无需理论指导。
统计学家对深度学习研究人员的经验成功和经验态度的反应不应是对统计理论的布道式宣讲。统计研究人员应该参与深度学习人员当前正在做的事情,并提出建设性的可操作建议,以改善当前相关任务和数据集的实际性能。
尽管深度学习/公共任务框架范例是成功的,但它也面临着巨大的挑战,而统计学研究可能会有所帮助,就像统计学研究已经能够在许多其他领域为研究做出贡献一样。挑战包括:
1. 深度学习研究是毁灭性的昂贵。现在正在使用1800万个cpu小时并专用于500+gpu数月撰写论文。
2. (和1相关)标准算法(例如,随机梯度下降)收敛速度非常慢。
3. 该方法需要大量数据,而大多数科学和工程研究人员永远不会拥有这些数据,该领域的趋势是向更大的数据需求扩展。
统计人员可以通过改善以上三个核心问题中的任何一个来为深度学习的进步做出贡献,所有这些都涉及统计人员的核心专业知识。实验设计、随机线性代数、新颖的统计训练算法都在这项工作中占有一席之地。
4. 专业文化与社区责任
统计学作为一门独立学科的建立与19世纪初的科学发展紧密结合在一起(例如,达尔文的进化论、农业设计)。进行了基础数学工作,以实现对经验上有用的诸如最大似然方法的特性的概括和研究。在最初的发展之后的几十年中,该领域与这些特殊的数学发展保持一致,并且与实践的联系排在了后排。引用乔治·博克斯(George Box)的1976年费舍尔演讲:
一群人可以保持相当的快乐,玩弄一个可能曾经有意义的问题,并提出永远不会暴露在危险的实用性测试的解决方案。他们喜欢在会议上互相阅读论文,而且他们通常很不冒犯。但是,我们必定要遗憾的是,宝贵的人才在历史上可以被善加利用的时期就被浪费了。
—— George Box(1976)
在过去的几十年中,我们已经开始通过跨学科研究和一般的应用统计来回归领域根源 (Cleveland,2001),但是变革的步伐并未跟上快速发展的以数据为中心的世界。
为了使该行业在数据科学及其他领域中发挥领导作用,需要更快地进行文化变革。正如 Breiman (2001) 雄辩地指出:
使用统计建模从数据中得出结论有两种区域性。一种假设数据是由给定的随机数据模型生成的。另一种使用算法模型,并将数据机制视为未知。统计界几乎毫无例外地一直致力于使用数据模型。这种承诺导致了不相关的理论及可疑的结论,并且使统计学家无法研究大量有趣的当前问题。无论是在理论上还是在实践上,算法建模都在统计领域之外迅速发展。它既可以用于大型复杂数据集,也可以用作较小数据集上数据建模的更准确和更有意义的替代方法。如果我们作为一个领域的目标是使用数据来解决问题,那么我们需要摆脱对数据模型的排他性依赖,而采用一套更加多样化的工具。
—— Breiman (2001)
问题不在于随机模型或生成模型本身。如果此类模型通过经验证据产生实际影响,则应予以赞扬,尤其是如果这些模型在其构造中考虑了领域知识并具有计算上可行的算法。这样的模型也是有用且至关重要的,特别是对于研究和理解经验上成功的、并且在为稳健而在多类生成模型下优先研究的算法/方法。但是,在实践中,通常情况并非如此,如果没有经验支持,这种方法就非常成问题。
虽然数学,计算和统计原理对于理解统计和数据科学程序的操作特性必不可少,但要想解决现实世界中的问题,就必须沉浸在相关的领域。引用 George Box 在 1976 年的菲舍尔演讲中所说的:“需要在理论和实践之间取得适当的平衡,最重要的是,统计学家必须学习如何成为优秀的科学家及必须通过经验和榜样才能形成的人才。”
我们的专业人士必须认识到,在新时代,我们的主要职责是开发统计和数据科学中的算法/方法和相关理论,以满足对科学,工程学和社会产生最大影响的数据分析需求。我们需要一种新的文化,在这种文化中,新一代的统计学家和数据科学家将受到培训并受到鼓励,以拥抱新的现实。为此,我们需要所有利益相关者,包括学术院系,专业协会和资助机构,共同努力,实现急剧的文化变革。
4.1 学术院系
学术成就是许多学术院系当前任期和晋升标准的一部分。但是,学术成就的评估传统上一直侧重于本领域公认的期刊上的出版物数量,而这种评估的重点过于狭窄,与我们领域的当前转变不符。评价中过分强调出版物的数量也不利于其健康。学术成就评估应强调质量以及工作对统计实践、领域科学和整个社会的影响。除期刊出版物外,我们还应使用更广泛的指标来评估学术成就,包括对我们的研究体系,基础设施以及对领域科学和整个社会的贡献的可衡量的影响。Waller(2018)提供了有关数据科学相关研究在学术院系的文献记录和评估的建议,很明显,社区需要立即采取集体行动。
聘请多元化的教师对于我们职业的转变至关重要。评估潜在的新员工带来了巨大的挑战,因为它从根本上涉及对未来影响的预测。传统上准备好的学生呈现出较低的风险和更确定的轨迹。学术院系需要积极招募和培养从我们重新构想的博士课程中产生的新一代学生。并减少风险规避。多样性起着关键作用—未来成功的统计教授带头人必须反映多样性的许多方面,包括知识多样性。这需要协调一致的长期努力(在聘用前后),而我们的领域在过去并未做到这一点。
4.2 专业领导
我们呼吁更多的统计学家成为我们行业的领导者。统计领域的领导者需要做更多的工作,以将这一领域推广到广大的科学界和公共领域。这项工作以及系、校园和我们自己的专业协会中的领导角色,应该是我们专业中高级人员评估标准的关键组成部分。
统计学专业协会需要成为更有影响力的统计工作的有力推动者,并在统计学家/数据科学家,研究人员与其他社会以及私营和公共部门的科学家之间架起桥梁。我们专业协会的旗舰期刊需要扩大其范围,并有意识地从传统固有的研究领域转向新的数据科学研究。统计人员的领导和沟通培训严重不足,我们的组织应该在这方面有所作为。这种培训还应为统计学家为跨学科研究团队的领导做好准备。诸如奖项和研究金之类的荣誉应反映出对统计学的广泛看法,不仅要表彰传统的学术贡献,还应表彰领导才能、计算成就以及更广泛的科学或领域贡献。为了反映这种转变,社会需要获得更多的奖项。
全国和国际统计学会在大学和研究生层次的统计学课程的开发和重新构想中可以发挥更大的作用。它们自然也可以帮助在学术界、工业界和公共部门之间架起桥梁。联合统计会议是传统的聚会场所,各行各业的统计学家都可以联系到那里,还有很多工作要做。例如,在数据科学领域建立更广泛,更深入的行业-学术界合作伙伴关系可以极大地促进数据科学时代的统计研究和教育,但是目前这通常发生在单位级别。专业协会可以帮助促进联合体一级的努力。
4.3 资助机构
NSF 在传统研究资金中扮演着不可替代的角色,重点放在创新学科研究上,这为研究界提供了很好的服务。我们建议NSF的统计计划继续促进资助知识多样性。如报告前面所述,数据科学时代的许多研究领域都面临着重大挑战和机遇。资金的增加对于以下方面的发展至关重要:空间主题数据分析、可解释的统计学习模型、个性化和集成推荐系统、时空数据分析、机器学习和因果推理的集成、预测的稳健性和稳定性等/预测和推论、数据隐私和公平性、基于代理的模型、约束优化、实验设计以及高效的深度学习算法。
NSF 统计研究和教育的资金主要来自数学科学部(DMS)。NSF预算的增长跟不上科学和工程界的增长,特别是在通货膨胀调整之后。这个问题在统计计划中最为明显和严重。但是,联邦对基础研究和劳动力的投资对于我们专业的未来仍然至关重要。统计计划需要获得更多的资金,以跟上学科的发展和进步,而统计研究的资金需要超出一项计划,因为统计创新在科学的广泛研究和教育领域中发挥着越来越重要的作用。例如,统计人员正在拥抱NSF的10大构想,尤其是通过利用21世纪科学与工程(HDR)的数据革命。
为了加速统计数据的转换并造福社会,NSF和NIH等政府资助机构需要加大投资,以支持将统计作为科学技术发展的重要组成部分的研究项目。美国国立卫生研究院资助的许多项目都涉及统计学家,它们通常扮演着支持(但重要)的角色。NSF的一种成功的资助模式是“数据科学原理跨学科研究(TRIPODS)”,其中统计学家和其他研究人员通过集成研究和培训活动的全面参与有助于发展数据科学的理论基础。DMS/NIGMS联合倡议、旨在支持生物学和数学科学界的研究(DMS/NIGMS)、DMS/NLM关于生物医学研究通用数据科学方法的联合倡议(DMS/NLM)和威胁检测算法(ATD)也是此类筹资机制的典范。更多的此类资助机会将鼓励统计学家和数据科学家在一种新文化中发展研究计划,这种文化对有影响的工作大加赞赏。正如该报告前面所讨论的,具有影响力的研究可能来自统计学家对领域科学的沉浸和充分参与,例如天文学、预测化学、城市规划和精密医学等。资助包括统计学家和其他领域科学家在内的平等研究伙伴的研究团队,将导致跨领域的创新。资助机构和ASA等全国协会应共同努力,以确保统计和数据科学的研究人员充分了解这些机会,并有机会及时向这些计划提供反馈。
我们还建议NSF和其他资助机构为初级和中级研究人员提供专门的支持,使其介入领域科学,这可能与学校学术假和其他形式的教师休假关联。由NSF资助的研究机构和中心可以促进此类活动,但是需要新的机制来确保此类项目的成果评估着重于潜力和影响。政府资助可以激励更多的统计学家将投入到新兴的数据科学研究领域。
5. 博士教育
在本科层次上,针对统计统计学本科课程的新课程指南 和数据科学 强调了统计基础的重要性,并伴随着在计算、数据技术、领域知识和伦理方面更深入和更坚实的基础。在这些文件的基础上,我们在这里专注于博士教育。
首先,博士是一个研究学位,博士课程应侧重于培养学生从事统计学和数据科学的研究。最可持续的培训模型或增长模型是帮助他们学习如何学习,从而使他们在领域和数据挑战不断发展的过程中能够灵活敏捷地进行智力适应和更新其知识和技能。我们的毕业生应该能够通过创建新颖的统计对象(例如模型、方法、可视化对象)或对此类对象进行分析,为解决以实际数据为中心的问题做出贡献。本节中的其余讨论将服务于此目标。
5.1 课程
我们相信,大多数大学的标准课程不足以满足学生的需求。进入学术工作市场和非学术或准学术工作市场(行业、准学术、政府等)的学生越来越被要求能够胜任各种主题和技能(例如,数据技术)。例如 Nolan and Temple Lang(2014) 全面介绍了许多现代数据类型和有效处理这些数据类型的计算技术。但是,大多数学生没有接受过这些技能的培训,也没有接受过迅速采用新技能的更抽象的技能的培训。
什么应该构成博士学位的基础统计课程以改变我们的领域?我们认为,虽然概率和推断是传统统计的关键基础,但当今统计领域的博士毕业生需要具备更深厚的计算和数据技术、通信、数据清理、定量批判性思维、协作技能、适当的问题制定和跨学科科学的技能。统计培训需要涵盖整个“数据生命周期”。同时,我们不建议扩展必修课程。如果有的话,对于许多计划而言,需要提供更广泛的选修课程,而不是必修课程。
我们认为一定的基本统计、计算和数学水平是前提。除此之外,我们认为以下领域是“核心”:
关键的统计基础,包括概念和哲学基础(包括健壮性和稳定性考虑)
计算:编程、可重复性/工作流、数据技术、基础设施/数据库/云计算、数据管理、“wrangling/munging”
交流:为技术人员和非技术受众的写作、演示、可视化、提出和解决问题的实践以及领导力发展
以数据为中心的批判性思维能力:维持统计分析的各个阶段与潜在的科学或商业问题以及目标受众之间的联系;知道并传达合理和不合理假定之间的差异;严格评估数据的来源以及推论、评估和结论的适当性
数据建模和评估:例如,事后分析包括 EDA 和 PQR-S 的验证:P 代表人群,Q 代表问题,R 代表代表性,S 代表审查
抽样和实验设计基础
因果推断
度量
伦理:人类主题,隐私/机密,算法偏见
协作经验/技能(与前面的沟通技巧重叠)
一些课程计划将通过逐渐进化过程朝着更广阔的视野发展。其他的计划则需要采取更激进的方法。对于本科生水平,Cobb (2015) 考虑了后者的可能性。不需要所有博士学位。统计学中的所有博士课程都没有必要考虑相同的物质基础。但是,有一份蓝图(或一套蓝图)将有所帮助,并且是 Deborah Nolan 组织的后续“十字路口的研究生统计学教育”研讨会的目标之一。
几个限制因素使得难以在如此广泛的领域中提供培训。首先,大多数大学都不想牺牲他们认为是基础的课程和经验。其次,似乎很多院系太小而无法在如此多样的专业范围内提供适当的培训,并且由于学生之间的竞争,各院系之间往往有交流资源的阻碍因素。除了对现有课程进行改造或现代化之外,博士课程还应考虑非传统的学习机制,如块状课程、沉浸式体验、实验室轮换和可解决一个或多个这些限制的共享课程技术。但是,这些替代方案在获取、认证、质量标准、可持续性等方面提出了尚待解决的其他问题,NSF、专业协会和其他机构可能可以改善这些问题。许多计划已经为学生提供了“轨道”,我们认为所有计划都应朝这个方向发展。在未来的讨论中可以考虑核心培训的后续轮换的“医学院模式”。
由于缺乏对这些学科的深入了解以及对某一领域文化的了解,统计学家可能难以与其他科学领域的研究人员进行有效合作。解决这个问题的一个办法是为希望成为在科学领域有深度投入的应用统计人员的人设立研究生或博士后奖学金。这将使这些统计人员能够参加其合作者部门的课程(或从事其他类型的培训),甚至能够参加该部门,以更好地了解该学科的文化。可以与有关人员举行年度会议。实际上,爱荷华州立大学已经有这样一个共同专业博士课程程序。
5.2 谁将是统计学博士计划的理想申请人
二十年前,本科生在统计学专业学习的情况极为罕见。成功的博士申请人通常拥有数学或物理学的本科学位,或者较少的是在其他基于经验的领域,如经济学,如果他们有足够的数学背景(通常达到一年的数学分析水平))。有趣的是,尽管统计学逐渐成为越来越受欢迎的本科专业,但这种结构似乎变化很小。与科学的其他学科相比,显然不愿意录取主修统计学的本科生进入统计学博士计划,这是不寻常和不幸的。
为了实现本文中概述的转型目标,我们需要招收更多具有计算,写作,沟通和领导才能背景的本科生。应鼓励具有较强数学技能的本科生加入我们的课程,但他们还需要这些额外的职业成功因素才能获得有效的博士学位。许多本科生统计和数据科学课程已经调整了他们的数学要求。为打算申请博士课程的本科专业创建一个独特的课程可能有助于解决这个问题(这通常通过数学的辅修专业或双专业进行)。重新制定博士计划的第一学期课程提供基于数学准备的多种途径,可能是使研究生群体多样化的另一种方法。
扩大统计范围的一种方法是招收更多种类的学生。上面讨论的专用轨道类型可能会适应这种增加的异质性。但是,大多数计划仍会希望所有学生完成一些核心理论课程,这可能对数学或计算机背景较弱的学生构成挑战。我们必须找到一种方法,让那些在核心领域准备较少而进入计划的学生适应。
5.3 提供更有效的培训
可以说,博士计划在培养高素质研究人员方面非常成功,但他们在培养高素质教师以满足对统计和数据科学课程日益增长的需求方面通常不太成功。培训学生如何有效教学很少是研究生课程的一部分。然而,有效的指导对于培训下一代统计学家以及经验丰富的各个实质性领域的研究人员至关重要。提供有用的、引人入胜且相关的指导对于帮助经验研究者理解统计学和数据科学对回答科学问题的关键价值至关重要。提高教学能力需要清晰的思想交流,应该具有增加研究人员清楚地传播其研究成果的能力的额外好处。为了满足把统计转换成以实践为中心的需求,有效的教师需要具有解决实际数据问题的实践经验,才能在课堂上教授此类实践技能。即使对于大多数经过理论训练的统计学家成为教授之后,要获得这样的经验还为时不晚,而且实际上是必要的。
在明确培训博士生的沟通和演讲技能(上文讨论)和支持教学技能发展之间,也存在着其他协同作用。博士交流课程可以保留一些明确的教学重点。但是即使没有这一点,我们也希望沟通技巧的发展将对教学能力产生积极的溢出效应。
也将欢迎在大学一级提出解决方案的创造性解决方案,特别是如果将示范方案的制定与材料传播计划结合起来,以便其他机构更容易采用这种努力;参见例如美国统计协会/美国数学协会的统计教师准备指南
5.4 专业和NSF在研究生教育中的作用
专业和NSF在理解和指导这些选择中应该扮演什么角色?收集关于统计课程的主要特点和各大学培训方法的数据的激励措施和资源将具有很高的效用。更有用的是尝试了解这些培训模式与随后的职业轨迹或其他感兴趣的结果之间的联系。这将需要额外的并且可能需要更多的劳动密集型数据收集。此外,创建基础设施将是至关重要的贡献,因为它可以确保这不仅是“一次性”的努力,而且可能导致持续进行的自我评估的努力。
NSF可以支持讲习班、训练营和暑期学校课程,提供课程开发和教学的最佳实践培训。将这些类型的培训机会与旨在以高级方法培训学生的培训机会结合在一起的想法提供了一种特别有创意和协同作用的选择。例如,可以作为暑期学院的一部分提供培训,该培训既为学生或讲师提供了在方法领域的专业知识,又提供了培训和材料以支持他们回去向所在机构的其他人教授所学到的方法。
严谨的研究和对研究生教育的不断反思将确保我们培养下一代统计学家成为数据科学时代的领导者。鉴于统计领域的重点是通过对数据的分析来了解世界,让我们感到震惊的是,我们很少尝试了解自己的专业以及我们通过数据收集和分析有效地培训学生的能力。但是,这项活动很少有激励措施。我们应该持续评估至少某些选择的影响,而不是一味地投入有关最佳课程和最佳实践的辩论。为了支持这种自我评估,NSF可以为下列研究创造资助机会:考察课程的批判式选择、资格考试、课程计划结构、培训机会、教学方法等。这些评估的范围覆盖从数据收集工作(职业道路、工作满意度等)到关于应届毕业生感到缺少的技能的定性研究、关于当前培训实践状况的描述性研究,或比较不同培训策略有效性的随机实验。
参考文献
Bambauer, J., Muralidhar, K. and Sarathy, R. (2014). Fools Gold: An Illustrated Critique of Differential Privacy. Vanderbilt Journal of Entertainmentand Technology Law 16, 701-755.
Breiman, L. (2001). Statistical modeling: the two cultures. Statist. Sci. 16, 199-231. With comments and a rejoinder by the author.
Cassel, C.-M., Sarndal, C.-E. and Wretman, J. H. a. (1977). Foundations of inference in survey sampling. Wiley-Interscience John Wiley & Sons, New York-London-Sydney Wiley Series in Probability and Mathematical Statistics.
Cleveland,W.S.(2001).DataScience: an Action Plan for Expanding the Technical Areas of the Field of Statistics. International Statistical Review 69, 21-26.
Dwork, C., Hardt, M., Pitassi, T., Reingold, O. and Zemei, R. (2012). Fairness through awareness. ITCS12 Proceedings of the 3rd Innovations in Theoretical Computer Science Conference 214-226.
Freedman, D. (1991). Statistical models and shoe leather. Sociological Methodologies 21 291-313.
Lindsay, B. G., Kettenring, J. and Siegmund, D. O. (2004). A report on the future of statistics. Statist. Sci. 19 387-413. With comments.
Lockhart, R., Taylor, J., Tibshirani, R. J. and Tibshirani, R. (2014). A significance test for the lasso. Ann. Statist. 42 413-468.
Jordan, M.I. (2019). Artificial intelligence: The revolution hasn’t happened yet. Harvard Data Science Review, no. 1. https://doi.org/10.1162/ 99608f92.f06c6e61
Meng, X.-L. (2018). Statistical paradises and paradoxes in big data (I): Law of large populations, big data paradox, and the 2016 US presidential election. Ann. Appl. Stat. 12 685-726.
Mervis,J.(2019).Can a set of equations keep U.S. census data private? Science January 4.
Neyman, J. (1934). On the two different aspects of the representative method: the method of stratified sampling and the method of purposive sampling. J. Roy. Statist. Soc. 97 558-625.
Nolan, D. and Temple Lang, D. (2014). XML and Web Technologies for Data Sciences with R. Springer.
Sarndal, C.-E., Swensson, B. and Wretman, J. (1992). Model assisted survey sampling. Springer Series in Statistics. Springer-Verlag, New York.
Talagrand, M. (1994). Sharper bounds for Gaussian and empirical processes. Ann. Probab. 22, 28-76.
Taylor, J. and Tibshirani, R. J. (2015). Statistical learning and selective inference. Proc. Natl. Acad. Sci. USA 112 7629-7634.
Tukey, J.W. (1962). The future of data analysis. Annals of Statistics, 33, no. 1, 1-67.
Waller, L. A. (2018). Documenting and evaluating data science contributions in academic promotion in departments of statistics and biostatistics. Amer. Statist. 72(1):11-19.
Wender,B.A.(2017).Refining the Concept of Scientific Inference When Working with Big Data: Proceedings of a Workshop. US National Academy Report.
Yu, B. (2013). Stability. Bernoulli 19, 1484-1500.
统计之都:专业、人本、正直的中国统计学社区。