多所知名高校合著综述论文，这是你常听到的贝叶斯统计与建模

2024-06-15 04:57:14

机器之心报道

作者：魔王

一篇关于贝叶斯统计与建模的综述文章，出现在了 Nature 新子刊 Nature Reviews Methods Primers 的第一期上。

新年伊始，Nature 旗下再添三本新刊：Nature Aging（《自然 - 老龄化》）、Nature Computational Science（《自然 - 计算科学》）和 Nature Reviews Methods Primers（《自然综述 - 方法导论》）。其中 Nature Reviews Methods Primers 以刊发综述文章的形式为读者提供各种科学方法的概述及其在不同研究问题上的应用，每周出版一次。期刊上的所有文章都将采取约稿形式，涵盖生命科学和物理科学中使用的分析、应用、统计、理论和计算方法。

1 月 14 日，Nature Reviews Methods Primers 上线第一期，刊登了一篇关于贝叶斯统计与建模的综述文章，作者来自荷兰乌得勒支大学、加州大学默塞德分校、爱丁堡大学、牛津大学、乔治城大学、莱斯大学、哥伦比亚大学、艾伦 · 图灵研究所等机构。

这篇文章描述了贝叶斯分析的各个阶段，从指定先验和数据模型，到推断、模型检验与改进，探讨了先验和后验预测检验的重要性，选择恰当的技术从后验分布、变分推断和变量选择中采样。

此外，这篇文章还提供了贝叶斯分析在多个研究领域的成功应用示例，包括社会科学、生态学、遗传学、医学等，并提出了可复现性策略和报告标准，概述了更新版的 WAMBS（何时需要担心误用贝叶斯统计以及如何避免）检查表。最后，这篇文章介绍了贝叶斯分析对人工智能的影响。

贝叶斯统计简介

贝叶斯统计是基于贝叶斯定理的数据分析和参数估计方法，其独特性在于统计模型中的观测和未观测参数是基于联合概率分布的，即先验分布和数据分布。

典型的贝叶斯工作流程包括三个主要步骤（参见下图 1）：通过先验分布捕捉统计模型中给定参数的可用知识，这通常是在数据收集之前确定的；利用观测数据中可用参数的信息确定似然函数；利用贝叶斯定理结合先验分布和似然函数，得到后验分布。

后验分布用观测数据来平衡先验知识，从而反映更新的知识，可用于执行推断。在对该联合概率分布取平均时，贝叶斯推断是最优的，对这些定量的推断基于观测数据的条件分布。

图 1：贝叶斯研究阶段。a. 标准研究流程；b. 利用贝叶斯统计的研究工作流程。（注：图中后验的表示 p(y|θ) 应为 p(θ|y)）

贝叶斯统计的基础最初出现在 Reverend Thomas Bayes 的文章中，后来由贝叶斯的朋友 Richard Price 在 1763 年发表了这篇文章，主要关于逆概率，即如何仅基于过去的事件确定未来事件发生的概率。1825 年，Pierre Simon Laplace 重新发现了贝叶斯公式，也就是今天我们所说的贝叶斯定理。逆概率与贝叶斯定理在数学领域中长期存在，但直到最近 50 年，这些工具才在应用统计学领域中崛起。

贝叶斯定理。（来源：https://zh.wikipedia.org/zh-hans/%E8%B4%9D%E5%8F%B6%E6%96%AF%E5%AE%9A%E7%90%86）

贝叶斯工作流程

贝叶斯工作流程的前两个步骤如上图 1 所示。首先确定先验分布，先验的选择通常被视为研究者在实现贝叶斯模型时要做的一个更重要的选择，因为它对最终结果影响巨大。要实现合适的先验，需要用到先验预测检验流程。然后是确定似然函数，将似然函数结合先验得到后验分布（或后验）。先验和似然函数对于确定后验分布非常重要。这篇文章提供了多个示例来展示整个流程。

第一个示例是关于博士延毕的。研究者询问 333 名博士生完成博士论文所需的时间，进而计算延迟时间，即计划时间与实际时间的差距（时间单位为月）。

先验分布

首先需要形式化先验分布。

先验分布在贝叶斯统计中起到决定性作用。下图 2 展示了该示例中似然函数、先验分布和后验分布的关系：

图 2：贝叶斯定理重要组件图示。

先验预测检验

由于基于贝叶斯分析的推断受限于先验的「正确性」（correctness），因此我们需要审慎地检验指定模型是否能够生成实际数据。这部分通过先验预测检验过程来完成。

先验预测检验有助于避免模型错误指定（参见下图 3），例如对比错误地用精度替代方差时的先验预测分布（图 3a）和基于正确超参数的分布（图 3b）。此外，这里还展示了观测数据和模拟数据的核密度估计，即对概率密度函数的估计结果（图 3c）。

图 3：博士延毕示例中的先验预测检验。

确定似然函数

似然函数在贝叶斯推断和频率学派推断中都有应用。在两种推断范式下，似然函数的作用都是将观测数据的概率表示为未知参数。在一些案例中，指定似然函数是非常直接的，例如投掷一枚硬币的实验。

似然函数的硬币实验示例。（来源：https://zh.wikipedia.org/wiki/%E4%BC%BC%E7%84%B6%E5%87%BD%E6%95%B0）

后验分布

指定先验和似然函数，并收集数据之后，就可以得到后验分布。本文解释了如何将模型与数据拟合来获取后验分布、如何选择变量，以及为什么需要后验预测检验。

模型构建是一个迭代的过程，任何贝叶斯模型都可以看做是一个占位符，可以在面对新数据或对现有数据拟合不足时进行改进，也可以仅通过模型改进（ model refinement）过程来实现。

在贝叶斯推断中，模型拟合的一种不错方法是马尔可夫链蒙特卡罗方法（MCMC）。MCMC 能够利用计算机模拟间接获取对后验分布的推断，下表 1 概述了基于 MCMC 和不基于 MCMC 的采样技术。

表 1：基于 MCMC 和不基于 MCMC 的采样技术概览。

下图展示了在博士延毕示例中使用 MCMC 方法的后验估计情况：

此外，实现贝叶斯分析有很多标准计算包，参见下表 2：

表 2：常用的开源贝叶斯软件程序包。

后验预测检验

获取特定模型的后验分布后，我们可以用它模拟基于这一分布的新数据，这有助于评估模型是否提供有效预测，对未来事件进行推断。这些模拟可用于多种目的，比如通过对比观测数据和模拟数据的核密度估计值来检验模拟数据是否类似于观测数据。在评估模型是否与数据生成机制有不错的拟合时需要更正式的后验预测检验方法。任何参数依赖的统计或差异都可用于后验预测检验。这与先验预测检验的使用方式类似，但在对比观测数据和模拟数据时要更加严苛。

为了阐释后验预测分布的用法，本文展示了另一个示例：了解一个维基百科网页的浏览量，以及与浏览量相关的时间关联因素。

图 6：基于当前观测数据进行后验预测检验和对未来页面浏览量进行预测。

应用

贝叶斯推断在多个科学领域得到了广泛应用，本文重点介绍了其在「社会和行为科学」、「生态学」和「遗传学」领域的应用，此处不再展开介绍。

可复现性与数据处理

恰当的统计信息报告（包括数据和脚本共享）对于研究的验证和可复现是关键因素。优秀的研究实践鼓励可复现性，其工作流程参见下图 7：

图 7：研究工作流程中的可复现性因素。

这里展示了贝叶斯研究阶段（图 1）和 WAMBS 检查表在更广泛的研究透明度中的应用，并提供了更新版的 WAMBS 检查表。

WAMBS 检查表更新版。

对人工智能的影响

出于支持大规模应用的需要，贝叶斯概念已经利用了以深度学习为中心的新技术的发展，包括深度学习框架（TensorFlow、Pytorch），创建表示能力更强、数据驱动的模型。除了提供一个强大的工具来挑选灵活、模块化的生成模型之外，DNN 已被用于开发新的近似推理方法，并为贝叶斯实践提出了一种新的范式，该范式将统计建模和计算融入了其核心之中。

一个典型的例子就是变分自编码器，它已经成功地应用于多个领域，比如单细胞基因组学，为这些领域提供一个通用的建模框架。该框架带来了很多扩展，包括 latent factor disentanglement。底层的统计模型是一个简单的贝叶斯分层潜变量模型，将高维观测值映射到通过 DNN 定义的函数假定正态分布的低维潜变量。变分推断被用于近似潜变量的后验分布。

然而，在标准变分推断中，我们为每个潜变量引入一个局部变分参数，在这种情况下，计算需求将随着数据样本的数量的变化呈线性增长。变分自编码器使用一种名为 amortization 的近似过程，用一个单一全局参数集（一种识别网络）取代对许多单个变分参数的推断。该识别网络用于参数化 DNN，输出每个数据点的局部变分参数。

值得注意的是，当把模型和推断结合到一起并解释时，作为编解码算法的变分自编码器有一种优雅的解释：它由一个概率编码器和一个概率解码器组成。概率编码器是一个 DNN，可以将每个观测数据映射至潜在空间中的分布；而概率解码器是一个补充性的 DNN，将潜在空间中的每个点映射至观测空间中的分布。因此，模型指定和推断与变分自编码器产生关联，这表明贝叶斯建模和深度学习技术之间的边界越发模糊。其他近期的例子还包括使用 DNN 来构建概率模型，通过应用一系列逆变换来构建复杂的概率分布，以及针对可交换序列数据定义模型。

DNN 的表达能力及其在模型构建和推断算法中的应用需要作出一些妥协，而这需要贝叶斯研究。将模型与推断融合的趋势使得这些技术更多地应用于大规模数据问题，但是基础的贝叶斯概念仍然被完全纳入该范式中。尽管将贝叶斯方法应用于神经网络学习已经出现数十年了，但要想理解先验如何转换为特定的函数特性，我们仍需要进一步研究涉及复杂网络结构的现代贝叶斯深度学习模型的先验指定。

最近人工智能领域的争论提到了对贝叶斯方法及其替代方法的需求。例如，深度集成被证明在处理模型不确定性时可作为贝叶斯方法的替代方法。但是，近期研究还表明深度集成实际上可以理解为近似贝叶斯模型平均。类似地，dropout 是一种在 DNN 训练过程中广泛使用的正则化方法，它通过在网络训练过程中随机丢弃节点来提升模型鲁棒性。实验表明，dropout 能够提升泛化性、降低过拟合。针对 dropout 也出现了贝叶斯解释：概率模型的贝叶斯近似形式——深度高斯过程。尽管贝叶斯定理并未完全泛化至人工智能领域的所有近期进展中，但贝叶斯思维被深深地嵌入了大量近期创新研究，这无疑是一种成功。下一个十年将出现新的浪潮——贝叶斯智能的创新性发展。

关于贝叶斯统计，你还可以阅读这篇文章

这篇文章一经发布就引起了广泛关注，但也存在一些瑕疵。例如，知名科学科普博主 @光头怪博士指出了图 1 中的后验表示错误，并推荐了另一篇他认为不错的文章。这篇论文对 MCMC 方法进行了基础介绍，对 MCMC 方法试图解决的问题、为什么使用，以及 MCMC 方法在理论和实践中的工作原理提供了强大的概念性理解。

论文链接：https://arxiv.org/pdf/1909.12313.pdf

【机器学习基础】深入浅出经典贝叶斯统计

贝叶斯统计概率的类型假设为数据对象的值 , 的相关频率为 ,其中N表示总的出现次数(). 一个事件的概率为 ,代表事件发生的可能性有多大. 我们通过在范围内为某个空间中的结果( ...
贝叶斯机器学习：经典模型与代码实现

贝叶斯机器学习 Author:louwill Machine Learning Lab 贝叶斯定理是概率模型中最著名的理论之一,在机器学习中也有着广泛的应用.基于贝叶斯理论常用的机器学习概率模型包括朴 ...
深入理解线性回归算法（二）：正则项的详细分析

前言当模型的复杂度达到一定程度时,则模型处于过拟合状态,类似这种意思相信大家看到个很多次了,本文首先讨论了怎么去理解复杂度这一概念,然后回顾贝叶斯思想(原谅我有点啰嗦),并从贝叶斯的角度去理解正则项 ...
浅谈频率学派和贝叶斯学派

[写在前面的话] 终于可以写贝叶斯相关的文章啦,心情有点小激动,最近一段时间反复看Bishop老师编写的<<Pattern Recognition and Machine Learning ...
R语言贝叶斯MCMC：GLM逻辑回归、Rstan线性回归、Metropolis Hastings与Gibbs采样算法实例

原文链接:http://tecdat.cn/?p=23236 什么是频率学派? 在频率学派中,观察样本是随机的,而参数是固定的.未知的数量. 概率被解释为一个随机过程的许多观测的预期频率. 有一种想法 ...
太赞了！机器学习基础核心算法：贝叶斯分类！(附西瓜书案例及代码实现)

贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类.而朴素贝叶斯分类是贝叶斯分类中最简单,也是应用最为广泛的分类算法之一.朴素贝叶斯方法是在贝叶斯算法的基础上进行了相应的 ...
多所知名高校合著综述论文、Nature新子刊创刊首发，这是你常听到的贝叶斯统计与建模

机器之心报道作者:魔王一篇关于贝叶斯统计与建模的综述文章,出现在了 Nature 新子刊 Nature Reviews Methods Primers 的第一期上. 新年伊始,Nature 旗下再 ...
又一知名高校课题组论文被撤稿

前几天,非常多的公众号相继报道了哈佛大学知名教授论文被撤稿的事件,几乎全部成为了各大公众号的头条,现在又发现知名高校教授论文被撤稿了,这次是出现在国内顶尖的高校,具体的单位请看下面截图: 这次撤稿 ...
2021年3月\图学习\综述论文，19页pdf概述图信号处理、矩阵分解、随机游走和深度学习算法

点击上方蓝字关注我们声明:本文转自专知微信公众号图是连接数据网络结构的一种常用表示形式.图数据可以在广泛的应用领域中找到,如社会系统.生态系统.生物网络.知识图谱和信息系统.随着人工智能技术的不 ...
论文故事 | 综述论文写作略说

ISSN 1005-3425 CN42-1348/F 双月刊本次为大家带来的是<经济评论>2021年第2期的第9篇论文<经常账户研究的百年回顾:均衡.暂时失衡与持续失衡>,作 ...
这三所高校曾经原粮食部下属知名高校

原粮食部的下属3所高校 1.南京粮食经济学院(现南京财经大学) 南京财经大学的前身是成立于1956年的粮食部南京粮食学校,1981年升格为南京粮食经济学院,1993年更名为南京经济学院.1999年,南 ...
综述论文题目怎么起

综述论文题目怎么起?论文的标题是文章最为画龙点睛的部分,不仅统领全文,更是对文章的核心内容做出了嘴精准的概括与提炼,好的题目应当简介凝练,让读者只阅读题目就可以清楚的了解文章的核心内容,所以论文的题目 ...
为何都说SCI综述论文最容易写？

SCI论文是让很多科研工作者又爱又恨的事情,科研工作者"爱"SCI论文,是因为SCI论文带来的价值意义深远:科研工作者"恨"SCI论文,是因为发表SCI论文十分 ...
正式获批！西安一知名高校整体北迁！

官方微信消息,经中央军委批准,中国人民解放军主校区将全部调整至西咸新区秦汉新城新校区. 由八路军晋西北军区卫生学校发展而成,1948年迁移至西安,并且被升为西北军区人民医学院. 新中国成立后,由第一军 ...
SCI综述论文最容易写？

SCI论文是让很多科研工作者又爱又恨的事情,科研工作者"爱"SCI论文,是因为SCI论文带来的价值意义深远:科研工作者"恨"SCI论文,是因为发表SCI论文十分 ...

多所知名高校合著综述论文，这是你常听到的贝叶斯统计与建模

相关推荐