Loading... # 前言 本次开启一个全新系列,贝叶斯数据分析系列。这一系列主要针对已经对基础的统计学知识如微积分、全概率模型、贝叶斯公式以及经典假设检验有了一定了解的同学,没有这些基础知识的话,看起来可能会比较吃力一些。从我目前掌握的程度看,贝叶斯数据分析对于一般的实验分析可能帮助不大,在日常中我们更多的是使用经典假设检验。贝叶斯数据分析在我看来提供了以下信息: - 一个新的分析视角。贝叶斯数据分析的整个分析步骤其实更贴近人的主观思考过程。它向我们展示了,我们在获得先验知识之后,为什么会在观测到一些样本信息后反而更新了我们的认知。 - 为频率学派难以解决的一些问题提供了一些新思路。这点主要集中在多重比较问题上。贝叶斯学派对于多重比较问题,其解决办法会更自然,更简单,而在频率学派下虽然我们也有着相应的一套解法,但其解法更复杂,因此在日常分析中没有办法使用。 - 对于很多统计或机器学习模型的基础。很多机器学习模型,实际上也在使用贝叶斯数据分析的思想。 在开启这一新系列时,需要跟明确一些最基本的概念与所使用的符号。 # 符号和基础信息 ## 两种未观测到的估计:统计推断中的未观测数据 如果我们在文章中提到未观测的数据,其一般有两种可能: 1. 潜在的观测数据(比如未来实验中会出现的,或当前实验结果未出现的) 2. 数据无法被直接观测到的,比如控制着观察数据产生的假设过程的参数(比如回归估计的系数) 这两类未观测数据的作用是完全不同的,在使用时务必将其分开。 ## 参数、数据和预测 在全系列,我们使用$\theta$表示为我们关注的观测的向量或总体参数(比如每个实验中病人的生存概率),$y$表示为我们的观测数据(比如每个实验组中病人生存和死亡的数量),$\widetilde{y}$表示为我们未知的或潜在的观测数据(比如下次抽查中病人的生存或者死亡的情况)。同时约定希腊字母表示参数。小写罗马字母表示观测或未观测的标量或向量(向量为列向量),大写罗马字母表示矩阵。不加说明$p$表示概率密度,$F$表示累计概率分布,$Pr$表示累计概率。 ## 贝叶斯数据分析的基本步骤 1. 建立起一个**全概率模型**。问题中所有观测样本和未观测样本的联合概率密度。模型必须与科学研究问题蕴含的知识以及数据收集过程相关 2. 基于观测样本进行条件化。计算和解释合适的**后验分布**——在给定观测样本的条件下,关于未观测样本的条件概率分布 3. 评估模型拟合情况和结果后验分布的启示。模型是否很好地拟合了数据?实质性结论是否可信?以及模型对于前面的假设1(数据拟合程度)的敏感性如何?最终,如果不满足其一都有可能让我们修改和拓展模型,然后重新完成这三个步骤。 ## 理论:贝叶斯推断 ### 全概率模型 在给定参数$\theta$的分布及其先验分布,我们从全概率公式出发,知道$\theta$和$y$的联合概率分布可以表达为 $$ \begin{align*} p(\theta, y) = p(\theta)p(y \mid \theta) \end{align*} $$ ### 贝叶斯公式 同时,根据给定给定观测数据$y$后,应用我们的贝叶斯法则,可以将**后验密度分布**表示为 $$ \begin{align*} p(\theta \mid y) = \frac{p(\theta, y)}{p(y)} = \frac{p(\theta)p(y \mid \theta)}{p(y)} \end{align*} $$ 其中$p(y)=\sum_{\theta}p(\theta)p(y \mid \theta)$(连续情形下为$p(y)=\int_{\theta}p(\theta)p(y \mid \theta)$) 一旦观测数据$y$确定了,那么观测数据$y$的**边缘概率密度**也就是固定的,因此在这个贝叶斯公式中,我们可以认为**观测数据$y$的边缘概率密度仅仅起到一个调节作用**,也就是说 $$ \begin{align*} p(\theta \mid y) \propto p(\theta)p(y \mid \theta) \end{align*} $$ 当我们要求解某些参数分布的性质时,省略部分常数项,能够帮助我们更快的发现其中的规律。 ### 后验预测分布 在拥有后验分布后,我们假定未来想要观测数据$\widetilde{y}$出现的可能的分布,我们可以表示为$p(\widetilde{y} \mid y)$,根据贝叶斯法则,在连续情形下可以表示为 $$ \begin{align*} p(\widetilde{y} \mid y) &= \int p(\widetilde{y}, \theta \mid y) d\theta\\ &= \int p(\widetilde{y} \mid y, \theta) p(\theta \mid y) d\theta\\ &= \int p(\widetilde{y} \mid \theta) p(\theta \mid y) d\theta \quad \mbox{(未观测数据的抽取与已观测数据无关,i.i.d假设)}\\ \end{align*} $$ > 第2、3行表示后验预测分布可以看成是在$\theta$的后验分布下的条件预测值的平均** ### 后验分布比 如果要计算两个参数的后验分布比,可以使用下式 $$ \begin{align*} \frac{p(\theta_{1} \mid y)}{p(\theta_{2} \mid y)} = \frac{p(\theta_{1})p(y \mid \theta_{1})/p(y)}{p(\theta_{2})p(y \mid \theta_{2})/p(y)} =\frac{p(\theta_{1})p(y \mid \theta_{1})}{p(\theta_{2})p(y \mid \theta_{2})} =\frac{p(\theta_{1})}{p(\theta_{2})}\frac{p(y \mid \theta_{1})}{p(y \mid \theta_{2})} \end{align*} $$ $\frac{p(\theta_{1})}{p(\theta_{2})}$是$\theta$的先验分布比,$\frac{p(\theta_{1} \mid y)}{p(\theta_{2} \mid y)} $是后验分布比 # 可交换性(非常重要的概念) ## 可交换性(exchangeable) 可交换性这个概念非常的重要,由于贝叶斯数据分析主要是基于后验分布进行的,因此需要我们需要知道,我们观察到的现象、推断的结果并不由当前的样本序列的顺序决定,以及我们可以在给定参数的情形下,去推断样本的独立性。我们定义可交换性如下: > 如果对于任何$n$,联合概率密度$p(y_{1}, \cdots, y_{n})$与任何一组下标排列无关,那么我们说$(y_{1}, \cdots, y_{n})$是一组可交换的随机变量,用数学语言可以表示为,对于任意一个下标排列$\pi$,满足 > $$ > \begin{align*}p(y_{1}, y_{2}, \cdots, y_{n})=p(y_{\pi_{1}}, y_{\pi_{2}}, \cdots, y_{\pi_{n}})\end{align*} > $$ 看起来这个和i.i.d假设非常类似,但实际上可交换性与独立同分布(i.i.d)并不等价,**可交换的随机变量不一定是独立同分布的,但独立同分布的可以满足可交换性。** > 假设$(y_{1}, \cdots, y_{n})$满足i.i.d假设,且$y_{0}$是前者无关的一个随机变量,那么$(y_{0}+y_{1}, \cdots, y_{0}+y_{n})$就满足无限可交换性但不满足i.i.d假设 那这个性质是如何推导出来的呢?这里就不得不提到非常著名的De Finetti's Theorem了。 > 为方便起见,未经特殊说明,在本系列我们认为$y_{i}$是满足i.i.d假设的。 ## De Finetti's Theorem ### 基本定义 一个随机变量序列$(y_{1}, y_{2}, \cdots, y_{n})$是无限任意可交换的(infinite exchangeable)当且仅当相同度量空间下的$P$和$\theta$,$\forall n \in N$ $$ \begin{align*} p(y_{1}, y_{2}, \cdots, y_{n})=\int \prod_{i=1}^{n}p(y_{i} \mid \theta) dP(\theta) \end{align*} $$ ### 意义 这个定理说明了,如果我们需要有一个无限可交换的随机变量序列需要满足以下两个条件: - 已知参数$\theta$及其分布$P(d\theta)$ - 已知在给定参数$\theta$的样本分布的似然函数$\prod_{i=1}^{n}p(y_{i} \mid \theta)$ 如果我们把似然函数写成$p(y \mid \theta)$,参数$\theta$的分布表示为其先验分布$p(\theta)$,是不是上式就等价于 $$ \begin{align*}p(y)=p(y \mid \theta) d P(\theta)\end{align*} $$ 这和我们的全概率公式非常相似,因此上述定理都是我们在贝叶斯推断中的前提。 虽然这个定理看起来这么简单,但是实际上这一定理几乎是后续很多统计或机器学习模型能够成立的一个重要基础,在我看来这一定理的意义在于: - 先验分布的信息来自于历史的数据和经验,我们无需刻意的假定先验分布的存在。以抛硬币为例,如果我的先验认知是硬币的正反两面出现的概率相等,这是无限多的历史数据和经验积累出来的结果。 - 在无限多样本的情况下,前n-1次的数据结果不会影响我们对第n次事件发生的最初始先验概率的认知。以抛硬币为例,如果我的认知是硬币的正反两面出现的概率相等,那么即使前9999次出现的概率是正面,我在第10000次事件发生前的先验认知也不会发生改变,依旧是$\frac{1}{2}$。 - 提出了在某些情形下,可交换随机变量满足条件独立的条件。 > 注意:对于有限长度的序列,这一定理并不生效。举个两个例子: > > 1. 假设箱子里有一个白球一个黑球,那么在不放回的随机抽出第一个球后,第二个球的信息实际上已经已知了(先验信息发生了变化) > 2. 假定在有放回的随机抽出第一个球后,第二次抽取时,先验信息还是未发生改变。这个和抛硬币的例子是类似的。 感兴趣的同学可以看下stackexchange上高分回答: > stats.stackexchange.com/questions/34465/what-is-so-cool-about-de-finettis-representation-theorem # 附录 ## 均值与方差 假定存在随机变量$u$和$v$,且两个变量具有相关性,考虑连续情形。随机变量$u$的期望和方差可以表示为 $$ \begin{align*} E(u) &= \int up(u)du\\ var(u) &= \int (u-E(u))^{2}du = E(u^{2})-(E(u))^{2} \end{align*} $$ 若随机变量$u$为向量形式,那么协方差矩阵可以表示为 $$ \begin{align*} cov(u) &= \int (u-E(u))(u-E(u))^{T}du \end{align*} $$ ## 期望迭代公式 在给定$v$的边缘分布情形下 $$ \begin{align*} E(u) &= \iint up(u,v)dudv\\ &= \iint up(u \mid v) p(v) dudv\\ &= \int_{v} E(u \mid v) p(v) dv\\ &= E_{v}(E_{u}(u \mid v)) \end{align*} $$ 同时关于方差,我们可以表示为 $$ \begin{align*} var(u) &= E(u^{2})-(E(u))^{2}\\ &= E(u^{2})-E\{(E(u \mid v))^{2}\}+E\{(E(u \mid v))^{2}\}-(E(u))^{2}\\ &= E\{E(u^{2} \mid v)\}-E\{(E(u \mid v))^{2}\}+E\{(E(u \mid v))^{2}\}-(E\{E(u \mid v)\})^{2} \\& \mbox{(应用上面的期望迭代公式)}\\ &= E\{E(u^{2} \mid v)-(E(u \mid v))^{2}\}+(E\{(E(u \mid v))^{2}\}-(E\{E(u \mid v)\})^{2})\\ &= E(var(u \mid v)) + var(E(u \mid v))\\ \end{align*} $$ 最后修改:2022 年 05 月 29 日 © 允许规范转载 打赏 赞赏作者 赞 1 如果觉得我的文章对你有用,请随意赞赏