Loading... # 前言 在上一章提到了贝叶斯数据分析的三个步骤,本次主要更详细的介绍书中的一个例子。 1. 建立起一个**全概率模型**。问题中所有观测样本和未观测样本的联合概率密度。模型必须与科学研究问题蕴含的知识以及数据收集过程相关 2. 基于观测样本进行条件化。计算和解释合适的**后验分布**——在给定观测样本的条件下,关于未观测样本的条件概率分布 3. 评估模型拟合情况和结果后验分布的启示。模型是否很好地拟合了数据?实质性结论是否可信?以及模型对于前面的假设1(数据拟合程度)的敏感性如何?最终,如果不满足其一都有可能让我们修改和拓展模型,然后重新完成这三个步骤。 # 一个例子:女性出生率估计 ## 背景 在书中有提到这么一个例子:在两百年前的欧洲,绝大数人相信女性出生率小于0.5。假定我们预先不知道这个估计信息,想要通过统计的方式去验证我们的猜想,就需要构造一些数学模型。现在我们假设女性出生率设定为$\theta$,然后进行一个人口抽样调查。在$n$个被记录的出生样本中,有$y$个是女性,利用这些信息我们可以尝试去验证女性出生率小于0.5这个猜想是否是对的。 ## 经典统计的做法 在经典统计学理论里,我们学习过,样本中女性的出生率估计为$p=\frac{y}{n}$,考虑到当$n$充分大的情况时,样本比例无限趋近于正态分布,因此我们可以构建如下的统计量进行检验 $$ \begin{align*}z=\frac{p-\theta}{\sqrt{\frac{\theta(1-\theta)}{n}}}\sim N(0,1)\end{align*} $$ 其中,$\theta$是在我们认为原假设(女性出生率小于0.5)成立时的阈值,因此$\theta=0.5$。 当我们有了抽样信息之后,根据样本信息计算出$z$统计量的值,再通过查表就可以(在置信度为$\alpha$的情况下)做出我们的判断了 ## 贝叶斯统计的做法 在贝叶斯统计中,<strong>我们把任何一个未知参数都看作是随机变量,但是对于这些未知参数,我们能知道它们取值的分布是什么</strong>。这一点和经典统计把参数当成一个固定常数的思想(这个例子里,经典统计认为$\theta=0.5$)有着非常大的不同。 假设我们对出生率的实际分布情况并不了解,那么我们可以假设$\theta$在集合里取任意一个值都是可能的,即$\theta \sim U(0, 1)$,用概率密度表示为$p(\theta)=1 \quad \theta \in [0, 1]$。 ### 构建全概率模型 在给定了出生率的“先验知识”后,我们需要对抽样的信息的分布进行建模。根据背景中提到的情形,我们可以用一个二项分布来对该问题建模,也就是 $$ \begin{align*} p(y \mid \theta) = Bin(y \mid n, \theta) = \begin{pmatrix} n\\ y \end{pmatrix} \theta^{y}(1-\theta)^{n-y} \end{align*} $$ ### 基于观测样本进行条件化 应用第一篇中提到的贝叶斯法则 $$ \begin{align*} p(\theta \mid y) &\propto p(\theta)p(y \mid \theta)\\ &\propto \theta^{y}(1-\theta)^{n-y} \end{align*} $$ 而这恰好是Beta分布的一种:$\theta \mid y \sim Beta(y+1, n-y+1)$ ### 评估模型拟合情况 在1745年至1770年,共有241945名女孩和251527名男孩出生,现需要检验女孩的出生率是否小于0.5,即确定下面概率值的大小 $$ Pr(\theta \geq 0.5 \mid y=241945, n=241945+251527) $$ 如果明确表达$p(\theta \mid y)$,即 $$ \begin{align*} p(\theta \mid y) = \frac{\begin{pmatrix}n\\y\end{pmatrix}\theta^{y}(1-\theta)^{n-y}}{p(y)} \end{align*} $$ 其中 $$ \begin{align*} p(y) &= \int_{0}^{1} \begin{pmatrix}n\\y\end{pmatrix}\theta^{y}(1-\theta)^{n-y}d\theta\\ &=\begin{pmatrix}n\\y\end{pmatrix}\frac{\Gamma(y+1)\Gamma(n-y+1)}{\Gamma(y+1+n-y+1)}\quad \\ &\mbox{(应用Beta函数与Gamma函数的关系)}\\ &=\begin{pmatrix}n\\y\end{pmatrix}\frac{y!(n-y)!}{(n+1)!}\quad \mbox{(Gamma函数的性质)}\\ &=\frac{n!}{y!(n-y)!}\frac{y!(n-y)!}{(n+1)!}\\ &= \frac{1}{n+1} \end{align*} $$ 进而 $$ \begin{align*} Pr(\theta \geq 0.5 \mid y, n) &= \int_{0.5}^{1}p(\theta \mid y) d\theta\\ &\approx 1.15 \times 10^{-42} \end{align*} $$ 因此"几乎可以"确定女性出生率低于0.5。 ### 结果后验分布的启示 在得到后验分布的情况下,我们重新抽取一份出生记录,这个婴儿的性别为女性($\widetilde{y}=1$)的概率为 $$ \begin{align*} Pr(\widetilde{y}=1 \mid y) &= \int_{0}^{1} Pr(\widetilde{y}=1 \mid y, n)p(\theta \mid y) d\theta\\ &= \int_{0}^{1} Pr(\widetilde{y}=1 \mid n)p(\theta \mid y) d\theta\\ &= \int_{0}^{1} \theta p(\theta \mid y) d\theta\\ &= \frac{y+1}{n+2} \end{align*} $$ # 参考文献 [1] Gelman, A., Carlin, J. B., Stern, H. S., & Rubin, D. B. (1995). Bayesian data analysis. Chapman and Hall/CRC. 最后修改:2022 年 07 月 23 日 © 允许规范转载 打赏 赞赏作者 赞 0 如果觉得我的文章对你有用,请随意赞赏