贝叶斯统计漫谈 1

贝叶斯后验估计

我们将通过一个例子来说明两个贝叶斯估计——最大后验估计$\ \hat\theta_{MD}\ $和后验期望估计$\ \hat\theta_E\ $在小样本上的一些细微差别。个人觉得这个例子还是挺有意思的。在讲述这个例子之前，我们先回顾一些必要的知识。

二项分布的共轭先验

二项分布的成功概率$\ \theta\ $的共轭先验分布式贝塔分布。设总体$\ X\sim b(n,\theta)$，其密度中与$\ \theta\ $有关的部分为$\ \theta^x(1-\theta)^{n-x}$。设$\ \theta\ $的先验分布为贝塔分布$\ Beta(\alpha,\beta)$，其核为$\ \theta^{\alpha-1}(1-\theta)^{\beta-1}$，其中$\ \alpha$，$\ \beta\ $已知，从而可以写出$\ \theta\ $的后验分布

$\pi(\theta|x)\propto \theta^{\alpha+x-1}(1-\theta)^{\beta+n-x-1},\quad0<\theta<1$

从核的形式我们可以得知这时贝塔分布$\ Beta(\alpha+x,\beta+n-x)\ $的核，故此后验密度为

$\pi(\theta|x)=\frac{\Gamma(\alpha+\beta+n)}{\Gamma(\alpha+x)\Gamma(\beta+n-x)}\theta^{\alpha+x-1}(1-\theta)^{\beta+n-x-1}$

后验估计

考虑这样两个后验估计

最大后验估计$\ \hat\theta_{MD}$：使后验密度$\ \pi(\theta|\mathbf{x})\ $达到最大值的$\ \theta$
后验期望估计$\ \hat\theta_{E}$：后验分布的期望值

例子

为估计不合格品率$\ \theta$，今从一批产品中随机抽取n件，其中不合格品数服从二项分布$\ b(n,\theta)$。若取贝塔分布$\ Beta(\alpha,\beta)\ $作为$\ \theta\ $的先验分布，它的众数为$\ \frac{\alpha-1}{\alpha+\beta-2}$，它的期望为$\ \frac{\alpha}{\alpha+\beta}$。

由共轭先验分布可知，这时$\ \theta\ $的后验分布仍为贝塔分布$\ Beta(\alpha+x,\beta+n-x)$。此时则有

$\text{最大后验估计：}\hat\theta_{MD}=\frac{\alpha+x-1}{\alpha+\beta+n-2}\\ \text{后验期望估计：}\hat\theta_E=\frac{\alpha+x}{\alpha+\beta+n}$

选用贝叶斯假设，即$\ (0,1)\ $上的均匀分布$\ U(0,1)$，也即$\ \alpha=\beta=1\ $的贝塔分布，则有

$\hat\theta_{MD}=\frac{x}{n}\\ \hat\theta_E=\frac{x+1}{n+2}$

在小样本情况下，我们将看到$\ \theta\ $的后验期望估计$\ \hat\theta_E\ $要比最大后验估计$\ \hat\theta_{MD}\ $更合适一些。

试验号	样本量	不合格品数 x	$\hat\theta_{MD}=\frac{x}{n}$	$\hat\theta_E=\frac{x+1}{n+2}$
1	3	0	0	0.200
2	10	0	0	0.083
3	3	3	1	0.800
4	10	10	1	0.917

上表中列出四个试验结果，在试验1与试验2中，“抽验3个产品没有一件是不合格品”与“抽验10个产品没有一件是不合格品”这两个事件给人们留下的印象是不同的，后者的质量要比前者的质量更加信得过。这种差别却无法通过$\ \hat\theta_{MD}\ $反映出来，而用$\ \hat\theta_{E}\ $则会有所反映。同样地对比试验3与试验4，人们会认为前者的质估计不太好，但是会认为后者的质量差到无可救药了。后验期望估计能够反映极端情况在小样本上的差别。在实际中，人们也经常选用后验期望估计作为贝叶斯估计。

Reference

《贝叶斯统计》第2版 by 茆诗松，汤银才