$\S 2.1\ $条件方法
统计学中有一种重要的观点称为“条件观点”,即只考虑已出现的数据(样本观察值),而认为未出现的数据与推断无关。后验分布$\ \pi(\theta|\mathbf{x})\ $是在样本$\ \mathbf{x}\ $给定下$\ \theta\ $的条件分布,基于后验分布的统计推断就践行了这样的观点。我们将基于条件观点提出的统计推断方法称为条件方法。
$\S 2.2\ $估计
贝叶斯估计
设$\ \theta\ $是总体分布$\ p(x|\theta)$中的参数,为估计该参数可从总体中随机抽取一个样本$\ \mathbf{x}=(x_1,…,x_n)$,同时依据参数的先验信息选择一个先验分布(第三章将会讨论这个问题),用贝叶斯公式算得后验分布$\ \pi(\theta|\mathbf{x})\ $。最后,如果硬要我们拿出一个$\ \theta\ $的估计值出来,我们可以选用后验分布的某个位置特征值,如众数、中位数或者期望。
以下三个估计都成为$\ \theta\ $的贝叶斯估计:
- 最大后验估计$\ \hat\theta_{MD}$:使后验密度$\ \pi(\theta|\mathbf{x})\ $达到最大值的$\ \theta$
- 后验中位数估计$\ \hat\theta_{Me}$:后验分布的中位数
- 后验期望估计$\ \hat\theta_{E}$:后验分布的期望值
在这里提及以下事实:
- 显然对于非对称后验分布,我们所得出来的估计量可能并不相同,在实际情况中需要再进行选择。而一条指导性意见是两个估计量在小样本上的解释性是否有哪个更优。
- 有时候我们所得的贝叶斯估计就是经典统计中的极大似然估计,例如在二项分布场合下,取特殊先验为均分分布的$\ \theta\ $,它的最大后验估计就是经典统计中的极大似然估计。贝叶斯学派对这种现象的看法是:任何使用经典统计的人都在自觉或者不自觉地使用贝叶斯推断,与其不自觉地使用,还不如主动选取更合适的先验分布使推断更富有意义。当然频率学派并不会接受这种观点,因为贝叶斯学派尚未证明:总体分布$\ p(x|\theta)\ $中参数的任一经典估计都存在一个先验分布,使得其贝叶斯估计就是该经典统计。
更多更详细的内容请查阅参考文献《贝叶斯统计》第37至39页。
贝叶斯估计的误差
在得到一个估计值之后,我们往往需要知道这个估计值究竟有多靠谱,能不能放心的在实际生活中进行使用,此时我们就需要考虑一个误差的问题了。而衡量误差很自然的想法就是利用方差或者是标准差,好在我们已经有关于参数$\ \theta\ $的后验分布,所以最好而又最简单的方法就是用$\ \theta\ $对$\ \hat\theta\ $的后验均方差或其平方根来度量。
设参数$\ \theta\ $的后验分布$\ \pi(\theta|\mathbf{x})\ $,贝叶斯估计为$\ \hat\theta\ $,则$\ (\theta-\hat\theta)^2\ $的后验期望
称为$\ \hat\theta\ $的后验均方差,而其平方根$\ [MSE(\hat\theta|\mathbf{x})]^{1/2}\ $称为$\ \hat\theta\ $的后验标准误。其中符号$\ E^{\theta|\mathbf{x}}\ $表示用条件分布$\ \pi(\theta|\mathbf{x})\ $求期望。在连续情形下,有
经过简单的推断,我们还可以得到后验均方差与后验均值之间的关系
其中$\ \hat\theta_E=E(\theta|\mathbf{x})$。
$\S 2.3\ $区间估计
由于贝叶斯学派将参数$\ \theta\ $视为随机变量,所以我们可以很自然的讨论关于$\ \theta\ $的区间估计问题。我们将这种区间称为贝叶斯可信区间。
而在经典统计中,我们也有类似的给出置信区间的结果。相比之下,置信区间就让人感觉有些摸不着头脑了。比如说我们在95%的置信水平下得到关于$\ \theta\ $的置信区间,此时我们并不允许说$\ \theta\ $落在此区间内的概率是0.95,因为对于非随机的常量$\ \theta$,我们并不能言及概率。事实上,给定一个置信区间,常量$\ \theta\ $要么落在置信区间内,要么不落在置信区间内,是一个确定性事件。我们只能以曲线救国的方式将置信区间视为随机置信区间说:“在100次使用这个置信区间时,大约有90次能盖住$\ \theta$。”而此种频率解释对仅使用一次或两次的人来说是毫无意义的。很多人还是会下意识将求得的置信区间当作可信区间去使用和理解。
设参数$\ \theta\ $的后验分布为$\ \pi(\theta|\mathbf{x})$,对于给定的样本$\ \mathbf{x}\ $和概率$\ 1-\alpha(0<\alpha<1)$,若存在这样的两个统计量$\ \hat\theta_L=\hat\theta_L(\mathbf{x})\ $与$\ \hat\theta_U=\hat\theta_U(\mathbf{x})$,使得
则称区间$\ [\hat\theta_L,\hat\theta_U]\ $为参数$\ \theta\ $的可信水平为$\ 1-\alpha\ $(贝叶斯)可信区间。而满足
的$\ \hat\theta_L\ $称为$\ \theta\ $的$\ 1-\alpha$(单侧)可信下限。满足
的$\ \hat\theta_U\ $称为$\ \theta\ $的$\ 1-\alpha$(单侧)可信上限。
对给定的可信水平$\ 1-\alpha$,从后验分布$\ \pi(\theta|\mathbf{x})\ $获得的可信区间不止一个,常用的方法是用$\ \alpha/2\ $和$\ 1-\alpha/2\ $的分位数来获得$\ \theta\ $的可信区间。
等尾可信区间在实际中常常被使用,但并不是最理想的,最理想的可信区间应是区间长度最短。这只要把具有最大后验密度的点都包含在区间中,而在区间外的点上的后验密度函数值均不超过区间内的函数值。我们称这样的区间为最大后验密度(Highest Posterior Density,HPD)可信区间。
$\S 2.4\ $假设检验
假设检验
考虑这样的假设检验问题:建立原假设$\ H_0\ $与备择假设$\ H_1\ $
其中$\ \Theta_0\cap\Theta_1=\empty$。
在贝叶斯统计中处理假设检验问题是直截了当的,在获得后验分布$\ \pi(\theta|\mathbf{x})\ $后,即可计算两个假设$\ H_0\ $和$\ H_1\ $的后验概率
然后比较$\ \alpha_0\ $与$\ \alpha_1\ $的大小:
- 当后验概率比(或称后验机会比)$\alpha_0/\alpha_1\gt 1$时接受$\ H_0\ $;
- 当后验概率比(或称后验机会比)$\alpha_0/\alpha_1\lt 1$时接受$\ H_1\ $;
- 当后验概率比(或称后验机会比)$\alpha_0/\alpha_1=1$时不做判断
可以看到比起经典统计下的假设检验,我们并不需要选择检验统计量,确定抽样分布,也无需事先给定显著性水平,确定其拒绝域。
最后,当我们推广到多重假设检验场合时,应接受具有最大后验概率的假设。
贝叶斯因子
贝叶斯因子即是后验机会比/先验机会比
我们通过定义来感受一下贝叶斯因子究竟在干什么:
首先分子“后验机会比”已经将后验的信息进行很好的利用(这其中就包含了样本信息和先验信息),但是接着我们又将该值除以先验机会比。
刚开始接触这个概念时,我误以为贝叶斯因子是和后验机会比一样是用来判定假设检验的结果的。那么这就产生了一个很奇怪的问题了,我们看到贝叶斯因子既依赖于数据,又依赖于先验分布,对两种机会比相除,直观上这会削弱甚至(在某些情况下会)消除先验的影响。不过后来发现它并不是用来判定的……注意到贝叶斯因子减弱了先验的影响,突出了数据的影响,从这个角度看,贝叶斯因子是衡量了数据支持原假设的程度。
在简单假设$\ \Theta_0=\{\theta_0\}\ v.s.\Theta_1=\{\theta_1\}$下:
两种简单假设的后验概率分别为
计算贝叶斯因子
贝叶斯因子不依赖于先验分布,仅依赖于样本的似然比。这时贝叶斯因子的大小表示了样本$\ \mathbf{x}\ $支持$\ \Theta_0\ $的程度。
在复杂假设下,贝叶斯因子虽然已经不是似然比了,但仍可以看成是原假设与备择假设的加权似然比,它平均的消除了先验分布的影响,而强调了样本观察值的作用。
在简单原假设对复杂的备择假设的场合下,例如很经典的检验问题$\ H_0=\theta_0\ v.s.H_1=\theta_1$。有别于前面问题的是不能采用连续密度函数作为先验分布,因为任何这种先验将给$\ \theta=\theta_0\ $的先验概率为0。基本的想法是赋予$\ \theta_0\ $一个正的概率,采用由离散和连续两部分组成的先验分布。
关于以上两个场合的假设检验问题更加详细的内容,感兴趣的同学请参看《贝叶斯统计》P54~63。
$\S 2.5\ $预测
对随机变量未来观察值作出统计推断称为预测,譬如:
- 设随机变量$\ X\sim p(x|\theta)$,在参数$\ \theta\ $未知情况下如何对$\ X\ $的未来的观察值作出推断
- 设$\ x_1,…x_n\ $是来自$\ p(x|\theta)\ $的过去观察值,在参数$\ \theta\ $未知情况下如何对$\ X\ $的未来的观察值作出推断
- 按密度函数$\ p(x|\theta)\ $得到一些数据$\ x_1,…x_n\ $后,如何对具有密度函数$\ g(z|\theta)\ $的随机变量$\ Z\ $的未来的观察值作出推断,这里第二个密度函数$\ p\ $和$\ g\ $都含有相同的未知参数$\ \theta$。
在贝叶斯统计中,由于参数$\ \theta\ $随机且不可观测,我们的想法就是利用$\ \theta\ $的先验分布或者后验分布综合地考虑所有$\ \theta\ $的可能取值。共同点都是要获得预测分布。
设随机变量$\ X\sim p(x|\theta)$,在无$\ X\ $的观察数据时,利用先验分布$\ \pi(\theta)\ $得到未知的但可以观测的数据$\ x\ $的分布
这个分布常被称为$\ X\ $的边缘分布,但它还有一个更富有内涵的名称是“先验预测分布”。有了预测分布之后,我们就可以根据所需例如取期望值、中位数或众数作为预测值,也可以类似可信区间的形式取得预测区间。
在有$\ X\ $的观察数据$\ \mathbf{x}=(x_1,…,x_n)\ $时,改用后验分布$\pi(\theta|\mathbf{x})\ $获得“后验预测分布”
也可以预测另一个总体$\ g(z|\theta)\ $的未来观察值,只要考虑如下分布:
$\S 2.6\ $似然原理
似然原理的核心概念是似然函数,对似然函数理解大家都是一致的,若设$\ \mathbf{x}=(x_1,…,x_n)\ $是来自密度函数$\ p(x|\theta)\ $的一个样本,则其乘积
有两个解释:当$\ \theta\ $给定时,$p(\mathbf{x}|\theta)\ $时样本$\ \mathbf{x}\ $的联合密度函数,当样本$\ \mathbf{x}\ $的观察值给定时,$p(\mathbf{x}|\theta)\ $是未知参数$\ \theta\ $的函数,并称为似然函数,记为$\ L(\theta)$。
似然函数$\ L(\theta)\ $强调:它是$\ \theta\ $的函数,而样本$\ \mathbf{x}\ $在似然函数中只是一组数据或一组观察值。所有与试验有关的$\ \theta\ $的信息都被包含在似然函数之中,使$\ L(\theta)=p(\mathbf{x}|\theta)\ $大的$\ \theta\ $比使使$\ L(\theta)\ $小的$\ \theta\ $更像是$\ \theta\ $的真值。特别地,使$\ L(\theta)\ $在参数空间中$\ \Theta\ $达到最大的$\ \hat\theta\ $称为极大似然估计。
(好吧,其实我也没太看得懂上一段在说什么……我还是用自己的话解释一遍吧……(当然如果你看懂了上面在说什么,那就不用浪费时间再听我的废话了
首先,我们接着上面的两种解释继续说:当$\ \theta\ $给定时,$p(\mathbf{x}|\theta)\ $时样本$\ \mathbf{x}\ $的联合密度函数,它表示了某个样本观察值在参数已知的情况下发生的概率;而当我们对总体进行观测得到样本时(给定样本观察值),此时对于$\ p(\mathbf{x}|\theta)\ $就不能言及概率了,它随着未知参数$\ \theta$的变动而变动。
而极大似然估计的想法就是认为最先出现的样本是最有可能的发生的。基于这个想法,我们希望变动$\ \theta\ $使得,对这个固定的$\ \theta$(看第一个解释)样本观察值发生概率,即似然函数达到最大。
Emmmm…感觉我解释得也挺糟糕的…哎不管了…
似然原理有如下两点:
- 有了观测值$\ \mathbf{x}\ $之后,在做关于$\ \theta\ $的推断和决策时,所有与试验有关的$\ \theta\ $信息均被包含在似然函数$\ L(\theta)\ $中。
- 如果有两个似然函数是成比例的,比例常数与$\ \theta\ $无关,则它们关于$\ \theta\ $含有相同的信息。
Reference
《贝叶斯统计》第2版 by 茆诗松,汤银才