0%

贝叶斯统计 3 先验分布的确定

$\S 3.1\ $主观概率

主观概率

贝叶斯统计中要使用先验信息,而先验信息主要是经验和历史资料。因此如何用人们的经验和过去的历史资料确定概率和先验分布是贝叶斯学派要研究的问题。

贝叶斯学派认为:一个事件的概率是人们根据经验对该事件发生的可能性所给出的个人信念。这样给出的概率称为主观概率。

当然我们所给出的主观概率并不是随意的,而是要求当事人(可能是某一行的专家)对所考察的事件有较透彻的了解和丰富的经验,并能对周围信息和历史信息进行仔细分析,在这个基础上确定的主观概率就能符合实际,这也使得主观概率有别于主观臆断。

主观概率要接受实践检验,也要符合概率的三条公理。

主观概率在经济领域和决策分析中使用较为广泛,因为在那里遇到的随机现象大多是不能大量重复的,无法用频率方法确定事件概率。在这个意义上看,主观概率至少是频率方法和古典方法的一种补充。

确定主观概率的方法

  • 专家的主观概率
  • 概率三条公理
  • 根据对专家的了解(偏保守或激进)形成决策者自己的主观概率

$\S 3.2\ $利用先验信息确定先验分布

当总体参数为离散型时,可对每一个点确定一个主观概率。

当总体参数为连续型是,要构造先验密度就比较困难了。当$\ \theta\ $的先验信息足够多时,下面三个方法可供使用:

  1. 频率直方图法(用频率估计概率)

  2. 选定先验密度函数形式再估计其超参数

    这个方法的要点如下:

    • 根据先验信息选定$\ \theta\ $的先验密度函数形式$\ \pi(\theta)\ $的形式,如选其共轭先验分布
    • 当共轭先验分布中含有未知参数(称为超参数)时,譬如$\ \pi(\theta)=\pi(\theta;\alpha,\beta)$,给出超参数$\ \alpha,\beta\ $的估计值使得最接近先验信息

    这种方法最常用,但也及其容易误用,因为先验密度$\ \pi(\theta)\ $的函数形式选用不当将会导致以后推导失误。

  3. 定分度法和变分度法

    变分度法是把参数可能取值的区间逐次分为机会相等的两个小区间。

    其实也没啥好说的,感兴趣的同学自己查去吧[Doge]

$\S 3.3\ $利用边缘分布m(x)确定先验密度

上一节的东西简直无聊透顶,我其实都不太想写的…幸好比起上一节,这一节的内容还是相对比较有意思的。

边缘分布

设总体$\ X\ $的密度函数为$\ p(x|\theta)$,它含有未知参数$\ \theta$,若$\ \theta\ $的先验分布选用形式已知的密度函数$\ \pi(\theta)$,则可算得$\ X\ $的边缘分布

混合分布

设随机变量$\ X\ $以概率$\ \pi\ $总体$\ F_1\ $中取值,以概率$\ 1-\pi\ $在总体$\ F_2\ $中取值。若$\ F(x|\theta_1)\ $和$\ F(x|\theta_2)\ $分别是这两个总体的分布函数,则$\ X\ $的分布函数为

或用密度函数表示

这个分布$\ F(x)\ $称为$\ F(x|\theta_1)\ $和$\ F(x|\theta_2)\ $的混合分布。

从混合分布中抽取一个样本$\ x_1$,相当于如下的二次抽样:

  • 第一次,从$\ \pi(\theta)\ $中抽取样本$\ \theta$
  • 第二次,若$\ \theta=\theta_1$,则从$\ F(x|\theta_1)\ $中再抽一个样本,这个样本就是$\ x_1$;若$\ \theta=\theta_2$,则从$\ F(x|\theta_2)\ $中再抽一个样本,这个样本就是$\ x_1$.

从上述混合分布的定义很容易看出,边缘分布就是混合分布的推广。以后我们就可以将对边缘分布的抽样看成是对广义混合分布的抽样。

先验选择的$\ ML-Ⅱ\ $方法

在边缘分布$\ m(x)\ $的表示式中,若$\ p(x|\theta)\ $已知,则$\ m(x)\ $的大小反映了$\ \pi(\theta)\ $的合理程度。这里把$\ m(x)\ $记为$\ m^\pi(x)$。注意到在上一章中,我们将边缘分布函数视为了对$\ x\ $的预测分布。当样本观察值给定时,这件事情就变得更加明朗了:当对不同的两个先验分布$\ \pi_1\ $和$\ \pi_2$,有

时,我们可以认为由先验$\ \pi_1\ $给出的预测分布更加支持样本$\ x\ $的出现。还是利用到极大似然估计的基本观点(自然也是统计学的基本观点):将最先发生的事情视为最有可能发生的事情。那么我们对$\ \pi_1\ $的偏好也就是合理的了。我们将这样给出的的先验称为$\ Ⅱ\ $型极大似然先验,或称为$\ ML-Ⅱ\ $先验。

例如混合样本$\ \mathbf{x}=(x_1,…,x_n)\ $所涉及的先验密度函数的形式已知,未知的仅是其中的超参数,即先验密度函数族可表示如下:

这时寻求$\ ML-Ⅱ\ $先验是较为简单的事,只要寻求这样的$\ \hat\lambda\ $使得

这可用最大化似然函数方法来实现。

先验选择的矩方法

当先验密度函数形式已知时,还可以利用先验矩与边缘分布之间的关系寻求超参数的估计。这个方法称为先验选择的矩方法。这个矩方法的要点如下:

  • 计算总体分布$\ p(x|\theta)\ $的期望$\ \mu(\theta)\ $和方差$\ \sigma^2(\theta)$,即

  • 计算边缘密度$\ m(x|\lambda)\ $的期望$\ \mu_{m}(\lambda)\ $和方差$\ \sigma_{m}^2(\lambda)$,下面的公式可以帮助我们简化这些计算:

(to be continued

$\S 3.4\ $无信息先验分布

贝叶斯统计启发人们要充分挖掘周围的各种信息是统计推断更加有效。但是当我们并没有任何先验信息可以利用的情况下,该如何确定先验分布?这时候我们选用需要选用无信息先验。

说到无信息先验,哪怕我们从未听过这个名词,也很自然会联想到均匀分布(连续型)或是在可数离散情形下认为参数等可能。这两种朴素的联想都表明了我们在无知情况下的一种立场:不偏好参数任何可能的取值。不过如果问题真的就这么简单,那我们也没有必要专门用一节来讲这个问题了。下面我们叙述一些主要结果。

贝叶斯假设

所谓参数$\ \theta\ $的无信息先验分布是指除参数$\ \theta\ $的取值范围$\ \Theta\ $和$\ \theta\ $在总体分布中的地位之外,再也不包含$\ \theta\ $的任何信息的先验分布。有人把“不包含$\ \theta\ $的任何信息”理解为(就如上一段所述)对$\ \theta\ $的任何可能的取值没有任何偏好,都是同样无知的。因此很自然地将$\ \theta\ $的取值范围上的均匀分布看作$\ \theta\ $的先验分布,即

其中$\ \Theta\ $是$\ \theta\ $的取值范围,$c\ $是容易确定的常数。这一看法综合了我们上一段的两种想法,通常被称为贝叶斯假设。

使用贝叶斯假设也会遇到一些麻烦,主要是以下两个:

  1. 当$\ \theta\ $为无限区间时,在$\ \Theta\ $上无法定义一个正常的均匀分布
  2. 贝叶斯假设不满足变换下的不变性

第一个问题可以通过引入广义先验密度的方法来解决。它的动机是虽然我们不能得到一个正常的密度函数,但是使用它并不影响后验分布的计算,也就是说采用广义先验密度计算出来的后验密度是一个正常的概率密度。

由此我们定义:

设总体$\ X\sim f(x|\theta),\theta\in\Theta$,若$\ \theta\ $先验分布$\ \pi(\theta)\ $满足下列条件:

  • $\pi(\theta)\ge0$,且$\ \int_\Theta\pi(\theta)d\theta=\infty$
  • 由此决定的后验密度$\ \pi(\theta|x)\ $是一个正常的密度函数,则称$\ \pi(\theta)\ $为$\ \theta\ $的广义先验密度。

对于第二个问题,我们先解释一下什么是变换下的不变性。

考虑正态标准差,它的参数空间是$\ (0,\infty)$。若定义一个变换

则$\ \eta\ $是正态方差。注意到这时一个一一变换,不会损失信息。若$\ \sigma\ $是无信息参数,那么$\ \eta\ $也是无信息参数,且它们的参数空间都是$\ (0,\infty)$,没有被压缩或放大。按贝叶斯假设,它们的无信息先验分布应都为常数,应该成比例。可是按照概率运算法则并不是这样的。若设$\ \pi(\sigma)\ $为$\ \sigma\ $的密度函数,那么$\ \eta\ $的密度函数为

因此,若$\ \theta\ $的无信息先验分布被选为常数,为保持数学上逻辑推理的一致性,$\eta\ $的无信息先验应与$\ \eta^{-1/2}\ $成比例。这就与贝叶斯假设矛盾。

从这个例子可以看出,不能随意设定一个常数为某参数的先验分布,即不能随意使用贝叶斯假设。那么什么场合可以使用贝叶斯假设?什么场合不能使用贝叶斯假设?如不能使用贝叶斯假设,无信息先验分布又如何确定呢?下面来叙述这些结果。

位置参数的无信息先验

若要考虑参数$\ \theta\ $的无信息先验,我们首先要知道该参数$\ \theta\ $在总体分布中的地位,譬如$\ \theta\ $是位置参数,还是尺度参数。根据参数在分布的地位选用适当变换下的不变性来确定无信息先验分布。

设总体$\ X\ $的密度具有形式$\ p(x-\theta)$,其样本空间$\ \chi\ $和参数空间$\ \Theta\ $皆为实数集$\ \mathbb{R}^1$。这类密度函数组成位置参数族。$\theta\ $称为位置参数,方差$\ \sigma^2\ $已知时的正态分布$\ N(\theta,\sigma^2)\ $就是其成员之一。下面我们导出这种场合下$\ \theta\ $的无信息先验分布。

设想让$\ X\ $移动一个量$\ c\ $得到$\ Y=X+c$,同时让参数也移动一个量$\ c\ $得到$\ \eta=\theta+c$,显然$\ Y\ $具有密度$\ p(y-\eta)$。它仍是位置参数族的成员,且其样本空间与参数空间仍为$\ \mathbb{R}^1$。所以$\ (X,\theta)\ $问题与$\ (Y,\eta)\ $问题的统计结构完全相同。因此$\ \theta\ $与$\ \eta\ $应是有相同的无信息先验分布。

其中$\ \pi^{*}(*)\ $为$\ \eta\ $的无信息先验分布,另一方面,由变换$\ \eta=\theta+c\ $可以算出$\ \eta\ $的无信息先验分布为

联立上面两式可得

取$\ \eta=c$,则有

由于$\ c\ $的任意性,故得$\ \theta\ $的无信息先验分布为

这表明,当$\ \theta\ $为位置参数时,其先验分布可用贝叶斯假设作为无信息先验分布。

尺度参数的无信息先验

设总体$\ X\ $的密度具有形式$\ \frac{1}{\sigma}p(\frac{x}{\sigma})$,其中$\ \sigma\ $称为尺度参数,参数空间$\ \Theta\ $为$\ \mathbb{R}^+=(0,\infty)$。这类密度函数的全体组成尺度参数族。正态分布$\ N(0,\sigma^2)\ $就属于该分布族。下面我们导出这种场合下参数$\ \sigma\ $的无信息先验分布。

设想让$\ X\ $改变比例尺,即得$\ Y=cX(c>0)$。类似地定义$\ \eta=c\sigma$,即让参数$\ \sigma\ $同步变化,不难算出$\ Y\ $的密度函数为$\ \frac{1}{\eta}p(\frac{y}{\eta})\ $仍属于尺度参数族。易见$\ (X,\sigma)\ $和$\ (Y, \eta)\ $具有相同的统计结构,故两个尺度参数的无信息先验理应相同

另一方面,由变换$\ \eta=c\sigma\ $可得$\ \eta\ $的无信息先验

比较上面两式得

取$\ \eta=c$,则有

不妨令$\ \pi(1)=1$,可得$\ \sigma\ $的无信息先验为

这仍然是一个不正常的先验。

用Fisher信息阵确定无信息先验

$\ Jeffreys\ $还提出确定无信息先验更一般的方法。由于推理涉及到变换群和$\ Harr\ $测度知识,这里仅给出最后结果及其计算步骤

设$\ \mathbf{x}=(x_1,…,x_n)\ $是来自密度函数$\ p(x|\theta)\ $的一个样本。这里$\ \theta=(\theta_1,…,\theta_n)\ $是$\ p\ $维参数向量。在对$\ \theta\ $无先验信息可用时,$\ Jeffreys\ $用$\ Fisher\ $信息阵的平方根作为$\ \theta\ $的无信息分布。这样的无信息先验常称为$\ Jeffreys\ $先验。其寻求步骤如下:

  1. 写出样本的对数似然函数

  2. 求样本的信息阵

    其中$\ i,j=1,2,…,p$。在单参数场合下

  3. $\theta\ $的无信息先验密度为

    其中$\ \det I(\theta)\ $表示$\ p\times p\ $阶信息阵$\ I(\theta)\ $的行列式。在单参数场合下

$\S 3.5\ $多层先验

多层先验

当所给先验分布中超参数难于确定时,可以对超参数再给出一个先验,第二个先验成为超先验。由先验和超先验决定的一个新先验就称为多层先验。下面的例子可以很好的帮助我们理解多层先验的想法和做法。

设人们对某产品的不合格率了解甚少,只知道它比较小。现需确定$\ \theta\ $的先验分布。决策人经过反复的思考,最后把他引导到多层先验上去,他的思路是这个样子的:

  1. 开始他用区间$\ (0,1)\ $上的均匀分布$\ U(0,1)\ $作为$\ \theta\ $的先验分布。

  2. 后来觉得不妥,因为该产品的不合格率$\ \theta\ $比较小,不会超过$\ 0.5\%$,于是他改用区间$\ U(0,0.5)\ $作为$\ \theta\ $的先验分布

  3. 在一次业务会上,不少人对上限$\ 0.5\ $提出各种意见,有人觉得应该为$\ 0.1$,有人认为应该只是比$\ 0.5\ $小一点,应该取$\ 0.4$,但是对此他也没有把握。最后决策人提出以下看法:$\theta\ $的先验为$\ (0,\lambda)$,其中$\ \lambda\ $是超参数,要确切地定出$\ \lambda\ $是困难的,但是预示它的区间是有把握的。综合大家的意见,决策人最终认为$\ \lambda\ $是在区间$\ (0.1,0.5)\ $上的均匀分布$\ U(0.1,0.5)$。这后一个分布称为超先验。

  4. 我们归纳一下最终决定的先验:

    • $\theta\ $的先验为$\ \pi_1(\theta|\lambda)=U(0,\lambda)$
    • $\lambda\ $的超先验为$\ \pi_2(\lambda)=U(0.1,0.5)$

    于是用边缘分布计算公式,可得$\ \theta\ $的先验为

    其中$\ \Lambda\ $是超参数$\ \lambda\ $的取值范围。在这个例子中:

    其中$\ \mathbb{I}\ $为示性函数:

理论上并没有限制多层先验只能有两层,可以是三步或更多步,但是在实际应用中多于两步的先验是很罕见的。对于第二层的超先验用主观概率或用历史数据给出是有困难的,因为$\ \lambda\ $常是不能观察的,甚至连间接观察都是难以进行的,所以用无信息先验作为超先验是一种好的策略。

多层先验常常是在这样一个场合使用,当一步给出先验$\ \pi(\theta)\ $没有把握时,那用二层先验要比硬用一层先验所冒的风险要小一些。

多层模型

(to be continued

Reference

《贝叶斯统计》第2版 by 茆诗松,汤银才