0%

贝叶斯统计 1 先验分布与后验分布

统计学中主要有两个学派:频率学派与贝叶斯学派。要说清楚它们之间的关系,我们先从统计推断中的三种信息说起。

$\S 1.1\ $三种信息

总体信息

总体信息即是总体分布或总体所属分布族给我们的信息。总体信息是很重要的,但是为了获取这种信息往往耗资巨大。

样本信息

样本信息即从总体抽取的样本给我们的提供的信息。人们希望通过样本信息对总体的某些特征进行较为精确的统计推断。没有样本就没有统计学可言。

先验信息

先验信息是在抽样之前有关统计问题的一些信息,一般来说,先验信息主要来源于经验和历史资料。很显然,成熟而靠谱的经验有助于我们得到更加精确的结论。例如一个常饮牛奶加茶的女士声称她能辨别出先倒进杯子的究竟是牛奶还是茶。对此统计学家做了十次试验,结果发现她每次都正确说出来了。而当无知的统计学家妄自尊大地想自己去尝试辨别(盲猜)时,却只成功猜中了4次。在这种情况下,我们确实看到了经验对于推断产生的影响。

基于上述三种信息进行的统计推断称为贝叶斯统计学。它与经典的统计学的主要差别在于是否利用先验信息。另外,它们在使用样本信息上也是有差别的。贝叶斯学派重视已出现的样本观察值,而对尚未发生的样本观察值不予考虑。贝叶斯学派很重视先验信息的收集、挖掘和加工,使它数量化,形成先验分布,参加到统计推断中来,以提高统计推断的质量。

更具体地说,贝叶斯学派的最基本的观点就是:任一个未知量$\ \theta\ $都可以看作一个随机变量,应用一个概率分布去描述对$\ \theta\ $的未知情况。当然这个分布在未进行抽样之前就已经给出了,所以也被称为先验分布,或简称先验(prior)。而频率学派则认为$\ \theta\ $是一个常量,并不存在任何的不确定性。

$\S 1.2\ $贝叶斯公式

贝叶斯公式的密度函数形式

  1. 依赖于参数$\ \theta\ $的密度函数在经典统计中记为$p(x;\theta)$或者$p_\theta(x)$,它表示在参数空间$\Theta=\{\theta\}$中不同的$\ \theta\ $对应的不同的分布。可在贝叶斯统计中记为$\ p(x|\theta)$,它表示在随机变量给定某个值时,总体指标$\ X\ $的条件分布。

  2. 根据参数$\ \theta\ $的先验信息确定先验分布$\ \pi(\theta)\ $。

  3. 从贝叶斯观点看,样本$\ \mathbf{x}=(x_1,…,x_n)\ $的产生要分二步进行:

    • 首先设想从先验分布$\ \pi(\theta)\ $产生一个样本$\ \theta’\ $,这一步是人们看不到的;

    • 第二步是从总体分布$\ p(x|\theta)\ $产生一个样本$\ \mathbf{x}=(x_1,…,x_n)\ $,这个样本是具体的,是人们能看得到的。此样本的$\ \vec{x}\ $发生的概率是与如下联合密度函数成正比

      这个联合密度函数综合了总体信息样本信息,常称为似然函数,记为$\ L(\theta’)$。在有了样本观察值之后,总体和样本信息中所含$\ \theta \ $的信息都被包含在似然函数$\ L(\theta’)\ $中。

  4. 由于$\ \theta’\ $是由先验分布$\ \pi(\theta)\ $随机产生的,所以我们要利用先验信息把$\ \theta\ $所有可能的取值加以考虑。我们考虑样本和参数$\ \theta\ $的联合分布

    这样我们就把三种可用的信息都综合进去了。

  5. 我们的任务是对未知数$\ \theta\ $作出统计推断。在没有样本信息时,人们只能根据先验分布对$\ \theta\ $作出推断。在得到样本观察值$\ \mathbf{x}=(x_1,…,x_n)\ $之后,我们根据三种信息的综合$\ h(x,\theta)\ $对$\ \theta\ $作出推断。为此我们把$\ h(x,\theta)\ $进行如下分解:

    其中$\ m(\mathbf{x})\ $是$\ \mathbf{x}\ $的边缘密度函数($\ m(\mathbf{x})\ $还有其他的含义,我们将在第三章提及):

    为得到关于$\ \mathbf{x}\ $的边缘密度函数,我们已经对$\ \theta\ $进行了积分,此时它与$\ \theta\ $无关,或者说$\ m(\mathbf{x})\ $中不包含$\ \theta\ $的任何信息。因此能用来对$\ \theta\ $进行推断的仅仅是条件分布$\ \pi(\theta|\mathbf{x})$。它的计算公式如下所示:

    这就是贝叶斯公式的密度函数形式。这个在样本$\ \mathbf{x}\ $给给定下,$\ \theta\ $的条件分布被称为$\ \theta\ $的后验愤分布。它是集中了总体、样本、先验这三种信息中有关$\ \theta\ $的一切信息,而又是派出了一切与$\ \theta\ $无关的信息之后所得到的结果。

  6. 在离散情况下,先验分布可用先验分布列$\ \pi(\theta_i)\ $表示。此时后验分布也是离散形式:

后验分布是三种信息的综合

一般来说,先验分布$\ \pi(\theta)\ $是反映人们在抽样之前对$\ \theta\ $的认识,后验分布$\ \pi(\theta|\mathbf{x})$则是反映了人们在抽样之后对$\ \theta\ $的认识。两者的差异是由于样本$\ \mathbf{x}\ $出现后(获得总体信息和样本信息)人们对$\ \theta\ $认识(先验信息)的一种调整。

$\S 1.3\ $共轭先验分布

共轭先验分布

共轭先验分布想法的产生源于我们希望先验分布和后验分布能具有某种一样的函数形式(它们可能会依赖于某些超参数,即先验分布中所含的未知参数),而随着新样本信息的获得,我们可以在同一个分布函数形式框架下仅通过超参数的改变就能更新后验分布,这将给我们的计算带来很大的便利。

可以想象到这是一种“实时驱动型”的迭代更新方式,每当有一个新样本出现,我们就可以将上一次更新后的后验分布视为先验分布,再进行一次参数更新,如此进行下去。

我们给共轭先验一个文字性的定义:设$\ \theta\ $是总体分布中的参数(或参数向量),$\ \pi(\theta)\ $是$\ \theta\ $的先验密度函数,假如由抽样信息算得的后验密度函数与$\ \pi(\theta)\ $有相同的函数形式,则称$\ \pi(\theta)\ $是$\ \theta\ $的(自然)共轭先验分布。

后验分布的计算

经由$\ \S 1.2\ $的分析,我们已经知道了后验分布可以通过以下方式进行计算:

在实际计算过程中,由于我们计算的是密度函数,另外$\ m(\mathbf{x})\ $与$\ \theta\ $无关,仅仅是充当正则化因子(使得计算结果确实是一个密度函数),所以我们仅需考虑后验分布的核的函数形式:

另外我们再稍微想一想:首先我们将$\ p(\mathbf{x}|\theta)\pi(\theta)\ $改写成如下形式:

注意到$\ \prod_{i=1}^{n}p(x_i|\theta)\ $是我们所熟悉的似然函数,我们若要使先验和后验分布具有同样的形式,似然函数中参数的函数形式可能会给共轭先验的构造提供给一些思路。

共轭先验分布的优缺点

优点是显而易见的:

  • 计算方便
  • 后验分布的一些参数能够得到很好的解释

缺点:

  • 先验分布必须具有一定的合理性,否则强行使用共轭先验很可能会掩盖实际情况

常用的共轭先验分布

共轭先验分布的选取是由似然函数$\ L(\theta)=p(\mathbf{x}|\theta)\ $中所含$\ \theta\ $的因式所决定的,即选与似然函数($\ \theta\ $的函数)具有相同核的分布作为先验分布。若此想法得以实现,那么共轭先验分布就产生了。而似然函数又与总体分布的形式有着某些关联。在下表中,我们列出了在实际中常用的共轭先验分布:

总体分布 参数 共轭先验分布
二项分布 成功概率 贝塔分布$\ Be(\alpha,\beta)$
泊松分布 均值 伽马分布$\ Ga(\alpha,\lambda)$
指数分布 均值的倒数 伽马分布$\ Ga(\alpha,\lambda)$
正态分布(方差已知) 均值 正态分布$\ N(\mu,\sigma^2)$
正态分布(均值已知) 方差 倒伽马分布$\ IGa(\alpha,\lambda)$

$\S 1.4\ $超参数及其确定

前面我们已经提到过超参数这个概念了。其实超参数的定义非常简单,就是先验分布中所含的未知参数。(看到这个定义时我们很容易产生一个自然的想法:如果参数可以是随机的,那么超参数是不是可以是随机的并服从一个先验分布。当然,这种想法是没有任何问题的,并且这在贝叶斯统计中称为多层先验——我们将在第三章再进行介绍。)

一般来说,共轭先验分布常含有超参数,而无信息先验分布一般不含有超参数,例如均分分布(等概率的取值表示大自然对参数的取值并没有任何偏好)。

共轭先验分布是一种有信息的先验分布,故其中所含的超参数应充分利用各种先验信息来进行确定。

如果以二项分布为例,二项分布成功概率$\ \theta\ $的共轭先验分布是贝塔分布$\ Be(\alpha,\beta)$,$\alpha,\beta\ $是超参数。我们可以通过以下几种方法进行超参数的确定:

  1. 利用先验矩
  2. 利用先验分位数
  3. 利用先验矩和先验分位数
  4. 其他方法

详细过程不予赘述,如果感兴趣的话可以直接阅读茆诗松所著《贝叶斯统计》第2版的P20~23或是相关的文献。

$\S 1.5\ $多参数模型

$\S 1.6\ $充分统计量

充分统计量

在简化统计问题中,充分统计量是一个非常重要的概念。(回顾一下什么叫做统计量:一个仅有样本决定,而与参数无关的量,也即当我获得样本的观察值时,统计量的值也随之确定)

引入充分统计量的想法如下:首先我们需要认识到样本是我们进行一切统计推断的基础,它提供了我们进行统计推断的一切“证据”(或者说信息),所以没有样本就没有统计推断。而统计量是我们对样本进行的信息加工和处理。在加工的过程中,统计量所含的信息必定只减不增。而所谓充分性则是说我们在这个加工过程中应该要能把包含未知参数的全部信息都提取出来。

用数学语言来描述这件事情(经典统计中的充分统计量)可能就稍微难以理解一点:设$\ \mathbf{x}=(x_1,…,x_n)\ $是来自分布函数$\ F(x|\theta)\ $的一个样本,$\ T=T(\mathbf{x})\ $是统计量。假如在给定$\ T(\mathbf{x})=t\ $的条件下,$\ x\ $的条件分布与$\ \theta\ $无关,则称该统计量为$\ \theta\ $的充分统计量。

一般情况下,直接运用定义进行验证一个统计量的充分性是困难的,所幸我们有因子分解定理保证这种充分性的充要条件。

因子分解定理

一个统计量$\ T(\mathbf{x})\ $对参数$\ \theta\ $是充分的充要条件是存在一个$\ t\ $与$\ \theta\ $的函数$\ g(t,\theta)\ $和一个样本$\ \mathbf{x}\ $的函数$\ h(\mathbf{x})$,使得对任一样本$\ \mathbf{x}\ $和任意$\ \theta$,样本的联合密度$\ p(\mathbf{x}, \theta)\ $可表为它们的乘积,即

在贝叶斯统计中,充分统计量也有一个充要条件:设$\ \mathbf{x}=(x_1,…,x_n)\ $是来自密度函数$\ p(x|\theta)\ $的一个样本,$\ T=T(\mathbf{x})\ $是统计量,它的密度函数为$\ p(t|\theta)$,又设$\ \mathscr{H}=\{\pi(\theta)\}\ $是$\ \theta\ $的某个先验分布族,则$\ T(\mathbf{x})\ $为$\ \theta\ $的充分统计量的充要条件是对任一先验分布$\ \pi(\theta)\in\mathscr{H}$,有

即用样本分布$\ p(\mathbf{x}|\theta)\ $算得的后验分布与统计量$\ T(\mathbf{x})\ $算得的后验分布(可能达到简化计算的目的)是相同的。

Reference

《贝叶斯统计》第2版 by 茆诗松,汤银才