K-means Clustering
Components
最优化目标函数
簇中心的位置
最优分划
正态均值用其样本均值去估计有很好的性质。人们都经常使用它,当把这样的估计推广到p元正态分布场合时出现了意想不到的结果。Stein在1955年指出,在多元二次损失函数下,$p\ge3\ $时,样本均值向量是正态均值向量的非容许估计。如今,我们把这种效应称为Stein效应。
当我们谈及对某个参数的点估计问题时,我们当然可以根据样本构造很多的统计量,不论它们到底合理与否。不过我们总是希望这些估计量会满足一些比较好的性质,例如无偏性(没有系统性偏差)、相合性(随着样本量的增加可以在概率意义下逼近参数真值)等等。
不仅如此,我们往往还会更加关心是否能够找到一种最优的估计——这种最优性会在一定的框架或者说准则下导出。一致最小方差无偏估计UMVUE(Uniformly Minimum-Variance Unbiased Estimator)就是一个对于所有无偏估计中,拥有最小方差的无偏估计。
我们将通过一个例子来说明两个贝叶斯估计——最大后验估计$\ \hat\theta_{MD}\ $和后验期望估计$\ \hat\theta_E\ $在小样本上的一些细微差别。个人觉得这个例子还是挺有意思的。在讲述这个例子之前,我们先回顾一些必要的知识。
二项分布的成功概率$\ \theta\ $的共轭先验分布式贝塔分布。设总体$\ X\sim b(n,\theta)$,其密度中与$\ \theta\ $有关的部分为$\ \theta^x(1-\theta)^{n-x}$。设$\ \theta\ $的先验分布为贝塔分布$\ Beta(\alpha,\beta)$,其核为$\ \theta^{\alpha-1}(1-\theta)^{\beta-1}$,其中$\ \alpha$,$\ \beta\ $已知,从而可以写出$\ \theta\ $的后验分布
最近这段时间主要将精力花在了贝叶斯统计的学习上,看完了茆诗松的《贝叶斯统计》(可能稍有几个小节被我跳过去了)。个人感觉前面三章节写得还是不错的,后面三个章节主要在讲决策问题,新颖的东西并不多,作者这部分写的也一般,不太能够吊起我的胃口。
另外最近几天开始看 Tomohiro Ando 写的 Bayesian Model Selection and Statistical Modeling。其实我并不知道这本书的质量怎么样,只是刚好在图书馆淘书的时候看到了,所以拿来研究一下。前面 Preface 部分和 Introduction 部分还是讲了一些没接触过的知识,小有收获。不过今天在看 Consistency of the Bayesian parameter estimators 时有点看不明白它的证明在讲什么。想跳过这一部分看后面的内容时发现更加看不懂了……等看看能不能找到一些论文或者书籍来过了这个坎吧。
在学习偏微分方程的时候,能量估计这部分学得并不是很好(或者说压根没怎么学),日后要记得补上。
Bayesian model selection is a fundamental part of the Bayesian statistical modeling process. the quality of these solutions usually depends on the quality of the constructed Bayesian models.
A default framework for the Bayesian model selection is based on the Bayes factor.
From the Bayes factor, Bayesian information criterion (BIC), generalized Bayesian information criterion (GBIC), and various types of Bayesian model selection criteria have been proposed.
决策就是对一件事情做决定。它与推断的差别在于是否涉及后果。统计学家在做推断时是按统计理论进行的,很少或者根本不考虑推断结果在使用后的得失。度量得失的尺度就是收益函数或者是损失函数。损失函数与决策环境密切相关,因此从实际中归纳出损失函数就是决策成败的的关键。我们把损失函数引入贝叶斯推断形成贝叶斯决策论。
本章将会重点介绍收益函数、损失函数和效用函数等概念,其中还涉及到一些不用抽样信息的一些决策准则。
在现实生活中我们常常会遇到决策问题,例如囚徒困境就是经典的决策问题。在决策过程中,我们总是希望使用一种最优策略,使自己在条件有限的情况下获得最大收益或者承受最小的损失。下面我们通过一个具体的例子来定义一个决策问题,也即讨论它最基本的构成要素。
我们考虑这样一个简单的情景:
贝叶斯统计中要使用先验信息,而先验信息主要是经验和历史资料。因此如何用人们的经验和过去的历史资料确定概率和先验分布是贝叶斯学派要研究的问题。
贝叶斯学派认为:一个事件的概率是人们根据经验对该事件发生的可能性所给出的个人信念。这样给出的概率称为主观概率。
当然我们所给出的主观概率并不是随意的,而是要求当事人(可能是某一行的专家)对所考察的事件有较透彻的了解和丰富的经验,并能对周围信息和历史信息进行仔细分析,在这个基础上确定的主观概率就能符合实际,这也使得主观概率有别于主观臆断。
主观概率要接受实践检验,也要符合概率的三条公理。
主观概率在经济领域和决策分析中使用较为广泛,因为在那里遇到的随机现象大多是不能大量重复的,无法用频率方法确定事件概率。在这个意义上看,主观概率至少是频率方法和古典方法的一种补充。
统计学中有一种重要的观点称为“条件观点”,即只考虑已出现的数据(样本观察值),而认为未出现的数据与推断无关。后验分布$\ \pi(\theta|\mathbf{x})\ $是在样本$\ \mathbf{x}\ $给定下$\ \theta\ $的条件分布,基于后验分布的统计推断就践行了这样的观点。我们将基于条件观点提出的统计推断方法称为条件方法。
设$\ \theta\ $是总体分布$\ p(x|\theta)$中的参数,为估计该参数可从总体中随机抽取一个样本$\ \mathbf{x}=(x_1,…,x_n)$,同时依据参数的先验信息选择一个先验分布(第三章将会讨论这个问题),用贝叶斯公式算得后验分布$\ \pi(\theta|\mathbf{x})\ $。最后,如果硬要我们拿出一个$\ \theta\ $的估计值出来,我们可以选用后验分布的某个位置特征值,如众数、中位数或者期望。
统计学中主要有两个学派:频率学派与贝叶斯学派。要说清楚它们之间的关系,我们先从统计推断中的三种信息说起。
总体信息即是总体分布或总体所属分布族给我们的信息。总体信息是很重要的,但是为了获取这种信息往往耗资巨大。
样本信息即从总体抽取的样本给我们的提供的信息。人们希望通过样本信息对总体的某些特征进行较为精确的统计推断。没有样本就没有统计学可言。
先验信息是在抽样之前有关统计问题的一些信息,一般来说,先验信息主要来源于经验和历史资料。很显然,成熟而靠谱的经验有助于我们得到更加精确的结论。例如一个常饮牛奶加茶的女士声称她能辨别出先倒进杯子的究竟是牛奶还是茶。对此统计学家做了十次试验,结果发现她每次都正确说出来了。而当无知的统计学家妄自尊大地想自己去尝试辨别(盲猜)时,却只成功猜中了4次。在这种情况下,我们确实看到了经验对于推断产生的影响。
Reminded that the general form of the optimization problem is as follows
Now in unconstrained optimization, we minimize an objective function that depends on real variables, with no restrictions at all on the values of these variables. The mathematical formulation is
where $\ x\in\R^n\ $ is a real vector with $\ n\ge 1\ $ components and $\ f:\R^n\rightarrow\R\ $ is a smooth function.