数理统计3:充分统计量,因子分解定理,点估计的评判标准 您所在的位置:网站首页 充分完全统计量 数理统计3:充分统计量,因子分解定理,点估计的评判标准

数理统计3:充分统计量,因子分解定理,点估计的评判标准

2024-07-17 19:07| 来源: 网络整理| 查看: 265

上一章的末尾提到,我们应当选择全部的样本来进行参数估计,而不是只选择部分的样本。那么什么叫做选择全部的样本呢?它的定义标准是什么?这就是今天要探讨的充分统计量问题。由于本系列为我独自完成的,缺少审阅,如果有任何错误,欢迎在评论区中指出,谢谢!

目录Part 1:充分统计量Part 2:因子分解定理Part 3:好的点估计该是什么样的

Part 1:充分统计量

对参数进行估计,要使用从样本加工而来的统计量,这是一种对样本的信息提取。但我们知道,加工在简化信息结构的同时,肯定也丢失了一部分信息。要如何加工样本,才能尽可能多地删掉无用信息,保留尽可能多的有效信息——或者更进一步地,保留全部的有效信息呢?这需要我们对有效和无效作出定义上的区分。

众所周知,信息是有效的还是无效的,取决于我们要使用信息来做什么。比如说想判断第二天的气温来看看应该穿什么衣服,那么“明天会下雨”这个信息就是有效的,而“奥运会将在2021年开”这个信息就无效了。现在我们想要使用信息来对参数作估计,拥有的全部信息就是样本观测,要保留全部的有效信息,必须将样本按一定方式加工成统计量。

充分统计量的定义就为此而生,它的定义是:对于统计量\(T=T(\boldsymbol{X})\),如果在已知\(T\)的条件下样本\(\boldsymbol{X}\)的条件分布与待估参数\(\theta\)无关,则称\(T(\boldsymbol{X})\)是\(\theta\)的充分统计量。

这也就是说,如果给定了\(T\),则\(\boldsymbol{X}|T\)的联合分布(联合密度)中甚至不含有\(\theta\),自然不包含\(\theta\)的任何信息,因此在给定\(T\)的情况下再关注\(\boldsymbol{X}\)是没有必要的。这就是充分性的由来。

我们貌似是第一次出现\(T=T(\boldsymbol{X})\)这种记法,但它应该不至于太陌生。事实上这里左右两边的\(T\)代表不一样的意思,右边的\(T\)是一个\(n\)元函数\(T(x_1,\cdots,x_n)\),而\(\boldsymbol{X}=(X_1,\cdots,X_n)\)就是它的取值,因此\(T(\boldsymbol{X})\)代表了一个样本的函数,也就是一个统计量,这个统计量用\(T\)表示。

另外,别忘了样本的两重性,由于样本\(\boldsymbol{X}\)在观测前是一个\(n\)维随机向量,所以必然有联合密度函数,由此,条件分布也就可以理解了。

现在,我们来验证正态分布的样本均值是一个充分统计量,也就是要证明

\[f(X_1,\cdots,X_n|\bar X) \]

与\(\theta\)无关。直接计算较为不便,我们在探究\(\bar X,S^2\)的分布时引入过一个正交变换\(\boldsymbol{Y}=A\boldsymbol{X}\),并且成功得出了\(Y_1=\sqrt{n}\bar X\)。由于正交变换是可逆的,所以\(\boldsymbol{X}\)和\(\boldsymbol{Y}\)两组样本可相互转换,没有丢失任何信息。既然如此,我们只需要证明给定\(Y_1\)的情况下,\(\boldsymbol{Y}|Y_1\)的联合分布与\(\mu\)是无关的即可。此时

\[Y_1\sim N(\sqrt{n}\mu,\sigma^2),\quad Y_i\sim N(0,\sigma^2). \]

又因为\(Y_1,\cdots,Y_n\)相互独立,所以\(\boldsymbol{Y}\)的联合密度为

\[f(\boldsymbol{y})=f_1(y_1)f_2(y_2)\cdots f_n(y_n),\\ \]

这里每一个\(f_i(y_i)\)是\(Y_i\)的边缘密度。于是条件密度为

\[f(\boldsymbol y|y_1)=\frac{f(\boldsymbol{y})}{f_1(y_1)}=f_2(y_2)\cdots f_n(y_n), \]

显然\(f(\boldsymbol{y}|y_1)\)与\(\mu\)无关,故\(Y_1\)是\(\mu\)的充分统计量。

如果直接从\(\boldsymbol X\)的联合密度入手,则不如从\(T=n\bar X\)入手,引入一个这样的一一变换:

\[Y_1=X_1,\\ \vdots \\ Y_{n-1}=X_{n-1},\\ Y_n=X_1+X_2+\cdots+X_n. \]

这个变换的Jacobi行列式是\(|J|=1\)。要验证\(Y_n\)对于\(\mu\)的充分性,只要求出

\[f_{\boldsymbol{Y}}(\boldsymbol y|y_n)=\frac{f_{\boldsymbol{Y}}(\boldsymbol{y})}{f_n(y_n)} \]

即可。计算过程较为繁琐,这里就不写了。

在上面引用块中提到的一一变换构造法,可以用定义来验证一个统计量是否是充分的。为作对比,我们也可以看一个非充分统计量:\(X_1\)。它的条件密度是

\[f(\boldsymbol x|x_1)=\frac{f(\boldsymbol x)}{f_1(x_1)}=f_2(x_2)\cdots f_n(x_n), \]

这里每一个\(f_i(x_i)\)是\(X_i\)的边缘密度。显然,这个条件密度里含有\(\mu\),所以\(X_1\)不是\(\mu\)的充分统计量。

Part 2:因子分解定理

如果用定义验证某个统计量是充分的,则一般要经历以下几个步骤:

构造一个一一变换,用目标统计量替代\(X_n\); 计算一一变换后的随机向量的概率密度函数; 计算条件密度,观察是否与待估参数有关。

这每一步,都可能具有很大的计算量,比如第一步要计算变换的Jacobi行列式,第二步要代入原联合密度,第三步要计算条件密度。所以用定义来验证某个统计量是否充分,是比较繁琐的。

因子分解定理提供了一种验证统计量是否充分的简单方式,是一个十分重要的定理,其证明略显复杂,可以跳过。定理内容是这样的:

设样本\(\boldsymbol{X}\)的联合密度函数或联合分布列\(f(\boldsymbol{x},\theta)\)依赖于参数\(\theta\),\(T=T(\boldsymbol{X})\)是一个统计量,则\(T\)为充分统计量的充要条件是\(f(\boldsymbol{x},\theta)\)可以分解为

\[f(\boldsymbol{x},\theta)=g(T(\boldsymbol{x}),\theta)h(\boldsymbol{x}). \]

这里要注意,是样本的联合密度函数或者联合分布列,千万别拿总体的密度就直接做了。这样的分解形式,指的是样本中跟\(\theta\)有关的部分都可以被打包成统计量\(T(X)\)的形式。具体到正态分布上,正态分布的联合概率密度函数为

\[\begin{aligned} f(\boldsymbol{x})&=\left(\frac{1}{\sqrt{2\pi\sigma^2}} \right)^n\exp\left\{-\frac{1}{2\sigma^2}\sum_{j=1}^n(x_j-\mu)^2 \right\}\\ &=\left(\frac{1}{\sqrt{2\pi\sigma^2}} \right)^n\exp\left\{-\frac{\sum_{j=1}^n x_j^2-2\mu\sum_{j=1}^n x_j+n\mu^2}{2\sigma^2} \right\}\\ &=\left(\frac{1}{\sqrt{2\pi\sigma^2}} \right)^n\exp\left\{-\frac{\sum_{j=1}^n x_j^2+n\mu^2}{2\sigma^2} \right\}\exp\left(\frac{n\mu\bar x}{\sigma^2} \right)\\ &=\left(\frac{1}{\sqrt{2\pi\sigma^2}} \right)^ne^{-\frac{n\mu^2}{2\sigma^2}}\exp\left\{\frac{n\mu\bar x}{\sigma^2} \right\}\exp\left\{-\frac{1}{2\sigma^2}\sum_{j=1}^n x_j^2 \right\}. \end{aligned} \]

对参数\(\mu\)的估计问题,可以不用考虑\(\sigma^2\)(即视为已知常数),有如下分解:

\[g(t,\mu)=\left(\frac{1}{\sqrt{2\pi\sigma^2}} \right)^ne^{-\frac{n\mu^2}{\sigma^2}}e^{\frac{nt\mu}{\sigma^2}}, \\ h(\boldsymbol{x})=\exp\left\{-\frac{1}{2\sigma^2}\sum_{j=1}^nx_j^2 \right\}. \]

而对参数\(\sigma^2\)的估计问题,则需要考虑\(\mu\)是否已知,可以将\(f(\boldsymbol{x})\)作如下分解:

\[\begin{aligned} f(\boldsymbol{x})&=\left(\frac{1}{\sqrt{2\pi\sigma^2}} \right)^n\exp\left\{-\frac{1}{2\sigma^2}\sum_{j=1}^n(x_j-\bar x+\bar x-\mu)^2 \right\}\\ &=\left(\frac{1}{\sqrt{2\pi\sigma^2}} \right)^n\exp\left\{-\frac{(n-1)s^2-n(\bar x-\mu)^2}{2\sigma^2} \right\} \end{aligned} \]

此时待估参数为\((\mu,\sigma^2)\),取

\[g((s^2,\bar x),(\mu,\sigma^2))=\left(\frac{1}{\sqrt{2\pi\sigma^2}} \right)^n\exp\left\{\frac{n(\bar x-\mu)-(n-1)s^2}{2\sigma^2} \right\},\\ h(\boldsymbol{x})=1, \]

即可说明\((\bar X,S^2)\)是\((\mu,\sigma^2)\)的充分统计量,注意此时的参数不止一个。

现在考虑一种特殊的情况:\(\mu\)已知的情况下\(\sigma^2\)的估计,我们会看到此时我们将不需要\(\bar x\)。

\[f(\boldsymbol{x})=\left(\frac{1}{\sqrt{2\pi\sigma^2}} \right)^n\exp\left\{-\frac{1}{2\sigma^2}\sum_{j=1}^n(x_j-\mu)^2 \right\}, \]

令\(Q=\sum_{j=1}^n (x_j-\mu)^2\),则\(f(\boldsymbol{x})\)自身已经是因子分解所需的形式,所以\(Q\)是充分统计量。

对\(Q\)作无偏调整,事实上,

\[\frac{Q}{\sigma^2}\sim \chi^2(n), \]

所以

\[\mathbb{E}(Q)=n\sigma^2, \]

无偏调整后\(\sigma^2\)的无偏估计量应该是

\[\frac{Q}{n}=\frac{1}{n}\sum_{j=1}^n(x_j-\mu)^2. \]

容易证明它也是弱相合的。

总之,有了因子分解定理,我们可以用很小的计算量验证某个统计量是充分统计量或不是。同时,因子分解定理更大的作用是,给我们提供了一种寻找充分统计量的方式。对于任何给定的分布,理论上都可以用因子分解定理找充分统计量,再进行一定的调整。

最后,需要指出的是,充分统计量的一一变换仍然是充分统计量,不仅局限于线性变换。用因子分解定理,这个结论是显然的。

Part 3:好的点估计该是什么样的

我们马上要向着非正态分布,向着其他参数分布拓展了。所谓参数分布,就是其分布信息可以完全由有限个参数决定,我们只要用一定的统计量估计出这些个参数,将这些估计量的观测值作为参数的估计。

理论上来说,一个参数可以用任何统计量来估计,比如刚才的方差,我们就在均值已知、未知的情况下提出了两个不同的估计量:

\[\frac{Q}{n}=\frac{1}{n}\sum_{j=1}^n(X_j-\mu)^2,\quad S^2=\frac{1}{n-1}\sum_{j=1}^n(X_j-\bar X)^2. \]

为什么在均值已知的时候,我们就会选择\(Q/n\)而不是\(S^2\)呢?事实上\(S^2\)依然是充分统计量。这就涉及到了统计量的评判问题。

以下是几个常用的估计量评判准则,评价估计量时,一定要说明估计量所估计的参数\(\theta\)是什么。这里,我们假设\(\theta\)的点估计是\(\hat\theta=\hat\theta(\boldsymbol{X})\):

无偏性:如果\(\mathbb{E}(\hat\theta)=\theta\),则称\(\hat\theta\)具有无偏性。 有效性:如果\(\mathbb{E}(\hat\theta_1)=\mathbb{E}(\hat\theta_2)=\theta\),但是\(\mathbb{D}(\hat\theta_1)\le \mathbb{D}(\hat\theta_2)\),且至少存在一个\(\theta\)使得不等号严格成立,则称\(\hat\theta_1\)比\(\hat\theta_2\)有效。 渐进无偏性:如果\(\mathbb{E}(\hat\theta)\ne \theta\)但\(\mathbb{E}(\hat\theta)\to \theta(n\to \infty)\),则称\(\hat\theta\)具有渐进无偏性。 相合性:如果\(\hat\theta\stackrel{P}\to \theta\),则称\(\hat\theta\)具有弱相合性;如果\(\hat\theta\stackrel{\mathrm{a.s.}}\to\theta\),则称\(\hat\theta\)具有强相合性。

可以看出,前两个性质与样本容量无关,称为小样本性质,后两个性质与样本容量有关,且需要样本容量趋向于无穷大时才能体现出来,称为大样本性质。

对于正态分布的\(\bar X\)和\(S^2\),我们已经验证过它们的无偏性与弱相合性,事实上对于\(\bar X\),由柯尔莫哥洛夫强大数定律,它是强相合于总体均值\(\mu\)的。而有效性,依赖于更多的知识,这里就不展开讨论了。

柯尔莫哥洛夫强大数定律:设\(\{\xi_n\}\)是定义在概率空间\((\Omega,\mathscr F,\mathbb{P})\)上的独立同分布随机变量序列,且\(\mathbb{E}|\xi_1|



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

      专题文章
        CopyRight 2018-2019 实验室设备网 版权所有