概率论与数理统计中基于有限样本推断总体分布的方法，基于总体未知参数区间估计的假设检验方法之讨论，以及从数理统计视角重新审视线性回归函数本质

您所在的位置：网站首页 › 联合分布律求概率 › 概率论与数理统计中基于有限样本推断总体分布的方法，基于总体未知参数区间估计的假设检验方法之讨论，以及从数理统计视角重新审视线性回归函数本质

概率论与数理统计中基于有限样本推断总体分布的方法，基于总体未知参数区间估计的假设检验方法之讨论，以及从数理统计视角重新审视线性回归函数本质

2024-07-12 03:32| 来源: 网络整理| 查看: 265

1. 总体与样本 0x1：数理统计中为什么要引入总体和个体这个概念

概率论与数理统计中，一个很重要的研究对象就是总体的概率分布，理论上说，我们希望获得被研究对象的总体样本，基于这份总体样本进一步研究其概率分布，但是遗憾地是，几乎在100%的情况下，我们都不可能获得真正的总体，我们只能获取有限的样本量（例如自然生物里的统计问题），有时候甚至还是非常少的小样本集（例如宇宙星体观测结果），如何有效、准确、误差可控地利用有限的样本集，进行最大程度合理的统计推断，既是一个理论研究课题，也是非常有现实意义的应用理论。

因此概率论与数理统计科学家们提出了总体和个体这个概念，主要观点如下：

在大数定律的理论支撑下，只要我们的个人样本数足够多，个人样本的统计量会在趋近于1的概率下，趋近于总体样本的统计量。这就是我们在没有完整总体样本的情况下，依然能够利用概率论与数理统计这个强大的武器，对未知的事物开展统计研究的理论依据。同样在大数定律的理论支撑下，即使样本数不够多，基于有限的样本数得到的估计结果，和理论总体之间的误差，也可以可以通过概率分布统计量的形式，定量地给出的，这给统计推断的不确定性决策提供了基础。 0x2：总体与样本 1. 总体的形式定义

在一个统计问题中，我们把研究对象的全体称为总体，也即样本空间全集，构成总体的每个成员称为个体，也即样本子集。

对于具体问题中，我们将研究对象的某个数量指标值（例如身高）的全体称为总体，每一个总体都是由一组数据组成的，因此可以用一个概率分布描述，所以说总体数量指标就是服从一个分布的随机变量。

我们用大写字母X表示总体，那么总体X就是具有未知分布函数F(x)的一个随机变量。

2. 样本的形式定义

在数理统计中，总体分布永远是未知的。所以我们希望从客观存在的总体中按一定的规则选取一些个体（即抽样），通过对这些个体作观察或测试来推断关于总体分布的某些统计量（例如总体X的均值、方差、中位数等），被抽取出的这部分个体就组成了总体的一个样本。

这里所谓的”一定规则“，是指保证总体中每一个个体有同等的机会被抽到的规则。

在总体中抽取样本的过程称之为”抽样“，抽取规则则称之为”抽样方案“。在大部分时候，我们都采用简单随机抽样，表示对总体的每一个抽样，总体中的所有个体都有相同的被选概率，用这种抽样方案得到的样本称为简单随机样本。

由于在观测前，样本观测值是不确定的，所以样本是一组随机变量（或随机向量），为了体现随机性，用大写字母（X1，X2，....，Xn）表示，其中n为样本的大小，称之为样本容量。

一旦给定的简单随机抽样方案实施后，样本就是一组数据，用小写英文字母（x1，x2，...，xn）表示，也称为样本观测值。

简单随机样本具有下列两个特性：

1）相互独立性：X1，X2，...，Xn相互独立，样本中每个个体的取值不受到其他个体取值的影响 2）代表性：Xi 同总体分布（Xi ~ f(xi；θ)），总体中的每一个个体都有同等机会被选入样本 3. 样本的联合分布概率函数公式

我们知道，简单随机样本表示X1，X2，...，Xn是独立同分布的随机变量，且每一个 Xi 的分布都与总体X的分布相同，因此我们可以根据概率论中多维随机变量分布的性质得到样本的联合分布如下：

1）离散型随机变量

设总体X是一个离散型随机变量，分布律为P(X=x；θ)，样本(X1，X2，....，Xn)的联合分布律为：

2）连续型随机变量

设总体X是一个连续型随机变量，密度函数为f(x；θ)，样本(X1，X2，....，Xn)的联合密度函数为：

样本的联合分布累乘公式是一个非常基础且重要的公式，是很多下游算法的公式基础，它表达了一个最质朴的概率论思想，即：任何复杂的事物都可以分解为多个复杂度更低的子事件，所有子事件同时发生等同于复杂事物发生，而所有独立同分布的子事物同时发生在概率论中又等价于所有子事物的概率逐个累乘。即P(AB) = P(A)*P(B)。

样本的联合分布概率函数公式，在模型参数估计、NLP语言模型建模等领域中都有广泛应用。

3）样本联合分布函数举例说明

设总体X~B(1，p)，（X1，X2，...，Xn）为取自该总体的一个样本，求样本（X1，X2，...，Xn）的联合分布律f(x1，x2，...，xn；p)

在概率分布函数的讨论中，我们的讨论对象往往是在某个确定的概率函数前提下，某个点或某个区间的确定性概率问题。而在样本联合分布概率函数的讨论中，我们的讨论对象是多个相同的概率分布函数叠加在一起，综合而成的一个新的概率分布函数。它们二者之间有点像个体与群体的关系。

Relevant Link:

《概率论与数理统计》同济大学数学系第6章第一节

2. 样本随机变量的统计量 0x1：为什么要研究样本的统计量

数理统计中最重要的部分就是研究样本的概率分布，也即抽样分布。

抽样分布也是一种随机变量，因此自然也有对应的概率密度函数以及概率分布函数。但其实对抽样分布的概率分布函数的研究并不是十分重要，或者说相比于抽样分布的统计量研究来说不是那么重要。

我们研究样本的核心目的在于估计总体分布的形式和参数，而抽样分布的统计量，是连接抽样分布和总体分布之间的桥梁，基于抽样样本的统计推断是基于抽样统计量作出的，所以研究抽样分布的统计量是统计推断中一个十分重要的环节。

0x2：样本统计量 - 连接样本和总体未知参数推断之间的桥梁

数理统计的基本任务之一是利用样本所提供的信息来对总体分布中未知的量进行推断，简单来说，就是由样本推断总体。

但是，样本常常表现为一组数据，很难直接用来解决我们所要研究的具体问题，人们常常把数据加工成若干个简单明了的数字特征，由数据加工后的数字特征就是统计量。所以说统计量综合了样本的信息，是统计推断的基础。统计量的选择和运用在统计推断中占核心地位。

1. 样本统计量基本定义

设（X1，X2，...，Xn）为取自总体的一个样本，样本（X1，X2，...，Xn）的函数为g(X1，X2，...，Xn)，若g中不直接包含总体分布中的任何未知参数，则称g(X1，X2，...，Xn)为统计量。统计量本质上也是一种随机变量。

在抽样前，统计量是一个随机变量，在抽样后，得到样本（X1，X2，...，Xn）的一次观测值（x1，x2，...，xn），则所得的g(x1，x2，...，xn)即为统计量的一次观测值。它是一个可以由数据算得的实数。

统计量本身不包含总体分布中的未知参数，我们构造统计量的主要目的就是去估计总体分布中的未知参数。

2. 一些常用的样本统计量 1）样本均值

设(X1，...，Xn)是一个样本，称：

为样本均值。

2）样本方差

称：

为样本方差。

称：

为样本标准差。

3）k阶原点矩

一般地，对任意一个正整数k，称：

为样本的k阶原点矩。特别的，当k=1时，k阶原点矩退化为样本均值。

4）k阶中心矩

称：

为样本的k阶中心矩。

特别的，当k=2时，二阶中心距M2为：

二阶中心矩M2和样本方差的关系为：

显然，样本方差比样本的二阶中心矩更大一些，有的教材上也称样本方差S为样本无偏估计，称二阶中心矩为有偏估计。

5）词序统计量

词序统计量X(1)，X(2)，...，X(n)是X1，X2，...，Xn由小到大排序得到的，加圆括号的下标表示排序。

设（X1，X2，...，Xn）是取自总体X的一个样本，总体X的密度函数为。

样本中取值最小的一个记为，即，称为最小次序统计量。

样本中取值最大的一个记为，即，称为最大次序统计量。

称为第i次序统计量，i=1，2，...，n，满足：

记和的密度函数分别为和，由概率密度函数的定律可得：

次序统计量本质上是基于原始的概率分布进行了一个函数映射后，得到了一个新的概率分布函数，那么这个新的概率分布函数的形式和原始概率分布函数是什么关系呢？我们以指数分布为例，来具体讨论下。

设（X1，X2，...，Xn）是取自总体X的一个样本，总体X~E(λ)，分别求次序统计量，的分布。

总体X~E(λ)，所以密度函数为：

分布函数为：

根据最小次序统计量的概率密度函数分布式可得：

即：

根据最大次序统计量的概率密度函数分布式可得：

3. 常用样本统计量的性质

由于统计量是样本（X1，X2，...，Xn）的函数，因此统计量也是随机变量，因此统计量也同样具备随机变量的一些性质。而考察随机变量的性质，本质上就是用各种统计量来描述随机变量，所以我们同样可以用随机变量的统计量来考察统计量本身，即统计量本身的统计量。

1）样本均值的统计性质

这个公式要这么理解，我们将样本均值作为一个随机变量，将每次抽样看做一次观测，则在多次观测下，样本均值本身呈现出的均值和方差的统计规律。

样本均值的均值还是均值，样本方差的均值，随着样本数n的增大而负向减小。

该性质表明：样本集可以一定程度上代替总体，实现总体参数估计的目的。因为估计样本的均值就等于估计出了总体的均值，而随着样本数的增加，代表估计误差的均值方差也是逐渐降低，通俗地说就是样本越多，参数估计的就越准确。

2）样本方差和二阶中心矩的统计性质

上式表明样本方差的均值还是方差，样本二阶原点矩的均值，随着样本数n的增加而缓慢增大，这也所谓有偏估计的由来。

该性质表明：样本集并不改变总体的方差分布，对原始的总体来说，样本既不增加新的信息熵，也不减少信息熵。

3）样本均值和方差的依概率收敛性

由独立同分布情形下的大数定律得到：

，

所以有：

在大数定理下，不管是有偏估计还是无偏估计，样本均值和样本方差最终都会收敛到总体均值和总体方差。

样本均值和方差的概率收敛性，也是矩估计法和极大似然估计的理论依据，它从理论上证明了基于样本进行数理统计的合法性和有效性。

4）二项分布总体下的样本统计量求解

这个小节我们用一个具体的例子来阐述，如何对统计量的各种概率性质进行定量的分析和计算。

设（X1，X2，...，Xn）是取自总体X的一个样本，当X~B(1，p)时，分别求下列几个统计量：

由二项分布的性质我们知道：

所以有：

0x3：三大分布 - 正态总体假定下，对样本随机变量进行特定统计量函数变换映射后，得到的3种特定概率分布

标题取得有一些绕，笔者这里尽力分解解释一下。

前面说到，样本是从符合一定概率分布的总体（任意概率分布形式）中通过某种采样方案，采样抽取得到的。所以我们将样本看做是一种随机变量，并计算样本随机变量的统计量，例如前面介绍了常用的统计量（例如均值、方差、次序统计量）。但统计量本质也是一种函数变换（例如均值统计量就是一种固定形式的函数），统计量本身又是一种新的随机变量，所以统计量本身也是有概率分布函数形式的。

在所有总体假设中，正态分布是应用最广泛的一种概率分布，根据中心极限定律，所有的概率分布在大数n情况下，都会趋近于正态分布，所以我们本章讨论正态分布总体下的抽样分布。

虽然正态总体假设下，抽样随机变量的统计量形式可以由很多种，但是在学术研究和工业实践中，使用最多的还是3大分布，本章我们讨论数理统计中用的比较多的3种分布，包括x2分布、t分布、F分布，它们在正态总体的统计推断中起着重要作用。

笔者提醒：显然，数理统计中并不只有这3种概率分布，理论上说，针对正态总体的抽样，我们可以用任意的统计量g()函数来得到新的随机变量，在一些特定的工业场景中，也确实需要我们创造新的统计量函数来应对特定的复杂场景。

1. X2分布 1）概率分布数学公式

设X1，X2，...，Xn为相互独立的标准正态分布随机变量，都服从N(0，1)，称随机变量：

所服从的分布为自由度为n的 χ2 分布，记作Y ~ χ2(n)。样本数n越大，自由度越大。

χ2(n)分布的密度函数为：

密度函数的图像如下，它随着自由度n的不同而有所改变。

2）概率分布性质

χ2分布具有如下性质：

当Y ~ χ2(n)时，E(Y)=n，D(Y)=2n

χ2分布的可加性：设X与Y相互独立，且X~χ2(m)，Y~χ2(n)，那么，X+Y ~ χ2(m+n)

3）x2分布概率分布计算举例

设（X1，X2，X3，X4，X5，X6）为取自标准正态总体N(0，1)的一个样本，分别求下列三个统计量的分布：，并求a，b的值。

由样本的定义可知，X1，X2，X3，X4，X5，X6相互独立，且都服从N(0，1)分布，所以根据χ2分布的定义可知，即自由度为2个χ2分布。

同理，，即由一个样本组成的概率分布为自由度为1的χ2分布。

，即，又，即

所以由χ2分布的定义可知：

整理可得，a=1/2，b=1/3。

2. t分布 1）概率分布数学公式

设随机变量X与Y相互独立，且X~N(0，1)，Y~χ2(n)。称随机变量：

服从自由度为n的t分布（学生氏分布），记为T~t(n)。

T的值域是(-∞，∞)，t(n)分布的概率密度函数为：

t(n)分布的密度函数图像如下，关于直线t=0对称：

当n充分大时，其图形类似于标准正态分布N(0，1)的密度函数图像，即

t(n)分布的p分位数记作ta(n)，即当T~t(n)时，P(T ≤ ta(n)) = p。

在实际中，当n>45时，对于t分布的分位数值，就用标准正态分布的分位数近似，即

3. F分布 1）概率分布数学公式

设随机变量X与Y相互独立，且X ~ χ2(m)，Y ~ χ2(n)，称随机变量：

所服从的分布是自由度为(m，n)的F分布，记作F ~ F(m，n)。其中m称为第一自由度，n称为第二自由度。

F(m，n)分布的概率密度函数为：

F(m，n)分布的概率密度函数图像如下：

F(m，n)分布的p分位数记作Fp(m，n)，即当F ~ F (m，n)时，，对一些常用的p，可以通过查表得到，且同时具有如下性质：

2）F分布概率分布计算举例

设随机变量T~t(n)，F=1/T2，求随机变量F的分布。

由于T~t(n)，设，其中随机变量X与Y相互独立，且X~N(0，1)，Y~χ2(n)。

则有：

又因为X2~X(1)，且X2与Y相互独立，根据F分布的公式定义，可得：

F ~ F(n，1)，即第一自由度为n，第二自由度为1的F分布。

0x4：正态总体假定下的抽样分布的统计量性质

统计量是样本(X1，...，Xn)的函数，它是一个随机变量。统计量的分布称为抽样分布。

设(X1，...，Xn )是取自正态总体N(μ，σ2)的一个样本。下面来研究统计量的性质，我们会看到，有很多分布性质是需要借助3大分布来表达的，这也是3大分布在数理统计中重要性的体现，同时在后文讨论假设检验的时候，3大分布还会频繁出现。

定理1

，或等价地

关于第二点这里简单讨论下，从表面上看，是n个正态随机变量的平方和，但实际上它们不是相互独立的，它们之间有一个线性约束关系：

这表明，当这n个正态随机变量中有n-1个取值给定时，剩下一个的取值就跟着唯一确定了。所以其满足自由度为n-1的X2分布。

定理2

把结论左端改写成：

上式右端分子服从N(0，1)

上式右端分母中的

且分子分母两者相互独立，因此，由t分布的定义便知结论成立。

定理3

在很多实际问题中，常常需要比较两个相互独立的正态总体的样本均值差或样本方差比，所以针对两个相互独立的正态总体有以下定理。

设(X1，...，Xm )是取自正态总体N(μ1，σ12)的一个样本，(Y1，...，Yn)是取自正态总体N(μ2，σ22)的一个样本。

Relevant Link:

《概率论与数理统计》同济大学数学系第6章第二节

3. 参数估计 - 概率分布模型已知时模型参数估计 0x1：参数估计基本定义

在之前的章节中，我们已经讨论了总体和样本的概念，而总体X的分布永远是未知的，通常根据实际情况假定服从某种类型的分布。例如，假定总体X服从正态分布，那么刻画正态分布的均值μ和方差σ2究竟取什么值，是参数估计范畴内的知识。

在参数估计的知识推导中，需要用到之前讨论过的样本统计量的概念，样本统计量和大数定律是参数估计的连接桥梁和理论支撑。

设总体X~f(x；θ)，其中 f 的形式已知，θ是未知参数。例如，总体X~B(1，p)，其中p未知，这个p即为标记总体分布的未知参数，简称总体参数。

总体参数虽然是未知的，但是它可能取值的范围却是已知的。称总体参数的取值范围为参数空间，记作

如何根据样本来对未知参数进行估计，这就是数理统计中的参数估计问题。参数估计的形式有两类：1）一类是点估计；2）一类是区间估计

0x2：参数点估计 - 精确的参数值估计

设总体X的分布形式已知，但它的一个或多个参数未知，借助于总体X的一个样本来估计总体未知参数值的问题，称为参数的点估计问题。

设（X1，X2，...，Xn）是取自总体X的一个样本，点估计就是依据样本估计未知参数为某个值，这在数轴上表现为一个点。

具体地说，假定要估计某个未知参数θ，求θ的点估计就是根据样本（X1，X2，...，Xn）构造一个参数估计统计量，h(X1，...，Xn)，在通过抽样获得样本观测值(x1，...，xn)之后，便用h(x1，...，xn)的值来估计未知参数的值。

称h(x1，...，xn)为θ的估计量，估计量本质上也是一种随机变量，记作，也简记为。根据随机变量的定义，估计量是参数空间中一个确定的值。

在一个具体问题中，要求未知参数的估计值必须先求出这个未知参数的估计量（即构造一个包含未知参数的概率分布函数），这里我们介绍两种常用的估计方法：1）矩法；2）极大似然法

1. 矩估计 1）矩估计形式定义

矩估计的思想就是替换思想：用样本原点矩替换总体原点矩。

设总体X的k阶原点矩：，样本的k阶原点矩为：，如果未知参数，则θ的矩估计量为。这种估计总体未知参数的方法称为矩估计。

2）矩估计性质

设一个总体X的均值E(X)=μ，方差D(X)=σ2都未知，（X1，X2，...，Xn）为取自该总体的一个样本，则是μ的矩估计量，Sn2是σ2的矩估计量，Sn是σ的估计量。

3）矩估计应用实例

设（X1，X2，...，Xn）是取自总体X的一个样本，求X~B(1，p)和X~E(λ)时，总体未知参数的矩估计量。

X~B(1，p)，首先，0-1分布的期望E(X)=p，所以未知参数记为总体一阶原点矩，即p=E(X)，应用矩估计的替换思想，用样本的一阶原点矩替代总体一阶原点矩，可得p的矩估计量为

X~E(λ)，E(X)=1/λ，所以λ=1/E(X)，所以λ的矩估计量为

4）求解总体未知参数θ矩估计量一般步骤 1）设k为一正整数，通常取1或者2（即1阶或者2阶），计算总体的k阶原点矩μk = E(Xk) = h(θ) 2）解出θ = h-1（E(Xk)） = h-1（uk），将未知参数转为为总体k阶原点矩的形式 3）用样本的k阶原点矩

替换uk，得到θ的矩估计

，即将未知参数转为样本k阶原点矩的形式

矩估计是一种经典的估计方法，它比较直观且计算简单，即使不知道总体分布类型（矩估计法跳过了总体分布形式这个环节，直接采取了替换思想），只要知道未知参数与总体各阶原点矩的关系并运用替代法，就能得到参数的矩估计量。

2. 极大似然估计 1）极大似然估计形式定义

设总体X有分布律P(X=x；θ)或密度函数f(x；θ)，其中θ为一个未知参数或几个未知参数组成的向量θ=(θ1，θ2，....，θk)，已知 θ∈参数空间。（x1，x2，....，xn）为取自总体X的一个样本（X1，X2，...，Xn）的观测值，将样本的联合分布律或联合概率密度函数看成θ的函数，用L(θ)表示，又称为θ的似然函数，则似然函数形式如下：

在似然函数的基础上，称满足下列关系式：

的解为θ的极大似然估计，也即让似然函数取得极大值时的特定参数值θ叫做：θ的极大似然估计量。显然，极大似然估计量也是一个随机变量。

笔者插入：极大似然估计是因果论的一种逆向应用，总体未知参数θ是因，样本的观测值是果，在所有备选θ中，使得结果发生概率最大的因就是极大似然估计的结果。

2）极大似然估计量的求解方式

似然函数L(θ)的极大似然估计问题本质上是一个求极值问题，如果在θ参数较少时，可以用求偏导的方式来求解，同时为了计算方便，一般两边取对数，即对数极大似然估计，如下式：

来得到θ的极大似然估计，这是因为L(θ)与lnL(θ)在同一处达到最大值。

当θ参数较多时，一般用矩阵代替偏导数进行计算，其本质是一样的。

关于极大似然估计的延展讨论，读者朋友朋友可以参阅另一篇文章。

3）极大似然估计应用实例

设(X1，...，Xn)是取自总体X的一个样本，X~P(λ)，其中λ未知，λ > 0。

包含总体未知参数λ的似然函数为：

对似然函数两边取对数，并对未知参数λ求导数得：

对导数求极值得：

解得：

于是，λ的极大似然估计量为。

4）求解总体未知参数θ极大似然计量的一般步骤 1）由总体分布写出样本的联合分布律或者联合密度函数 2）把θ看成自变量，样本联合分布律（或联合密度函数）看成是θ的函数，记为似然函数L(θ) 3）求似然函数L(θ)的最大值点 4）令L(θ)达到最大值时，θ的取值

即为θ的极大似然估计值。

由上面讨论可以看出，和矩估计不同的是，求解极大似然估计必须总体X的分布类型已知，即必须要能够写出确定的包含总体未知参数θ的函数形式。极大似然估计的条件比矩估计的条件要苛刻，故极大似然估计一般优于矩估计。或者换句话来说，矩估计并不关心总体分布的具体形式，直接应用了一个非常强的假设，即任何总体的k阶矩都可以用样本的k阶矩代替。

3. 点估计优良性评价标准

对于同一个参数，用不同的估计方法求出的估计量可能是不同的，如何定型和定量地评估用哪个估计量更好呢？这个小节会讨论3种常用的评判标准。

1）无偏性 - 选矩估计还是极大似然估计

设是θ的一个估计量，θ取值的参数空间为Θ，若对任意的θ∈Θ，都有：

则称是θ的无偏估计量，否则称为有偏估计量。

估计量的无偏性是指，由估计量得到的估计值相对于未知参数真值来说，取某些样本观测值时偏大，取另一些样本观测值时偏小。

反复将这个估计量使用多次，就平均来说其均值回到到真值本身，且其偏差为0。

反之，如果估计量不具有无偏性，则无论使用多少次，其平均值也与真值有一定的距离，这个距离就是系统误差了（即估计量选取本身有问题）。

下面通过一个例子来说明，矩估计和极大似然估计在对特定总体抽样下，估计统计量的无偏性对比。

设（X1，X2，...，Xn）是取自总体X的一个样本，总体服从均匀分布，X~U(0，θ)，其中θ>0未知，对比θ的估计量和极大似然估计量的无偏性。

首先，由于E(X)=θ/2，则θ=2E(X)，则θ的估计量为，因此该矩估计量的期望为：

因此θ的矩估计量是θ的无偏估计。

另一方面，θ的极大似然估计函数形式（即最大次序统计量）为：

因此该极大似然估计量的期望为：

由上式可以看出，θ的极大似然估计量X(n)不是θ的无偏估计，为θ的有偏估计。

上面只是理论上的分析，但是当样本量很大时，大数定律会让问题简单化，即：

因此：在大量样本的情况下，X(n)是θ的渐进无偏估计。

同时还有一点需要注意的是，对最大次序统计量进行修正，，修正后的统计量满足期望回归真值，即修正后的统计量是无偏估计。

并不是所有的统计量都是可疑修正的，修正后无偏估计在工程实践中非常有用。

2）有效性 - 无偏估计中继续择优

一个未知参数的无偏估计可以有很多（矩估计的各阶矩，似然函数极值求导下的多个值），如何在无偏估计中再进行选择呢？

由于无偏估计的标准是平均偏差为0，所以一个很自然的想法就是每一次估计值与真实值的偏差波动越小越少，偏差波动大小可以用方差来衡量，因此我们用无偏估计的方差大小作为进一步衡量无偏估计优劣的标准，这就是有效性。

设和是θ的两个无偏估计，若对任意的θ∈Θ，有下式成立：

则称比有效。

还是继续沿用上面的均匀分布的例子，我们已知是θ的无偏估计，且修正后的极大似然估计量也是θ的无偏估计。

且：

，又，所以：

根据函数性质，当n>=2时，，所以修正后的极大似然估计比矩估计更有效。

3）相合性 - 在大数情况收敛于真值的能力

点估计是样本的样本，故点估计仍然是一个随机变量，在样本量一定的条件下，点估计不可能完全等同于未知参数的真值，但如果随着样本量不断增大，它能够不断接近真值，控制在真值附近的强度（概率）越来越大，即无限趋近，那么这就是一个好的估计，这一性质称为相合性。

设是θ的一个估计量，若对任意ε，有如下公式成立：

则称估计量具有相合性（一致性），即，这其实就是高数里收敛的概念，在概率论中叫概率收敛一致性。

相合性被视为对估计的一个很基本的要求，如果一个估计量，在样本量不断增大时，它不能把被估参数收敛到任意指定的精度内，那么这个估计量就是不收敛的（发散的）。通常，不满足相合性的估计一般不予考虑。

0x4：区间估计 1. 由一个例子从点估计推导演进到区间估计

上一章讨论的参数点估计是基于样本观测值计算出一个确定的值去估计总体未知参数。同时上一章也讨论到了点估计量的3种评价标准，即无偏性，有效性，相合性。其实这背后已经暗含了一个重要信息，即参数点估计的结果从概率上是存在误差的，虽然随着样本量的不断扩大，这个误差会无限趋近于零，但永远不可能完全等同于。换句话说，无论是矩估计还是极大似然估计本质上都存在这误差。

相比于给出精确的点估计值，学者们提出了另一种参数估计方法，即区间估计，即给出一个区间，让我们能有更大地把握认为真值被包含在这个区间内，这样的估计就显得更有实用价值，也更为可信，因为我们把可能出现的偏差也考虑在内了。

用一个具体例子来逐步引入后面对区间估计的形式化定义的讨论：

考察某厂生产的水泥构件的抗压强度(单位:N/cm2)，如果在抽样前已经从历史上积累的资料中获悉，该厂生产的水泥构件的抗压强度 X ~ N(μ，400)，其中μ未知。

抽取了25件样品进行测试，得到25个数据x1，... ，x25，根据点估计定义，算得：

如果用点估计的观点看，415应该就是是该厂生产的水泥构件的平均抗压强度的估计值。确实在判别式模型中，这就是我们所谓的得到一个最优的模型参数估计。

但是由于抽样的随机性，μ的真值和样本的点估计量之间可能总是有偏差的，我们希望得到一个最大偏差d，保证点估计量和真值之间的偏差不超过这个最大偏差的概率达到某个置信概率，即

接着就出现2个互相制衡的约束条件：

1）d究竟取多大才比较合理？　　 d愈大可信程度也愈高，最极端的情况，当d增大到整个参数空间时，可信度自然也增加到100%了。但区间过宽的估计是没有实际意义的，毕竟你告诉你的业务方说，我有1%的概率认为这笔交易是一个非法交易，你去阻断它吧！可想而知后果反之，d愈小，区间估计就越精确，越收敛，极端情况下，d为零时即退化为点估计。但相应的，可信程度却降低了 2）这样给出的区间估计的可信程度如何? 可信度即置信概率，在不同的最大偏差d下，可信度相应调整。显然，下游业务方是希望这个可信度越高越好。

怎么调和两者的矛盾呢？

在抽样前，区间估计是一个随机区间，反映区间估计可信程度的量是这个随机区间覆盖未知参数μ的概率分布函数，因此上面2个约束条件可以写成概率形式：

，该式本质上就是点估计量的概率分布函数。