经验分布函数简介 | 您所在的位置:网站首页 › 什么是随机变量的分布函数 › 经验分布函数简介 |
1 概念
如果我们想知道某个随机变量\(X\)的分布\(F\),这在一般情况下当然是无法准确知道的,但如果我们手上有它的一些独立同分布的样本,可不可以利用这些样本?一个很简单的办法就是,把这些样本的“频率”近似为随机变量的“概率”。 经验分布函数(empirical distribution function):给每个点\(1/n\)的概率质量,得到CDF: \[\hat{F}_n(x) = \dfrac{\sum_{i=1}^{n}I(X_i\leq x)}{n} \]2 性质经验分布函数,有什么性质?它可以很好地近似真实的分布函数吗?我们给出如下几个定理。 定理:对于任意给定的\(x\),有 \(E(\hat{F}_n(x) )=F(x)\); \(V(\hat{F}_n(x) )=\dfrac{F(x)(1-F(x))}{n}\to 0\); \(\text{MSE} = \dfrac{F(x)(1-F(x))}{n}\to 0\); \(\hat{F}_n(x)\stackrel{P}{\longrightarrow}F(x)\)。Glivenko-Cantelli定理:\(X_1,\ldots,X_n\sim F\),那么 \[\sup_x |\hat{F}_n(x)-F(x)|\stackrel{P}{\longrightarrow}0 \]更准确地说,上式其实是几乎必然收敛的。 Dvoretzky-Kiefer-Wolfowitz (DKW) Inequity:\(X_1,\ldots,X_n\sim F\),那么\(\forall \epsilon\gt 0\),有 \[P\left(\sup_x |\hat{F}_n(x)-F(x)|\gt \epsilon\right) \leq 2e^{-2n\epsilon^2} \]利用DKW不等式,可以构造出\(F\)的非参数的\(1-\alpha\)置信带:定义\(L(x)=\max\left\{\hat{F}_n(x)-\epsilon_n,0\right\}\),\(U(x)=\max\left\{\hat{F}_n(x)+\epsilon_n,0\right\}\),其中\(\epsilon_n=\sqrt{\dfrac{1}{2n}\log(\dfrac{2}{\alpha})}\),那么有 \[P[L(x)\leq F(x)\leq U(x),\forall x] \geq 1-\alpha \]3 应用经验分布函数有什么用?它可以用来计算一些statistical functional(统计泛函)。 假设要计算的statistical functional为\(T(F)\),那么,可以利用经验分布函数,代替未知的分布函数,计算出\(\theta=T(F)\)的plug-in estimator(嵌入式估计量):\(\hat\theta=T(\hat{F}_n)\)。 如果存在某个\(r(x)\)使得\(T(F)=\int r(x) dF(x)\),那么\(T\)就称为linear functional(线性泛函),这是因为这样的\(T\)必定满足\(T(aF+bG)=aT(F)+bT(G)\)。对于这样的linear functional \(T(F)\),它的plug-in estimator可以写为: \[T(\hat{F}_n)=\int r(x)d \hat{F}_n=\dfrac{1}{n}\sum_{i=1}^{n}r(X_i) \] |
今日新闻 |
推荐新闻 |
专题文章 |
CopyRight 2018-2019 实验室设备网 版权所有 |