正态分布下部分的分布 | 您所在的位置:网站首页 › 正态分布特点 › 正态分布下部分的分布 |
此前的文章已经证明,大量事物的分布趋向于正态分布。前面也已经证明了为什么各种分布在数据量越来越大时都趋向于正态分布。下面将基于大量事物的分布趋向于正态分布的特征,推导整体中的部分的分布特征。 以下将以正态分布的3个推广,探索在正态分布总体下,整体中的部分的规律。 首先是卡方分布,其定义为对于一系列相互独立且服从 的变量 ,它们的平方和 即自由度为n的卡方分布。 它的其中一种推导过从正态分布的分布函数平方和的特征开始,其定义为一个形式为 的n重积分,积分域为一个n维的球体,满足 。 接下来将通过球坐标变换计算n重积分。 自由度为2时, ,然后每两个变量运算一次,得到自由度为n时, 。 因为 ,代入上式得 , ,由积分 得到 。最后把此式代入到上面的n重积分中,并对x求导得到 。 卡方分布又称 ,其在数理统计中的作用主要是描述一些与平方相关的数字特征,例如方差等。或者用于对分类数据进行独立性检验。在n很小的时候,其曲线有比较明显的右偏倾向,当n足够大时,卡方分布的p分位数有以下近似: 。 另一个是t分布,其定义为对于两个独立的变量X、Y, , ,以下对t分布的密度函数进行推导。 首先从 ,得到 , 。 然后令上述为Z,则可以得到 ,则T的密度函数为 上面最后一步的表达式为t分布的密度函数,其中n为自由度。 t分布的主要作用在于当样本数量较小时,此时样本不一定服从正态分布,需要使用t分布进行拟合。其曲线形状和正态分布基本一样,但是在自由度较小的时候,两侧的尾部会更大,即方差会更大。 当样本数量越来越大的时候,t分布会渐渐趋向于正态分布,其证明如下: 当t分布的自由度越来越大的时候,以下把密度函数分为两部分取极限,并分类讨论。 右边取极限可得 ,左边的情况需要分n为奇数和n为偶数两类讨论。 当n为奇数时, 。 以下需要引入一个极限 ,由此可得上式的极限为 。 当n为偶数时, 。 由 有 ,从两边夹,可得 ,取极限可得 ,由此可得 。 因此把两边合并,就可以得到 ,正是正态分布的密度函数。上面从数学层面证明了t分布对正态分布的趋向。 还有一种是F分布,其定义为两个服从自由度分别为m和k的卡方分布的变量X和Y的商,表示为 ,其密度函数的推导类似于t分布,具体如下: 先变换 ,由上面推导t分布的方式可得 , 。然后计算 的密度函数,推导过程如下: 上面的即为F分布的密度函数。 F分布的主要用途是计算平方性质数据之比,例如两个方差的比的计算。例如方差分析、回归方程等会使用到它去解释不同变量方差的差异。另外,由于自由度k和m的顺序被唯一确定,因此两个变量的自由度不可交换,但可以证明,自由度相反的两个F分布符合 ,可以方便在已知F分布的两个自由度与目的相反时去寻找符合的函数值。 上面这三个分布是在正态分布的前提下,推广出的在正态分布总体前提下的部分的样本的特征的描述。这是数理统计的开端,开启了与前述概率论部分相反的归纳过程,即通过大量事物趋向于正态分布的一般规律,归纳整体中部分事物的特征。后面将利用这些数学工具,从部分估计未知的更大整体。 参考资料: 贾俊平,何晓群,金勇进编著,统计学(第8版),中国人民大学出版社,2021 刘金山主编,概率论,中国农业出版社,2011 知乎专栏:Duan-Mo:卡方分布的概率密度函数推导 知乎专栏:无题:如何推导t分布的概率密度函数? 知乎专栏:Fasnreis:t分布概率密度公式推导 知乎专栏:霸霸来了:自由度较大时,t分布趋近于正态分布的简单证明 知乎专栏:Fasnreis:F分布概率密度公式推导 知乎专栏:leinvamp:F分布 |
CopyRight 2018-2019 实验室设备网 版权所有 |