深度学习系列(一):概率论统计学基础 您所在的位置:网站首页 概率统计方法 深度学习系列(一):概率论统计学基础

深度学习系列(一):概率论统计学基础

2024-05-09 15:56| 来源: 网络整理| 查看: 265

标题党:一文搞懂深度学习概率论基础。

文中有大量公式,请谨慎阅读,如不想看公式,可直接看加粗部分。

概率论与统计学在深度学习领域属于核心的理论支撑,按照我的理解,可以说,概率论与统计学理论是机器学习与深度学习的心脏。AI算法或模型,都是以概率论与统计学为理论依据,并且才经得住考证。直观地讲,在现实世界中的客观事实,都呈现某种规律性,而这种规律性,则可通过概率论与统计学进行总结表述,而机器学习或深度学习,则是尝试发现该规律,即统计规律,因此学习深度学习,必先了解概率论统计学基础。

在机器学习早期,通常分为两大方向:频率派贝叶斯派,而这两大派,都需要借助概率论统计学加以描述,因此本系列将从理论基础,带领大家窥探机器学习的内部“机制”。本文尽可能地将概率论统计学理论与其相关的机器学习算法相关联,但不对机器学习算法进行详细讲解,算法详解将在后续的系列中逐步更新。

随机变量

在现实世界中,通常一件事情的可能结果有多种,因此该事件的发生是不确定的,可以以一个变量表示,我们称该变量为随机变量。以下为智库百科定义:随机变量是指变量的值无法预先确定仅以一定的可能性(概率)取值的量。它是由于随机而获得的非确定值,是概率中的一个基本概念。根据事件的可能性取值类别,可以将随机变量分为两类:离散型随机变量连续型随机变量

离散型随机变量是指,对于一个随机事件,其可能出现的结果的取值离散而不是连续,如“投掷骰子其朝上的点数”,该事件的可能取值为 \{1,2,3,4,5,6\} ,每个值都离散,而无法出现 1.5 等结果。因此,离散型随机变量的取值,无法涵盖整个实数集 \mathbb{R} 。

相反,连续型随机变量是指,对于一个随机事件,其可能出现的结果的取值始终连续,典型地,如“数轴上任取一点”,其取值为 (-\infty, +\infty) ,即可取值为整个实数集 \mathbb{R} 或其子集。

通常,随机变量使用大写的字母表示,如 X,Y 等。

随机事件

这里要区别一个概念,即随机事件,简称事件。简单地讲,一个事件,可能发生也可能不发生,则称该事件为随机事件。在一个随机试验中,可能出现很多可能的结果,我们通常将所有的可能结果,称为样本空间,而随机事件只是样本空间的一个子集。如“投掷一枚骰子”,那么其样本空间为: \left\{1\text{点朝上},2\text{点朝上},3\text{点朝上},4\text{点朝上},5\text{点朝上},6\text{点朝上}\right\} ,那么可以定义一个随机事件为“投掷的骰子的点数大于3”,则该事件的取值空间为 \left\{4\text{点朝上},5\text{点朝上},6\text{点朝上}\right\} ,显然其为样本空间的子集。

随机变量本质上,是样本空间的一个函数映射,其将样本空间映射到了数字空间,如上述例子,定义随机变量 X ,则样本空间的一个函数映射为 X=\{1,2,3,4,5,6\} 。

随机事件与随机变量都是用大写字母表示,不同的是,随机事件使用 A B C 等表示,而随机变量通常从 X 取值,即 X Y Z 。并且,随机事件可以使用谓词逻辑,或集合论思想,如用 \overline{A} 表示非。

概率

概率在统计学中被用来衡量事件发生的可能性大小。以下为Wikipedia定义:概率是一个在0到1之间的实数,是对随机事件发生之可能性的度量

注,上述定义是基于随机事件的。

概率通常使用 P 表示,并且根据上述定义,对于一个随机事件 A ,则其概率可为 P(A) 。结合上述随机变量与随机事件的关系,概率还可表述为随机变量取值的可能性大小,如 P(X=1),\text{且}\;P(X=1) \in [0,1] 表示随机变量 X 取值为 1 的可能性。从这角度可以说明:随机事件是定义在样本空间上的一个随机常量

由于随机变量是样本空间的一个映射,而样本空间是随机试验所有的可能结果,因此样本空间的整个概率应为 1 ,即在一次随机试验中,样本空间中的样本点必然命中其中一个,因此样本空间构成的事件为一个必然事件,必然事件的概率为 1 ,因此有:

\sum\limits_{i=1}^k P(X=i)=1

注意:必然事件的概率为 1 ,但是概率为 1 的事件不为必然事件,这里不详细展开了,不是本文重点。

值得注意的是,概率不等价于频率,但是很多情况下,会使用频率值来表示概率,这其实是基于一个事实:在大量重复的独立随机试验下,一个事件发生的频率,会近似于该事件发生的概率,因此可以使用频率估计概率,而这个估计的理论基础是大数定律,在此不做展开。

以频率朴素地估计概率,是频率派的重要思想根基

在概率中,有两个经典模型:古典概型几何概型,具体的在此不展开。

条件概率、联合概率和边缘概率

条件概率是指,在已知一个事件发生的情况下,另一个事件发生的概率。如,“今天下雨明天继续下雨的概率”,便是一个条件概率。Wikipedia定义为:就是事件 A 在事件 B 发生的条件下发生的概率。

在数学上,条件概率表示为: P(B|A) ,即 B 在 A 发生的条件下发生的概率。

联合概率是指,两个事件同时发生的概率,在数学上记为: P(A\cap B), P(AB), P(A,B) 。

边缘概率是指,多个事件中,某个事件发生的概率。

根据上述的定义,有如下的条件概率计算公式:

\begin{equation} P(A|B)=\frac{P(A,B)}{P(B)} \label{eq:1} \end{equation}

贝叶斯公式

根据上述条件概率、边缘概率的关系推导,可进一步整理,导出贝叶斯公式:

P(A|B)=\frac{P(B|A)P(A)}{P(B)}

推导如下:

\begin{aligned} \because \; & P(A,B)=P(B)P(A|B)=P(A)P(B|A) \\ \therefore \;& P(A|B)=\frac{P(A,B)}{P(B)}=\frac{P(B|A)P(A)}{P(B)} \end{aligned}

独立事件

当且仅当两个事件满足, P(A,B)=P(A)P(B) 时,两个事件相互独立。并且相互独立的事件,其联合概率等于各自边缘概率的乘积。

因此,若 A 、 B 相互独立,可对上述条件概率,进行变换:

P(A|B)=\frac{P(A)P(B)}{P(B)}=P(A) .

全概率公式

对于一个联合概率, P(A,B) ,有 P(B)=\sum\limits_i^{n} P(A_i,B) ,该公式即为全概率公式。

全概率公式说明了边缘概率与联合概率的关系,而条件概率公式则说明了联合概率与条件概率的关系

全概率公式说明,边缘概率可以由联合概率对另一个随机事件求和(或积分)求得。进一步使用条件概率公式,则全概率公式又可变换为

P(B)=\sum\limits_i^n P(B|A_i)P(A_i)

贝叶斯法则

有了全概率公式,又可以对贝叶斯公式进一步进行整理,即之前已经使用条件概率公式,替换了联合概率的分子,现在用全概率公式来替换条件概率的分母:

P(A|B)=\frac{P(B|A)P(A)}{P(B)}=\frac{P(B|A)P(A)}{\sum\limits_i^n P(B|A_i)P(A_i)}

贝叶斯定理与朴素贝叶斯算法

这里就可以导出第一个机器学习算法了,朴素贝叶斯算法,朴素贝叶斯算法是一个很简单的分类算法,其思想是,利用先验概率来推测后验概率,这符合了贝叶斯定理的规则。从贝叶斯定理也可以看出,在计算条件概率时,贝叶斯法则将因果倒置,使得可以根据已有的规律,推测未知的事件。在朴素贝叶斯中,贝叶斯法则中的 A 表示类别,而 B 表示属性。

朴素贝叶斯的核心在于一个假设:各属性之间相互独立

那么,根据上述事件独立的条件概率,可知: P(A,B)=P(A)P(B) ,那么可将朴素贝叶斯表示为:

P(A_k|B_1,B_2,\cdots,B_n)=\frac{P(B_1,B_2,\cdots,B_n|A_k)P(A_k)}{\sum\limits_k P(B|A_i)P(A_i)}=\frac{P(A_k)\prod\limits_{j=1}^n P(B_j|A_k)}{\sum\limits_k P(B|A_i)P(A_i)}

其中, A_k 表示第 k 个类别,而 B_n 表示不同维度的属性,如天气、温度等,由于朴素贝叶斯的属性独立假设,那么条件概率的联合概率计算,可以转化为概率相乘的结果,从而导出朴素贝叶斯算法。根据公式可知,在朴素贝叶斯中,进行分类时是在计算当属性值为 B_1,\cdots,B_n 时,样本类别为 A_k 的概率。而计算时,则是使用训练样本中已有的标注数据,计算在类别为 A_k 时,属性分别为 B_j 的概率乘积,当结果最大时,则后验概率最大,因此该样本属于 A_k 类。

根据条件概率、联合概率,可以推导出条件概率的链式法则,条件概率的链式法则可以和马尔可夫链对应起来看(形式上有可对比性),这里不具体展开,有兴趣的可以查阅资料。分布律、概率密度与分布函数

对于离散型随机变量,一次随机试验可能出现N种结果,对每种结果出现的概率,以表格的形式表示,该表格即是为分布律。分布律是一个二维表格,第一行为随机变量的取值,第二行为随机变量取值的概率。

而连续型随机变量,随机变量有无穷个取值,无法使用表格列举,因此使用一个函数表示该映射关系。

严格的概率密度定义是与分布函数密切相关的,这里不给出了,可以这样对应理解:概率密度是连续型随机变量的分布律

那么概率密度将有如下性质:

f(x) \geq 0 ;\int_{-\infty}^{+\infty} f(x) dx=1 ;P(a\leq x \leq b) = \int_a^b f(x) dx .与离散型随机变量不同的是,连续型随机变量获取概率,一定是对概率密度的积分,而离散型随机变量在每个样本点上的概率可以直接由分布律获得。那么,连续型随机变量在任意点处的概率都为 0 。(可以使用定积分证明结合极限证明)

对于随机变量 X ,对于任意实数 x ,函数 F(x)=P\{X\leq x\} 则称之为随机变量 X 的分布函数。

有了分布函数,便可记 X\sim F(x) ,表示随机变量 X 服从于概率分布 F 。

因此,对于离散型随机变量,分布函数也是离散的分段函数,而连续型随机变量,则是积分:

F(x)=\int_{-\infty}^x f(x) dx

独立同分布(IID)

若多个事件之间相互独立,并且服从相同的概率分布,则称事件之间为独立同分布。如抛掷 n 枚骰子,则每一枚骰子都是独立同分布的。

数学特征:期望、协方差与方差

在统计学中,不仅需要计算概率信息,同时还需要计算期望、方差等统计特征。期望描述了随机变量取值的平均值大小。期望的定义为:随机变量结果与其概率的乘积之和。从几何意义上理解,期望特征,描述了样本集的平均水平。

而方差则是描述样本之间分布是否均匀的数学特征,其描述了样本的稳定性,它是衡量随机变量或一组数据离散程度的度量。统计中的方差(样本方差)是每个样本值与全体样本值的平均数(期望)之差的平方值的期望。

下面以数学公理,给出期望与方差的定义。

期望

对于离散型随机变量,其期望为: \mathbb{E}(X)=\sum\limits_n P(X_i)X_i ,而对于连续型随机变量,其期望为 \mathbb{E}(x)=\int_{-\infty}^{+\infty} xf(x)dx 。

协方差

对于两个随机变量 X,Y ,协方差定义为:

\begin{aligned}Cov(X,Y) &=\mathbb{E}\left[(X-\mathbb{E}(X))(Y-\mathbb{E}(Y))\right] \\ &=\mathbb{E}[XY-X\mathbb{E}(Y)-Y\mathbb{E}(X)+\mathbb{E}(X)\mathbb{E}(Y)] \\ &=\mathbb{E}(XY)-\mathbb{E}(X)\mathbb{E}(Y) \end{aligned}

协方差说明了两个随机变量的相关性,若对其按照随机变量的标准差之积,则可以得到相关系数

\rho(x,y)=\frac{Cov(X,Y)}{\sqrt{D(X)D(Y)}}

注:相关系数仅能描述线性相关性,而不能表示相关性强弱,如相关性 0.5 与 1 ,都是正相关,但不能说明相关系数为 1 的相关性比 0.5 的强。

方差

D(X)=\mathbb{E}\left((X-\mathbb{E}(X))^2\right)

对上述方差进行化简:

\begin{aligned}D(X) &=\mathbb{E}\left[X^2 -2X\mathbb{E}(X)+\mathbb{E}(X)^2\right] \\ &= \mathbb{E}(X^2) - 2\mathbb{E}(X)\mathbb{E}\left(X\right) + \mathbb{E}(X)^2 \\ &= \mathbb{E}(X^2)-\mathbb{E}(X)^2\end{aligned}

对于多个随机变量的线性组合,可通过以下公式计算新随机变量的期望与方差,设随机变量 Z=X+Y ,则:

\mathbb{E}(Z)=\mathbb{E}(X+Y)=\mathbb{E}(X)+\mathbb{E}(Y)

\begin{aligned}D(Z) &=D(X+Y)=\mathbb{E}(Z^2)-\mathbb{E}(Z)^2=\mathbb{E}(X^2+2XY+Y^2)-\left(\mathbb{E}(X)+\mathbb{E}(Y)\right)^2 \\ &=\mathbb{E}(X^2)+2\mathbb{E}(XY)+\mathbb{E}(Y^2)-\left(\mathbb{E}(X)^2+\mathbb{E}(Y)^2+2\mathbb{E}(X)\mathbb{E}(Y)\right) \\ &= \mathbb{E}(X^2)-\mathbb{E}(X)^2+\mathbb{E}(Y^2)-\mathbb{E}(Y)^2 + 2\mathbb{E}(XY)-2\mathbb{E}(X)\mathbb{E}(Y) \\ &= D(X)+D(Y) + 2\left(\mathbb{E}(XY)-\mathbb{E}(X)\mathbb{E}(Y)\right) \\ &= D(X) + D(Y) + 2Cov(X,Y)\end{aligned}

若 X,Y 相互独立,则协方差为 0 ,即

D(Z)=D(X+Y)=D(X)+D(Y)

还有复合函数随机变量的期望求法,在此未做介绍,在最后一小节Jensen不等式中有提及,其算法也相对简单。离散型随机变量离散型随机变量分布伯努利分布(0-1分布)

伯努利实验是概率论领域中经常讨论的模型之一,其表示的是对于一个随机实验,其最终结果只有两个选择,即 0 或 1 。如抛硬币实验,将正面朝上记为 1 ,反面朝上记为 0 ,则该实验为一个伯努利实验,并且设正面朝上的概率为 p ,则可以说事件:“正面朝上”服从参数为 p 的伯努利分布,其分布律为

f(x;p)=p^x(1-p)^{(1-x)}

其中, x=\{0,1\} ,则其分布律为:

0-1分布分布律

则可以计算其期望为:

\mathbb{E}(X)=0(1-p)+p=p

方差为:

D(X)=\mathbb{E}(X^2) - \mathbb{E}(X)^2=p-p^2=p(1-p)

伯努利分布可以视为一个二分类的预测问题

二项分布

若将二项分布扩展到多次重复试验,即 n 重伯努利试验,则可将伯努利分布扩展为二项分布。 n 重伯努利分布之间满足独立同分布,记为 \mathbb{B}(n,p) , p 为事件发生的概率,则其分布律为:

p(x)= {n \choose x} p^x(1-p)^{(n-x)}

由于二项分布是 n 重伯努利试验,各试验之间满足IID,记随机变量 Y 服从二项分布,随机变量 X 服从伯努利分布,则可以推导二项分布期望与方差为:

\mathbb{E}(Y)=\mathbb{E}(nX)=n\mathbb{E}(X)=np

D(Y)=D(nX)=nD(X)=np(1-p)

对应到机器学习领域,可将二项分布与二分类的训练过程相联系,其通过样本来模拟多次伯努利试验,用于拟合一个二项分布模型,来进行二分类任务,正样本可视为事件发生,而负样本则为事件不发生。

共轭先验分布

在贝叶斯统计中,如果后验分布与先验分布属于同类,则先验分布与后验分布被称为共轭分布,而先验分布被称为似然函数的共轭先验

在判断共轭先验时,需要引入先验概率后验概率似然概率三个概念,并且后验概率正比于似然与先验概率的乘积

\Gamma函数

\Gamma 函数(Gamma函数)实际上是阶乘在实数集的扩展,若 n 为正整数,则 \Gamma 函数即为阶乘:

\Gamma(n)=(n-1)!

而当 x 为实数时,则 \Gamma 函数定义为:

\Gamma(x)=\int_0^\infty t^{x-1}e^{-t} dt,\; x>0

通过分布积分法,可推导 \Gamma 函数的递推关系:

\Gamma(x+1)=x\Gamma(x)

结论:从上述递推关系也可知,Gamma函数实际上是阶乘在实数集的扩展。

Beta函数

与 \Gamma 函数相似的另一个函数为Beta函数,其可以转化为 \Gamma 函数的变换,其原始定义为:

Beta(m,n)=\int_0^1 x^{m-1}(1-x)^{n-1} dx

对上述式子积分,可得:

Beta(m,n)=\frac{\Gamma(m)\Gamma (n)}{\Gamma(m+n)} ,当 m,n 均为正整数时,则有

Beta(m,n)=\frac{(m-1)!(n-1)!}{(m+n-1)!}

Beta函数是Beta分布的一个多项式系数。

\operatorname{B} 分布 这部分结论可以大概有个记忆,如不需要了解证明,可直接看本节结论。

由二项分布可知,在离散型随机变量中,二项分布表示了 n 重伯努利试验的分布,而如何将该分布扩展至实数域,则是Beta分布所解决的问题。

若一个随机变量 X 服 \operatorname{B} 分布(记作 X \sim \operatorname{B}(\alpha, \beta) ),则其概率密度为:

f(x;\alpha,\beta)= \frac{1}{\operatorname{B} (\alpha,\beta)}x^{\alpha - 1}(1-x)^{\beta-1}

对于 \alpha,\beta 都为正整数时,根据上述Beta函数特性,则有 \frac{1}{\operatorname{B}(\alpha,\beta)}=\frac{(\alpha+\beta-1)!}{(\alpha-1)!(\beta-1)!}=\frac{(\alpha+\beta-1)(\alpha+\beta-2)!}{(\alpha-1)!(\beta-1)!}=(\alpha+\beta-1){\alpha+\beta-2 \choose \alpha-1}

令 \alpha+\beta-2=n,\alpha-1=k ,则 n-k=\beta-1 ,则有 {\alpha+\beta-2 \choose \alpha+1}={n \choose k} ,则 \frac{1}{ \operatorname{B} (k+1,n-k+1)}=(n+1){n \choose k}

进一步地,则 \operatorname{B} 分布可表示为:

f(x;k+1,n-k+1)=(n+1){n \choose k}x^k(1-x)^{n-k}

从形式上看, \operatorname{B} 分布与二项分布具有相似形式。

根据上述共轭先验的规则, posterior \propto likelihood \times prior :

则对于先验分布 p(x)=f(x;\alpha,\beta) 和似然概率 p(y|x)=\mathbb{B}(n,p) ,可得:

p(x)\times p(y|x)=\frac{{n \choose k}}{\operatorname{B}(\alpha,\beta)}x^{\alpha+k-1}(1-x)^{n+\beta-k-1}

由于 \frac {1} { \operatorname{B}(\alpha,\beta)} =(\alpha+\beta-1){\alpha+\beta-2 \choose \alpha-1} ,则 \begin{aligned} \frac{{n \choose k}} { \operatorname{B}(\alpha,\beta)} &=(\alpha+\beta-1){n\choose k}{\alpha+\beta-2 \choose \alpha-1} \\ & =\frac{1} { \operatorname{B}(\alpha+k,\beta+n-k)} \end{aligned}

根据 \operatorname{B} 分布定义, f(x;\alpha,\beta,n,k)=\frac{\Gamma(\alpha+\beta+n+k)}{\Gamma(\alpha+n)\Gamma(\beta+k)}x^{\alpha+n-1}(1-x)^{\beta+k-1} ,因此 f(x;\alpha,\beta,n,p)\propto p(x)\times p(y|x)

结论:因此 \operatorname{B} 分布是二项分布的共轭先验分布,其具有形式不变性。

多项分布

在前面的内容中,从伯努利分布到二项分布,是由一次伯努利试验扩展至n重伯努利试验所得,那么对伯努利试验进一步扩展,便可得到多项式分布。

对于伯努利试验,其结果只有两种,即0/1,表示发生或不发生,而实际生活中,还可能一个事件有多个可能的结果,如投掷骰子,那么重复投掷 n 次骰子,便需要使用多项分布进行建模。

在此我们定义一些符号:试验次数为 n 次,每次试验有 m 种结果,则该随机变量 X 服从多项分布,记作 X\sim Mul(n,m,p_1,\cdots,p_m) ,则其联合分布为:

P{X_=x_1,X_2=x_2,\cdots,X_m=x_m}=\frac{n!}{x_1!x_2!\cdots x_m!}p_1^{x_1}p_2^{x_2}\cdots p_m^{x_m}

其中, \sum_{i=0}^m x_i = n ,表示 n 次试验, x_i 表示第 i 个结果出现的次数, p_i 表示第 i 个结果出现的概率。

多项式分布,对应到机器学习问题中,可以对应为一个多分类问题。

狄利克雷分布

对于二项分布,其有共轭先验分布为 \operatorname{B} 分布,而对于多项分布,其也有共轭先验分布为狄利克雷分布,其概率密度为:

f(x_1,x_2,\cdots,x_m;\alpha_1,\alpha_2,\cdots,\alpha_m) =\frac{1}{\operatorname{B} (\boldsymbol{\alpha)}}\prod\limits_{i=1}^{m}p_i^{\alpha_i}

其中, x_i 表示第 i 个随机变量,而 \alpha_i 为第 i 个随机变量出现的次数, \operatorname{B}(\boldsymbol{\alpha)} 狄利克雷分布系数,为多项Beta函数,即

\operatorname{B}(\boldsymbol{\alpha})= \operatorname{B}(\alpha_1,\cdots,\alpha_m)=\frac{\Gamma(\sum_{i=1}^m \alpha_i)}{\prod_{i=1}^{m} \Gamma(\alpha_i)}

对应于多项分布,则 \alpha_i 对应二项分布的 x_i ,则

\operatorname{B}(\boldsymbol{\alpha}) 与 \frac{n!}{x_1!x_2!\cdots x_m!} 具有相同形式(具体推导可将 \operatorname{B} 函数展开),因此从形式上看狄利克雷分布与多项分布具有相同形式,因此狄利克雷分布是多项分布的共轭先验分布。

在此不做详细推导,有兴趣的可以根据二项分布与 \operatorname{B} 分布的关系进行相似推导。

结论:狄利克雷分布是多项分布的共轭先验分布。

狄利克雷分布在机器学习算法中,是LDA主题模型算法的核心理论依据。

泊松分布

对于随机变量 X ,若其服从泊松分布,则记为 X\sim \pi (\lambda) ,其分布律为:

p(x;\lambda)=\frac{\lambda ^k}{\lambda !}e^{-\lambda}

提及泊松分布的原因是,在二项分布中,若 n 足够大时,可以用泊松分布近似逼近二项分布。实际上,本篇文章未提及Gamma分布,若对泊松分布在实数集上推广,则对概率密度进行积分,对积分取极限后,得到分布函数,该分布函数恰好是Gamma分布。在此不做具体扩展,有需要的可以针对其中的联系,自行查阅资料。

连续性随机变量分布均匀分布

均匀分布是典型的连续型随机变量的概率分布,其可以理解为在数轴随机上取一点,则每取一点的概率都是相等的。若随机变量 X 服从均匀分布,则记为 X\sim \mathbb{U}(a,b) ,均匀分布的概率密度函数为:

f(x)=\left\{\begin{array}{cl}\frac{1}{a-b}, &a < x < b \\ 0. & others\end{array}\right.

均匀分布可以推广为几何概型,若在平面上任取一点,其概率也是相等的,那么取一个面,则即为这些等概率的积分,便可以使用均匀分布的概率密度进行积分求得,即相当于几何概型中的面积之比。

数学期望

\begin{equation}\begin{aligned} \mathbb{E}_{x\sim \mathbb{U}(a,b)} &= \int{-\infty}^{+\infty} x f(x) dx = \int_{a}^b \frac{x}{b-a} dx \\ &= \frac{1}{2(b-a)} x^2 \left\arrowvert_a^b\right.=\frac{a+b}{2} \end{aligned}\end{equation}

方差

\begin{aligned} D(X) &= \mathbb{E}(X^2) - \mathbb{E}(X)^2 \\ \mathbb{E}(X^2) &= \int_a^b \frac{1}{b-a}x^2dx = \frac{1}{3(b-a)}x^3 \left\arrowvert_a^b\right. \\ &= \frac{b^2+a^2+ab}{3} \end{aligned}

D(X) = \frac{b^2+a^2+ab}{3} - \frac{(a+b)^2}{4} = \frac{(b-a)^2}{12}

正态分布

正态分布是自然界中常见的分布,其用途广泛,通常对于随机变量 X ,若其服从正态分布,则记为 X\sim \mathbb{N}(\mu, \sigma^2) ,其 \mu 为正态分布的期望,而 \sigma^2 为正态分布方差。正态分布概率密度如下:

f(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{\frac{(x-\mu)^2}{2\sigma^2}}

与正态分布密切相关且更加常用的分布为标准正态分布,其为期望为 0 ,方差为 1 的正态分布:

f(x)=\frac{1}{\sqrt{2\pi}}e^{\frac{x^2}{2}}

在机器学习领域,对于不同维度的特征,为避免分布差异的干扰,常见的操作是对数据进行标准化,其过程就类似于将正态分布转化为标准正态分布。因此,正态分布与标准正态分布的转化,为后续机器学习的数据标准化提供了一个指导。

正态分布的标准化:令 X' = \frac{x-\mu}{\sigma} ,则 X' \sim \mathbb{N}(0,1) 。

该标准化对应了机器学习的z-score标准化,利用均值和标准差对数据进行缩放。实践证明,在深度学习和机器学习中,对数据进行必要的标准化,可以加速模型的收敛,同时还可一定程度地提升模型精度。指数分布该节内容涵盖的概率论和高数基础较多,所以拿出来,而且指数分布可以由泊松分布推导得出。

对于随机变量 X ,若其服从指数分布,则记为 X\sim \mathbb{E}(\theta) ,其概率密度为:

f(x) = \left\{ \begin{array}{cl} \frac{1}{\theta} e^{-\frac{x}{\theta}}, & x > 0, \\ 0, & x \leq 0 \end{array} \right.

令 \lambda = \frac{1}{\theta} ,则指数分布亦可写成 f(x) = \lambda e^{-\lambda x} .

数学期望

\begin{aligned} \mathbb{E}_{x\sim \mathbb{E}(\lambda)} &= \int{-\infty}^{+\infty} x f(x) \operatorname{d}x = \int_{-\infty}^{+\infty} \lambda x e ^{-\lambda x} \operatorname{d}x \\ &= \int_{-\infty}^{+\infty} -x \operatorname{d} (e^{-\lambda x}) \\ &= -x e^{-\lambda x} + \int_{-\infty}^{+\infty} e^{-\lambda x}\operatorname{d} x \\ &= -x e^{-\lambda x} -\frac{1}{\lambda}e^{-\lambda x} \left\arrowvert_ {-\infty}^{+\infty}\right. = (-x-\frac{1}{\lambda})e^{-\lambda x} \left\arrowvert_ {0}^{+\infty}\right. \\ &= -\frac{1}{\lambda}(\lambda x + 1)e^{-\lambda x} \left\arrowvert_ {0}^{+\infty}\right. = -\frac{1}{\lambda}\left(\frac{\lambda x + 1}{e^{-\lambda x}}\right) \left\arrowvert_ {0}^{+\infty}\right. \end{aligned}

根据极限公式,对 \frac{\lambda x + 1}{e^{-\lambda x}} 求极限,即:

\lim\limits _{x\rightarrow + \infty} \frac{\lambda x + 1}{e^{-\lambda x}} = \frac{(\lambda x + 1)'}{\left(e^{-\lambda x}\right)'} = \frac{\lambda}{-\lambda e^{-\lambda x}} = -\frac{1}{e^{-\lambda x}} \simeq 0

因此,可得期望, \mathbb{E}_{x\sim \mathbb{E}(\lambda)}=-\frac{1}{\lambda}(0-(1))=\frac{1}{\lambda} .

方差

\begin{aligned} D (X) &= \mathbb{E}(X^2) - \mathbb{E}(X)^2 \\ \mathbb{E}\left[(X^2)\right] &= \int_0^{+\infty} x^2 \cdot \lambda e^{-\lambda x} \operatorname{d} x \\ &= -\int_{-\infty}^{+\infty} x^2 \operatorname{d} \left(e^{-\lambda x}\right) = - \left(x^2 e^{-\lambda x} - \int _0^{+\infty}e^{-\lambda x}\operatorname{d}x^2 \right) \\ &= - \left(x^2 e^{-\lambda x} - 2\int_0^{+\infty} x e^{-\lambda x} \operatorname{d} x \right) \end{aligned}

由期望公式的推导可知, \int_{-\infty}^{+\infty} \lambda x e ^{-\lambda x} = \frac{1}{\lambda} ,因此 - \int_0^{+\infty} x e^{-\lambda x} \operatorname{d} x=-\frac{1}{\lambda ^2} . 代入上式,则

\mathbb{E}\left[(X^2)\right] = - \left(x^2 e^{-\lambda x} \right) \left \arrowvert _0^{+\infty} \right. + \frac{2}{\lambda ^2}

对于 \frac{x^2}{e^{\lambda x}} 求极限,根据洛必达法则,则有:

\lim\limits_{x \rightarrow + \infty} \frac{x^2}{e^{\lambda x}} = \frac{2x}{\lambda e^{\lambda x}} = \frac{2}{\lambda ^2 e^{\lambda x}} = 0

则有 \mathbb{E}\left[(X^2)\right]=-\left(0 - 0\right) + \left(\frac{2}{\lambda ^2}\right) = \frac{2}{\lambda ^2} ,因此方差为: D(X) = \frac{2}{\lambda ^2} - \frac{1}{\lambda ^2} = \frac{1}{\lambda ^2}

在机器学习领域,指数分布与广义线性模型有关联,在广义线性模型中与指数分布族有密切联系,并且可以借助其进行最小二乘法的推导

二维随机变量的联合分布

随机变量可以多个组合,共同形成一个分布,即联合分布,如二维随机变量的联合分布。又如随机变量 X,Y ,其有概率密度为 f(x,y) ,则可称其为二维随机变量的联合概率密度。

二维随机变量的联合分布,可以转化为一维随机变量的分布,这便是前面所讲的边缘分布。对于二维随机变量的概率密度,若转化为只含有一个随机变量的概率密度,需要对其他随机变量进行积分,并称所得概率密度为边缘概率密度,记为:

f_X(x)=\int\limits_{y} f(x,y) dy 。

对于二维随机变量的联合分布,若需要求 x,y 满足某种关系的概率,则只需要确定 x,y 的定义域对其积分即可。如 x+y\leq 1 的概率,则 x,y 的定义域为 x \in (-\infty, 1], y \in (-\infty, 1] ,则

P(x+y\leq 1) = \int_{-\infty}^1 \int_{-\infty}^1 f(x,y) dx dy

卷积公式

对于随机变量 X,Y 相互独立,并 X 的概率密度为 f_X(x) , Y 的概率密度为 f_Y(y) ,则求 Z=X+Y 的概率密度,便需要使用卷积公式。

卷积公式:

f_Z(z) = \int _{-\infty}^{+\infty} f(x)f(z-x) dx

若随机变量 X,Y 不相互独立,则必须使用定义求解,即

f_Z(z) = \int _{-\infty}^{+\infty} f(x, z-x) d x

参数估计之最大似然估计这部分内容在机器学习中比较关键,因为在机器学习概率模型中,训练的过程实际上就是搜索最优参数的过程。

参数估计与机器学习密切相关,在这里又需要在讨论一下机器学习的两大流派:1. 频率派;2. 贝叶斯派。频率派认为,模型的参数虽然未知,但却是客观存在的固定值。而贝叶斯派认为,模型的参数未知,但是参数也可被视为一个随机变量,其本身也应该有一个分布,因此贝叶斯派会假定参数服从一个先验分布,然后通过观测数据来计算参数的后验分布。

最大似然估计,是频率派的代表方法,使用频率来估计模型的参数。

使用最大似然估计方法估测模型参数,一般采取以下步骤:

根据模型(分布),写出模型的似然函数;对似然函数作处理,即保证样本出现的概率值最大,根据独立同分布原则,将似然函数改写为连乘形式( \prod ),即 \mathcal{L}(P(\theta|X))=P(X|\theta)=\prod\limits_i^n P(x_i|\theta) ;为求得最大值,需对似然函数求导,取导数为 0 ,由于连乘的导数难以计算,则可以考虑在似然函数两边取对数,即对数似然函数 \ell \left(P(\theta|X)\right)=\log \left(\prod\limits_i^n P(x_i|\theta\right)=\sum_{i=1}^n \log \left(P(x_i|\theta)\right) ;对对数函数求所估参数的偏导,取导数为 0 ,解出值,并改写为 \hat{\theta} 形式。

基于正态分布的参数估计例子:

设随机变量 X \sim \mathbb{N}(\mu, \sigma^2) ,已知一组观测值为 x_1, x_2,\cdots, x_n ,求 \mu 及 \sigma 的值。

\begin{aligned} \mathcal{L}(\mu, \sigma|x_1, x_2,\cdots, x_n) &= \arg \max_{\mu, \sigma} P(x_1, x_2,\cdots, x_n | \mu, \sigma) \\ &= \arg\max_{\mu, \sigma} \prod_ {i=1}^n P(x_i|\mu, \sigma) \\ \ell = \ln \mathcal{L}(\mu, \sigma|x_1, x_2,\cdots, x_n) &= \arg\max_{\mu, \sigma}\ln \prod _{i=1}^n P(x_i|\mu, \sigma) \\ &= \arg\max_{\mu, \sigma} \sum_{i=1}^n \ln P(x_i|\mu, \sigma) \\ &= \arg\max_{\mu, \sigma} \sum_{i=1}^n \ln \left(\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{\left(x_i-\mu\right)^2}{2\sigma ^2}}\right) \\ &= \arg\max_{\mu, \sigma} \left[ n \ln \left(\frac{1}{\sqrt{2\pi}\sigma}\right)- \sum_{i=1}^n \left(\frac{1}{2\sigma^2}(x_i-\mu)^2\right) \right] \\ \end{aligned}

为估计 \mu 的值, \ell 关于 \mu 求偏导,即:

\begin{aligned} &\frac{\partial \ell}{\partial \mu} = - \frac{1}{\sigma^2}\left(\sum_{i=1}^n x_i - 1 \right) = 0 \\ &\sum_{i=1}^n (x_i - \mu ) = 0 \\ &\sum_{i=1}^n x_i = n \mu \\ \therefore & \hat{\mu} = \frac{1}{n}\sum_{i=1}^n x_i = \bar{x} \end{aligned}

同理,对 \sigma 求偏导,可得 \sigma 的估计值:

\begin{aligned} & \frac{\partial \ell}{\partial \sigma} = -n \ln ' \left(\sqrt{2\pi}\sigma\right) - \sum_{i=1}^n (x_i-\mu)^2 \left(\frac{1}{2\sigma^2}\right)' \\ & = -n \cdot \frac{1}{\sqrt{2\pi}\sigma} \cdot \sqrt{2\pi} - \sum_{i=1}^n (x_i-\mu)^2 \frac{1}{-\sigma^3}=0 \\ & -\frac{n}{\sigma} +\frac{1}{\sigma^3} \sum_{i=1}^n (x_i-\mu)^2 = 0 \\ & -n + \frac{1}{\sigma^2} \sum_{i=1}^n (x_i-\mu)^2 = 0 \\ & \frac{1}{n}\sum_{i=1}^n (x_i-\mu)^2 =\sigma^2 \\ & \therefore \hat{\sigma} = \sqrt{\frac{\sum_{i=1}^n (x_i-\mu)^2}{n}} \end{aligned}

对照上述结果,便可通过观测数据,使用统计方法,估测模型的参数。

不仅如此,最大化对数似然函数通常作为深度学习模型的目标函数进行使用,又等价于最小化负对数似然,因此在深度学习中有一个损失函数为NLL损失,即Negative Log loss。此外,NLL还与交叉熵有密切联系,在多分类任务中,借助最大似然估计和前面提及的多项分布,可以推导出交叉熵损失函数的形式。

最大似然与交叉熵的推导本篇文章不做扩展,后续在信息熵理论中做进一步探讨。

Jensen 不等式

期望使用 \mathbb{E}(X) 表示,对于离散型随机变量 X , \mathbb{E}(X)=\sum\limits_x xp(x) ,若为连续型随机变量,则有 \mathbb{E}(X)=\int_{-\infty}^{\infty} xf(x) ,其中 f(x) 为 X 的概率密度函数。若对于随机变量 X 有 Y=g(X) ,则 \mathbb{E}(Y)=\mathbb{E}(g(X)) ,若 X 为离散型随机变量,则 \mathbb{E}(Y)=\sum\limits_x p(x)g(x) ,若为连续性随机变量,则 \mathbb{E}(Y)=\int_{-\infty}^{\infty} g(x)f(x) .

若一个分布函数为凸函数,则有 \mathbb{E}\left(f(x)\right) \geq f\left(\mathbb{E}(X)\right) ,同理,若一个函数为凹函数,则 \mathbb{E}\left(f(x)\right) \leq f\left(\mathbb{E}(X)\right) 。若随机变量 X 为离散型随机变量,则期望为求和,若为连续型随机变量,则期望为积分。

这里提及这个表达式,主要是在机器学习中有个很经典的算法为EM算法,该算法推导过程中需要借助Jensen不等式

参考文献随机变量-wikipedia概率-Wikipedia条件概率-Wikipedia方差-百度百科概率密度函数-百度百科多项分布-百度百科https://face2ai.com/math-probability-5-9-multinomial-distribution/机器学习笔记-Github


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有