EM算法及对GMM的参数估计(EM算法的R实现 vs R mclust包) 您所在的位置:网站首页 正态分布求极大似然 EM算法及对GMM的参数估计(EM算法的R实现 vs R mclust包)

EM算法及对GMM的参数估计(EM算法的R实现 vs R mclust包)

2024-07-16 05:24| 来源: 网络整理| 查看: 265

加入隐变量后能够简化模型的解法 在概率模型中,加入隐变量后不能改变数据的边缘分布,即要满足P(X|Θ)=∫zP(X|Z,Θ)P(Z|Θ)dzP(X|Θ)=∫zP(X|Z,Θ)P(Z|Θ)dz

【GMM中的隐变量 Z={z1,z2,...,zn} Z = { z 1 , z 2 , . . . , z n } 】

观测数据 xi x i ( i=1,2,...,n i = 1 , 2 , . . . , n )是这样产生的:首先依照各高斯的权重 αl α l ,选出第 l l 个高斯分布,然后依照第ll个高斯的概率分布 N(X|θl) N ( X | θ l ) 生成观测数据 xi x i 。这时观测数据 xi x i ( i=1,2,...,n i = 1 , 2 , . . . , n )是已知的,反映观测数据 xi x i 属于哪一个高斯分模型的数据是未知的,将这个未知的、观测不到的数据称为隐变量 zi z i ( i=1,2,...,n i = 1 , 2 , . . . , n )。显然, zi∈{1,2,...,k} z i ∈ { 1 , 2 , . . . , k } 。

xi→zi:样本点xi属于第zi个高斯分布 x i → z i : 样 本 点 x i 属 于 第 z i 个 高 斯 分 布

【EM算法的收敛性】

EM算法的核心就是按照 Θ(g+1) Θ ( g + 1 ) 和 Θ(g) Θ ( g ) 之间的等式关系,不断去更新参数,并且能保证每一次更新,都使得对数似然函数逐渐增大。证明EM算法的收敛性:

P(X|Θ)=P(X,Z|Θ)P(Z|X,Θ) P ( X | Θ ) = P ( X , Z | Θ ) P ( Z | X , Θ )

等式两边取对数并以 P(Z|X,Θ(g)) P ( Z | X , Θ ( g ) ) 为概率分布求期望:

E[logP(X|Θ)]=E[logP(X,Z|Θ)]−E[logP(Z|X,Θ)] E [ l o g P ( X | Θ ) ] = E [ l o g P ( X , Z | Θ ) ] − E [ l o g P ( Z | X , Θ ) ]

则等式左边写为:

∫zP(Z|X,Θ(g))logP(X|Θ)dz=logP(X|Θ)∫zP(Z|X,Θ(g))dz=logP(X|Θ) ∫ z P ( Z | X , Θ ( g ) ) l o g P ( X | Θ ) d z = l o g P ( X | Θ ) ∫ z P ( Z | X , Θ ( g ) ) d z = l o g P ( X | Θ )

等式右边写为:

∫zP(Z|X,Θ(g))logP(X,Z|Θ)dz−∫zP(Z|X,Θ(g))logP(Z|X,Θ)dz=Q(Θ,Θ(g))−H(Θ,Θ(g)) ∫ z P ( Z | X , Θ ( g ) ) l o g P ( X , Z | Θ ) d z − ∫ z P ( Z | X , Θ ( g ) ) l o g P ( Z | X , Θ ) d z = Q ( Θ , Θ ( g ) ) − H ( Θ , Θ ( g ) )

由Jensens不等式可以证明 H(Θ(g),Θ(g))≥H(Θ,Θ(g)),∀Θ H ( Θ ( g ) , Θ ( g ) ) ≥ H ( Θ , Θ ( g ) ) , ∀ Θ

从而对于任意一次迭代更新参数 Θ(g+1) Θ ( g + 1 ) ,都有 H(Θ(g),Θ(g))≥H(Θ(g+1),Θ(g)) H ( Θ ( g ) , Θ ( g ) ) ≥ H ( Θ ( g + 1 ) , Θ ( g ) )

因此,只要 argmax{Q(Θ,Θ(g))} a r g m a x { Q ( Θ , Θ ( g ) ) } ,就能保证对数似然函数的最大化。注意 Q Q 函数中,Θ(g)Θ(g)是上一次迭代后得到的固定常数,而 Θ Θ 是一个变量,作 argmax a r g m a x 不会改变 Θ(g) Θ ( g ) 的值。

【EM算法的核心定义:E-step】

上述 Q(Θ,Θ(g)) Q ( Θ , Θ ( g ) ) 可以看作函数 logP(X,Z|Θ) l o g P ( X , Z | Θ ) 以概率分布 P(Z|X,Θ(g)) P ( Z | X , Θ ( g ) ) 求期望,其定义如下:

观测值与隐变量的联合概率:

P(X,Z|Θ)=∏i=1np(xi,zi|Θ)=∏i=1np(xi|zi,Θ)p(zi|Θ)=∏i=1nαziN(xi|μzi,Σzi) P ( X , Z | Θ ) = ∏ i = 1 n p ( x i , z i | Θ ) = ∏ i = 1 n p ( x i | z i , Θ ) p ( z i | Θ ) = ∏ i = 1 n α z i N ( x i | μ z i , Σ z i )

在对应观测值已知的情况下,该观测值来源于哪个高斯的条件概率:

P(Z|X,Θ(g))=∏i=1np(zi|xi,Θ(g))=∏i=1nαziN(xi|μzi,Σzi)∑kl=1αlN(xi|μl,Σl) P ( Z | X , Θ ( g ) ) = ∏ i = 1 n p ( z i | x i , Θ ( g ) ) = ∏ i = 1 n α z i N ( x i | μ z i , Σ z i ) ∑ l = 1 k α l N ( x i | μ l , Σ l )

【求解 Θ(g+1) Θ ( g + 1 ) :M-step】

将上述函数的定义代入 Q(Θ,Θ(g)) Q ( Θ , Θ ( g ) ) ,求导令其为零,得到 Θ(g+1) Θ ( g + 1 ) 的值:

α(g+1)l=∑ni=1p(l|xi,Θ(g))n α l ( g + 1 ) = ∑ i = 1 n p ( l | x i , Θ ( g ) ) n

μ(g+1)l=∑ni=1xip(l|xi,Θ(g))∑ni=1p(l|xi,Θ(g)) μ l ( g + 1 ) = ∑ i = 1 n x i p ( l | x i , Θ ( g ) ) ∑ i = 1 n p ( l | x i , Θ ( g ) )

Σ(g+1)l=∑ni=1[xi−μ(i+1)l][xi−μ(i+1)l]Tp(l|xi,Θ(g))∑ni=1p(l|xi,Θ(g)) Σ l ( g + 1 ) = ∑ i = 1 n [ x i − μ l ( i + 1 ) ] [ x i − μ l ( i + 1 ) ] T p ( l | x i , Θ ( g ) ) ∑ i = 1 n p ( l | x i , Θ ( g ) )

其中, p(l|xi,Θ(g)) p ( l | x i , Θ ( g ) ) 称为responsibility probability,它是指当得到样本点 xi x i 后,该样本点属于第 l l 个高斯分布的概率。



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有