高斯混合模型原理及实现(Gaussian Mixture Models)

您所在的位置：网站首页 › 高斯混合模型应用案例 › 高斯混合模型原理及实现(Gaussian Mixture Models)

高斯混合模型原理及实现(Gaussian Mixture Models)

2024-07-17 03:02:56| 来源: 网络整理| 查看: 265

项目地址：https://github.com/Daya-Jin/ML_for_learner/blob/master/mixture/GaussianMixture.ipynb 原博客：https://daya-jin.github.io/2019/03/15/Gaussian_Mixture_Models/

算法概述

高斯混合模型(Gaussian Mixture Models)是一种无监督聚类模型。GMM认为不同类别的特征密度函数是不一样的(实际上也不一样)，GMM为每个类别下的特征分布都假设了一个服从高斯分布的概率密度函数：

$\begin{aligned} P(x|c_{k})&=\frac{1}{\sqrt{2\pi}\sigma_{k}}exp(-\frac{(x-\mu_{k})^{2}}{2\sigma_{k}^2}) \\ P(x|c_{k})&{\sim}N(\mu_{k},\sigma_{k}) \\ \end{aligned}$

而数据中又可能是由多个类混合而成，所以数据中特征的概率密度函数可以使用多个高斯分布的组合来表示：

$\begin{aligned} P(x)&=\sum\limits_{k=1}^{K}P(c_{k})P(x|c_{k}) \\ &=\sum\limits_{k=1}^{K}\pi_{k}N(x|\mu_{k},\sigma_{k}) \\ \end{aligned}$

其中 $\pi_{k}$ 为类分布概率，也可看做是各高斯分布函数的权重系数，也叫做混合系数(mixture coefficient)，其满足 $\sum_{k=1}^{K}\pi_{k}=1$ 。

Expectation-Maximization

模型的形式有了，给定一组数据 $X$ ，我们需要得到一组参数 $\{\mu,\sigma\}$ ，使得在这组参数下观测数据 $X$ 出现的概率最大，即最大似然估计。对于数据中的所有样本，其出现的概率(似然函数)为：

$\prod\limits_{i=1}^{N}P(x_{i})=\prod\limits_{i=1}^{N}\sum\limits_{k=1}^{K}\pi_{k}N(x_{i}|\mu_{k},\sigma_{k})$

对数似然函数为：

$\sum\limits_{i=1}^{N}\ln\{\sum\limits_{k=1}^{K}\pi_{k}N(x_{i}|\mu_{k}\sigma_{k})\}$

假设我们现在有了参数 $\{\mu,\sigma\}$ ，需要计算某个样本对应的类簇，由贝叶斯公式有：

$\begin{aligned} P(c_{k}|x_{i})&=\frac{P(c_{k},x_{i})}{P(x_{i})} \\ &=\frac{P(x_{i}|c_{k})P(c_{k})}{P(x_{i})} \\ &=\frac{\pi_{k}N(x_{i}|\mu_{k},\sigma_{k})}{\sum\limits_{k=1}^{K}\pi_{k}N(x_{i}|\mu_{k},\sigma_{k})} \end{aligned}$

可以看出就是一个softmax的形式。同时，有了 $P(c_{k}\|x_{i})$ 之后，又可以计算出某个类别的分布概率与该类别下的统计量：

$\begin{aligned} N_{k}&=\sum\limits_{i=1}^{N}P(c_{k}|x_{i}) \\ \pi_{k}&=\frac{N_{k}}{N}=\frac{1}{N}\sum\limits_{i=1}^{N}P(c_{k}|x_{i}) \\ \mu_{k}&=\frac{1}{N_{k}}\sum\limits_{i=1}^{N}P(c_{k}|x_{i})x_{i} \\ \sigma_{k}&=\sqrt{\frac{1}{N_{k}}\sum\limits_{i=1}^{N}P(c_{k}|x_{i})(x_{i}-\mu_{k})^{2}} \\ \end{aligned}$

其中 $N_{k}$ 为类别 $k$ 出现的频率期望。

以上两步计算实质上对应了期望最大化(Expectation-Maximization)算法的E步(E-step)跟M步(M-step)。

多维数据时的情况

在多维数据下，需要为每个类生成一个多维高斯分布，表示方式与单维情况稍有不同：

$N(x_{i}|\mu_{k},\Sigma_{k})=\frac{1}{(2\pi)^{n/2}\Sigma_{k}^{1/2}}exp(-\frac{1}{2}(x_{i}-\mu_{k})^{T}\Sigma_{k}^{-1}(x_{i}-\mu_{k}))$

训练

有了算法框架，怎么训练模型呢。在初始时随机生成 $K$ 个高斯分布，然后不断地迭代EM算法，直至似然函数变化不再明显或者达到了最大迭代次数。

E-step

在给定的多维高斯分布下，计算各样本属于各个类别的概率：

$P(c_{k}|x_{i})=\frac{\pi_{k}P(c_{k}|x_{i})}{\sum\limits_{k=1}^{K}\pi_{k}P(c_{k}|x_{i})}$

M_step

根据概率重新计算更优的高斯参数：

$\begin{aligned} N_{k}&=\sum\limits_{x=1}^{N}P(c_{k}|x_{i}) \\ \pi_{k}&=\frac{N_{k}}{N} \\ \mu_{k}&=\frac{1}{N_{k}}\sum\limits_{i=1}^{N}P(c_{k}|x_{i})x_{i} \\ \Sigma_{k}&=\frac{1}{N_{k}}\sum\limits_{i=1}^{N}P(c_{k}|x_{i})(x_{i}-\mu_{k})^{T}(x_{i}-\mu_{k}) \\ \end{aligned}$

实现指导

完整代码

【本文地址】

公司简介

联系我们

今日新闻

点击排行

实验室常用的仪器、试剂和: 说到实验室常用到的东西，主要就分为仪器、试剂和耗

不用再找了，全球10大实验: 01、赛默飞世尔科技（热电）Thermo Fisher Scientif

三代水柜的量产巅峰T-72坦: 作者：寞寒最近，西边闹腾挺大，本来小寞以为忙完这

通风柜跟实验室通风系统有: 说到通风柜跟实验室通风，不少人都纠结二者到底是不

集消毒杀菌、烘干收纳为一: 厨房是家里细菌较多的地方，潮湿的环境、没有完全密

实验室设备之全钢实验台如: 全钢实验台是实验室家具中较为重要的家具之一，很多

图片新闻

实验室药品柜的特性有哪些: 实验室药品柜是实验室家具的重要组成部分之一，主要

小学科学实验中有哪些教学: 计算机计算器一般打孔器打气筒仪器车显微镜

实验室各种仪器原理动图讲: 1.紫外分光光谱UV分析原理：吸收紫外光能量，引起分

高中化学常见仪器及实验装: 1、可加热仪器：2、计量仪器：（1）仪器A的名称：量

微生物操作主要设备和器具: 今天盘点一下微生物操作主要设备和器具，别嫌我啰嗦

浅谈通风柜使用基本常识: 　众所周知，通风柜功能中最主要的就是排气功能。在

高斯混合模型原理及实现(Gaussian Mixture Models)

高斯混合模型原理及实现(Gaussian Mixture Models)

今日新闻

点击排行

推荐新闻

图片新闻

专题文章