两个高斯分布KL散度推导

您所在的位置:网站首页 密度的不确定度公式推导 两个高斯分布KL散度推导

两个高斯分布KL散度推导

2024-07-15 22:57:31| 来源: 网络整理| 查看: 265

KL散度基本概念

Kullback-Leibler 散度(KL散度),也称为相对熵,是衡量两个概率分布相对差异的一种方法。它是信息论中的一个概念,由Solomon Kullback和Richard Leibler在1951年提出。KL散度是非对称的,这意味着从分布 P P P到分布 Q Q Q的KL散度通常不等于从分布 Q Q Q到分布 P P P的KL散度。

对于离散随机变量,KL散度定义为:

D K L ( P ∥ Q ) = ∑ x P ( x ) log ⁡ ( P ( x ) Q ( x ) ) D_{KL}(P \parallel Q) = \sum_{x} P(x) \log \left(\frac{P(x)}{Q(x)}\right) DKL​(P∥Q)=∑x​P(x)log(Q(x)P(x)​)

其中, P P P和 Q Q Q是两个概率分布,且 P ( x ) P(x) P(x)是在 x x x处 P P P的概率,而 Q ( x ) Q(x) Q(x)是在 x x x处 Q Q Q的概率。对数底通常为2(比特为单位)或 e e e(自然单位)。

对于连续随机变量,KL散度通过概率密度函数来定义,并通过积分来计算:

D K L ( P ∥ Q ) = ∫ − ∞ ∞ p ( x ) log ⁡ ( p ( x ) q ( x ) ) d x D_{KL}(P \parallel Q) = \int_{-\infty}^{\infty} p(x) \log \left(\frac{p(x)}{q(x)}\right) dx DKL​(P∥Q)=∫−∞∞​p(x)log(q(x)p(x)​)dx

其中, p ( x ) p(x) p(x)和 q ( x ) q(x) q(x)分别是连续随机变量的两个概率密度函数。

KL散度在机器学习、统计建模和信息论中有广泛的应用,例如在模型选择、贝叶斯推理和变分推断中。

两个高斯分布KL散度推导

计算两个连续概率分布的KL散度涉及积分运算,因为连续分布的概率是通过概率密度函数 (pdf) 定义的。

这里是一个计算两个高斯分布KL散度的例子,其中 p ( x ) p(x) p(x)是均值为 μ 1 \mu_1 μ1​和方差为 σ 1 2 \sigma_1^2 σ12​的分布, q ( x ) q(x) q(x)是均值为 μ 2 \mu_2 μ2​和方差为 σ 2 2 \sigma_2^2 σ22​的分布:

D K L ( P ∥ Q ) = log ⁡ ( σ 2 σ 1 ) + σ 1 2 + ( μ 1 − μ 2 ) 2 2 σ 2 2 − 1 2 D_{KL}(P \parallel Q) = \log\left(\frac{\sigma_2}{\sigma_1}\right) + \frac{\sigma_1^2 + (\mu_1 - \mu_2)^2}{2\sigma_2^2} - \frac{1}{2} DKL​(P∥Q)=log(σ1​σ2​​)+2σ22​σ12​+(μ1​−μ2​)2​−21​

具体推导如下:

设 P P P为均值 μ 1 \mu_1 μ1​、方差 σ 1 2 \sigma_1^2 σ12​的高斯分布, Q Q Q为均值 μ 2 \mu_2 μ2​、方差 σ 2 2 \sigma_2^2 σ22​的高斯分布。它们的概率密度函数分别为:

p ( x ) = 1 2 π σ 1 2 e − ( x − μ 1 ) 2 2 σ 1 2 p(x) = \frac{1}{\sqrt{2\pi\sigma_1^2}} e^{-\frac{(x-\mu_1)^2}{2\sigma_1^2}} p(x)=2πσ12​ ​1​e−2σ12​(x−μ1​)2​ q ( x ) = 1 2 π σ 2 2 e − ( x − μ 2 ) 2 2 σ 2 2 q(x) = \frac{1}{\sqrt{2\pi\sigma_2^2}} e^{-\frac{(x-\mu_2)^2}{2\sigma_2^2}} q(x)=2πσ22​ ​1​e−2σ22​(x−μ2​)2​

KL散度定义为:

D K L ( P ∥ Q ) = ∫ − ∞ ∞ p ( x ) log ⁡ ( p ( x ) q ( x ) ) d x D_{KL}(P \parallel Q) = \int_{-\infty}^{\infty} p(x) \log\left(\frac{p(x)}{q(x)}\right) dx DKL​(P∥Q)=∫−∞∞​p(x)log(q(x)p(x)​)dx

将高斯密度函数代入,分解对数项并简化:

D K L ( P ∥ Q ) = ∫ − ∞ ∞ p ( x ) [ log ⁡ ( σ 2 σ 1 ) − ( x − μ 1 ) 2 2 σ 1 2 + ( x − μ 2 ) 2 2 σ 2 2 ] d x D_{KL}(P \parallel Q) = \int_{-\infty}^{\infty} p(x) \left[ \log\left(\frac{\sigma_2}{\sigma_1}\right) - \frac{(x-\mu_1)^2}{2\sigma_1^2} + \frac{(x-\mu_2)^2}{2\sigma_2^2} \right] dx DKL​(P∥Q)=∫−∞∞​p(x)[log(σ1​σ2​​)−2σ12​(x−μ1​)2​+2σ22​(x−μ2​)2​]dx

接下来分三个部分积分:

第一部分是 log ⁡ ( σ 2 σ 1 ) \log\left(\frac{\sigma_2}{\sigma_1}\right) log(σ1​σ2​​)乘以 p ( x ) p(x) p(x)的积分,即:

∫ − ∞ ∞ p ( x ) log ⁡ ( σ 2 σ 1 ) d x = log ⁡ ( σ 2 σ 1 ) \int_{-\infty}^{\infty} p(x) \log\left(\frac{\sigma_2}{\sigma_1}\right) dx = \log\left(\frac{\sigma_2}{\sigma_1}\right) ∫−∞∞​p(x)log(σ1​σ2​​)dx=log(σ1​σ2​​)

因为 p ( x ) p(x) p(x)的积分(即概率)总和为1。

第二部分是 ( x − μ 1 ) 2 2 σ 1 2 \frac{(x-\mu_1)^2}{2\sigma_1^2} 2σ12​(x−μ1​)2​乘以 p ( x ) p(x) p(x)的积分。由于 ( x − μ 1 ) 2 (x-\mu_1)^2 (x−μ1​)2是 p ( x ) p(x) p(x)的方差项(换而言之这个积分就是 V a r ( X ) = E [ ( X − E [ X ] ) 2 ] Var(X) = E[(X - E[X])^2] Var(X)=E[(X−E[X])2]),根据高斯分布定义,其积分等于 σ 1 2 \sigma_1^2 σ12​,即:

∫ − ∞ ∞ p ( x ) ( x − μ 1 ) 2 2 σ 1 2 d x = 1 2 \int_{-\infty}^{\infty} p(x) \frac{(x-\mu_1)^2}{2\sigma_1^2} dx = \frac{1}{2} ∫−∞∞​p(x)2σ12​(x−μ1​)2​dx=21​

第三部分是 ( x − μ 2 ) 2 2 σ 2 2 \frac{(x-\mu_2)^2}{2\sigma_2^2} 2σ22​(x−μ2​)2​乘以 p ( x ) p(x) p(x)的积分。由于 x x x的分布与 μ 2 \mu_2 μ2​和 σ 2 \sigma_2 σ2​无关,这个积分涉及到展开 ( x − μ 2 ) 2 (x-\mu_2)^2 (x−μ2​)2并完成积分。

为了计算这个积分,我们首先将 ( x − μ 2 ) 2 (x-\mu_2)^2 (x−μ2​)2展开:

( x − μ 2 ) 2 = x 2 − 2 x μ 2 + μ 2 2 (x-\mu_2)^2 = x^2 - 2x\mu_2 + \mu_2^2 (x−μ2​)2=x2−2xμ2​+μ22​

然后,我们将展开后的表达式代入积分中,得到三个部分:

1 2 σ 2 2 [ ∫ − ∞ ∞ x 2 p ( x ) d x − 2 μ 2 ∫ − ∞ ∞ x p ( x ) d x + μ 2 2 ∫ − ∞ ∞ p ( x ) d x ] \frac{1}{2\sigma_2^2} \left[ \int_{-\infty}^{\infty} x^2 p(x) dx - 2\mu_2 \int_{-\infty}^{\infty} x p(x) dx + \mu_2^2 \int_{-\infty}^{\infty} p(x) dx \right] 2σ22​1​[∫−∞∞​x2p(x)dx−2μ2​∫−∞∞​xp(x)dx+μ22​∫−∞∞​p(x)dx]

接下来,我们计算每个部分:

第一部分是关于 x 2 x^2 x2的高斯积分,可以通过将 x x x视为 x = ( x − μ 1 ) + μ 1 x = (x-\mu_1)+\mu_1 x=(x−μ1​)+μ1​并展开 x 2 x^2 x2,然后使用高斯积分的已知结果来计算。这个部分的结果是 σ 1 2 + μ 1 2 \sigma_1^2 + \mu_1^2 σ12​+μ12​。

第二部分是关于 x x x的高斯积分,它是 μ 1 \mu_1 μ1​,因为 x x x的期望值是 μ 1 \mu_1 μ1​。

第三部分是一个标准的高斯积分,其结果是 1,因为高斯分布的总积分为 1。

将这些结果组合起来,我们得到:

1 2 σ 2 2 [ ( σ 1 2 + μ 1 2 ) − 2 μ 2 μ 1 + μ 2 2 ] \frac{1}{2\sigma_2^2} \left[ (\sigma_1^2 + \mu_1^2) - 2\mu_2\mu_1 + \mu_2^2 \right] 2σ22​1​[(σ12​+μ12​)−2μ2​μ1​+μ22​]

简化后得到:

1 2 σ 2 2 ( σ 1 2 + ( μ 1 − μ 2 ) 2 ) \frac{1}{2\sigma_2^2} (\sigma_1^2 + (\mu_1 - \mu_2)^2) 2σ22​1​(σ12​+(μ1​−μ2​)2)

所以,

∫ − ∞ ∞ p ( x ) ( x − μ 2 ) 2 2 σ 2 2 d x = σ 1 2 + ( μ 1 − μ 2 ) 2 2 σ 2 2 \int_{-\infty}^{\infty} p(x) \frac{(x-\mu_2)^2}{2\sigma_2^2} dx = \frac{\sigma_1^2 + (\mu_1 - \mu_2)^2}{2\sigma_2^2} ∫−∞∞​p(x)2σ22​(x−μ2​)2​dx=2σ22​σ12​+(μ1​−μ2​)2​

将这三个部分合并,我们得到:

D K L ( P ∥ Q ) = log ⁡ ( σ 2 σ 1 ) + σ 1 2 + ( μ 1 − μ 2 ) 2 2 σ 2 2 − 1 2 D_{KL}(P \parallel Q) = \log\left(\frac{\sigma_2}{\sigma_1}\right) + \frac{\sigma_1^2 + (\mu_1 - \mu_2)^2}{2\sigma_2^2} - \frac{1}{2} DKL​(P∥Q)=log(σ1​σ2​​)+2σ22​σ12​+(μ1​−μ2​)2​−21​

这是两个高斯分布之间的KL散度的封闭形式解。



【本文地址】

公司简介

联系我们

今日新闻


点击排行

实验室常用的仪器、试剂和
说到实验室常用到的东西,主要就分为仪器、试剂和耗
不用再找了,全球10大实验
01、赛默飞世尔科技(热电)Thermo Fisher Scientif
三代水柜的量产巅峰T-72坦
作者:寞寒最近,西边闹腾挺大,本来小寞以为忙完这
通风柜跟实验室通风系统有
说到通风柜跟实验室通风,不少人都纠结二者到底是不
集消毒杀菌、烘干收纳为一
厨房是家里细菌较多的地方,潮湿的环境、没有完全密
实验室设备之全钢实验台如
全钢实验台是实验室家具中较为重要的家具之一,很多

推荐新闻


图片新闻

实验室药品柜的特性有哪些
实验室药品柜是实验室家具的重要组成部分之一,主要
小学科学实验中有哪些教学
计算机 计算器 一般 打孔器 打气筒 仪器车 显微镜
实验室各种仪器原理动图讲
1.紫外分光光谱UV分析原理:吸收紫外光能量,引起分
高中化学常见仪器及实验装
1、可加热仪器:2、计量仪器:(1)仪器A的名称:量
微生物操作主要设备和器具
今天盘点一下微生物操作主要设备和器具,别嫌我啰嗦
浅谈通风柜使用基本常识
 众所周知,通风柜功能中最主要的就是排气功能。在

专题文章

    CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭