机器学习：Kullback

2023-11-25 05:30| 来源: 网络整理| 查看: 265

今天，我们介绍机器学习里非常常用的一个概念，KL 散度，这是一个用来衡量两个概率分布的相似性的一个度量指标。我们知道，现实世界里的任何观察都可以看成表示成信息和数据，一般来说，我们无法获取数据的总体，我们只能拿到数据的部分样本，根据数据的部分样本，我们会对数据的整体做一个近似的估计，而数据整体本身有一个真实的分布（我们可能永远无法知道），那么近似估计的概率分布和数据整体真实的概率分布的相似度，或者说差异程度，可以用 KL 散度来表示。

KL 散度，最早是从信息论里演化而来的，所以在介绍 KL 散度之前，我们要先介绍一下信息熵。信息熵的定义如下：

H = − ∑ i = 1 N p ( x i ) log ⁡ p ( x i ) H = - \sum_{i=1}^{N} p(x_i) \log p(x_i) H=−i=1∑Np(xi)logp(xi)

p ( x i ) p(x_i) p(xi) 表示事件 x i x_i xi 发生的概率，信息熵其实反映的就是要表示一个概率分布需要的平均信息量。

在信息熵的基础上，我们定义 KL 散度为：

D K L ( p ∣ ∣ q ) = ∑ i = 1 N p ( x i ) ⋅ ( log ⁡ p ( x i ) − log ⁡ ( q ( x i ) ) D_{KL} (p || q) = \sum_{i=1}^{N} p(x_i) \cdot ( \log p(x_i) - \log(q(x_i)) DKL(p∣∣q)=i=1∑Np(xi)⋅(logp(xi)−log(q(xi))

或者表示成下面这种形式：

D K L ( p ∣ ∣ q ) = ∑ i = 1 N p ( x i ) ⋅ log ⁡ p ( x i ) q ( x i ) D_{KL} (p || q) = \sum_{i=1}^{N} p(x_i) \cdot \log \frac { p(x_i) }{ q(x_i)} DKL(p∣∣q)=i=1∑Np(xi)⋅logq(xi)p(xi)

D K L ( p ∣ ∣ q ) D_{KL} (p || q) DKL(p∣∣q) 表示的就是概率 q q q 与概率 p p p 之间的差异，很显然，散度越小，说明概率 q q q 与概率 p p p 之间越接近，那么估计的概率分布于真实的概率分布也就越接近。

KL 散度可以帮助我们选择最优的参数，比如 p ( x ) p(x) p(x) 是我们需要估计的一个未知的分布，我们无法直接得知 p ( x ) p(x) p(x) 的分布，不过我们可以建立一个分布 q ( x ∣ θ ) q(x | \theta) q(x∣θ) 去估计 p ( x ) p(x) p(x)，为了确定参数 θ \theta θ，虽然我们无法得知 p ( x ) p(x) p(x) 的真实分布，但可以利用采样的方法，从 p ( x ) p(x) p(x) 中采样 N N N 个样本，构建如下的目标函数：

D K L ( p ∣ ∣ q ) = ∑ i = 1 N { log ⁡ p ( x i ) − log ⁡ q ( x i ∣ θ ) } D_{KL} (p || q) = \sum_{i=1}^{N} \{ \log p(x_i) - \log q(x_i | \theta ) \} DKL(p∣∣q)=i=1∑N{logp(xi)−logq(xi∣θ)}

因为我们要预估的是参数 θ \theta θ，上面的第一项 log ⁡ p ( x i ) \log p(x_i) logp(xi) 与参数 θ \theta θ 无关，所以我们要优化的其实是 − log ⁡ q ( x i ∣ θ ) - \log q(x_i | \theta ) −logq(xi∣θ)，而这个就是我们熟悉的最大似然估计。

【本文地址】

公司简介

联系我们