直观解读KL散度的数学概念 |
您所在的位置:网站首页 › 中药kl是什么意思 › 直观解读KL散度的数学概念 |
KL 散度是一种衡量两个概率分布的匹配程度的指标,两个分布差异越大,KL散度越大。 定义如下: D K L ( p ∣ ∣ q ) = ∑ i = 1 N p ( x i ) l o g p ( x i ) q ( x i ) D_{KL}(p||q)=\sum^N_{i=1}p(x_i)log\frac{p(x_i)}{q(x_i)} DKL(p∣∣q)=∑i=1Np(xi)logq(xi)p(xi) 其中 p(x) 是目标分布,q(x)是去匹配的分布,如果两个分布完全匹配,那么 D K L ( p ∣ ∣ q ) = 0 D_{KL}(p||q)=0 DKL(p∣∣q)=0 KL 散度又叫相对熵,在信息论中,描述的是q去拟合p的产品的信息损耗。 KL 散度是非对称,即 D ( p ∣ ∣ q ) D(p||q) D(p∣∣q) 不一定等于 D ( q ∣ ∣ p ) D(q||p) D(q∣∣p) 。 KL 散度经常作为优化的目标。 机器学习是当前最重要的技术发展方向之一。近日,悉尼大学博士生 Thushan Ganegedara 开始撰写一个系列博客文章,旨在为机器学习初学者介绍一些基本概念。本文是该系列的第一篇文章,介绍了 KL 散度(KL divergence)的基本数学概念和初级应用。作者已将相关代码发布在 GitHub 上。 基础概念首先让我们确立一些基本规则。我们将会定义一些我们需要了解的概念。 分布(distribution) 分布可能指代不同的东西,比如数据分布或概率分布。我们这里所涉及的是概率分布。假设你在一张纸上画了两根轴(即 X 和 Y),我可以将一个分布想成是落在这两根轴之间的一条线。其中 X 表示你有兴趣获取概率的不同值。Y 表示观察 X 轴上的值时所得到的概率。即 y=p(x)。下图即是某个分布的可视化。 这是一个连续概率分布。比如,我们可以将 X 轴看作是人的身高,Y 轴是找到对应身高的人的概率。 如果你想得到离散的概率分布,你可以将这条线分成固定长度的片段并以某种方式将这些片段水平化。然后就能根据这条线的每个片段创建边缘互相连接的矩形。这就能得到一个离散概率分布。 事件(event) 对于离散概率分布而言,事件是指观察到 X 取某个值(比如 X=1)的情况。我们将事件 X=1 的概率记为 P(X=1)。在连续空间中,你可以将其看作是一个取值范围(比如 0.95 |
今日新闻 |
点击排行 |
|
推荐新闻 |
图片新闻 |
|
专题文章 |
CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭 |