为什么信息熵要定义成

2024-07-09 08:51| 来源: 网络整理| 查看: 265

刚好看《数学之美》中有一个非常直观的例子：

假设我们没有看世界杯的比赛，但是想知道哪支球队会是冠军，只能去问已经看过比赛的观众，但是我们只能猜测某支球队是或不是冠军，然后观众用对或不对来回答，我们想要猜测次数尽可能少，所用的方法就是二分法。假如有 16 支球队，分别编号，先问是否在 1-8 之间，如果是就继续问是否在 1-4 之间，以此类推，直到最后判断出冠军球队是哪只。如果球队数量是 16，我们需要问 4 次来得到最后的答案。那么世界冠军这条消息的信息量就是 4。在计算机中，这条信息的信息量就是 4 比特，如果一共是 32 支球队参赛，那么世界冠军的信息量就是 5 比特，可以看到信息量跟可能情况的对数 log （以 2 为底）有关（这里大概有点知道为什么求熵的公式里会有一个 log 了）。

但是以往经验表示，如果世界杯有 32 支球队参赛，有些球队实力很强，拿到冠军的可能性更大，而有些队伍拿冠军的概率就很小。我们在之前用二分法计算的时候其实是看做每个球队夺冠的概率都相等，因此我们从最可能夺冠的几支球队中猜测冠军球队，实际需要的信息量是小于我们之前方法计算的信息量的。

准确的信息量应该是： H = -（p1 * logp1 + p2 * logp2 + ... + p32 * logp32），其中 p1, ..., p32 分别是这 32 支球队夺冠的概率。我们再回头验算一下，当每支球队夺冠概率相等都是 1/32 的时候，H = -（32 * 1/32 * log1/32） = 5，根据最大熵原理，每个事件概率相同时，熵最大，这件事越不确定。

这里我们只是说了如何计算，那么为什么求总信息量就是所有 -p*logp 再求和呢？维基百科一句话就让我明白了：-logp 就是一种可能性的信息量啊，一个事件总的信息量就是每一种可能的情况的信息量乘以它们发生的概率，其实就是信息量的数学期望。

【本文地址】

公司简介

联系我们