交叉熵损失函数公式

#交叉熵损失函数公式| 来源: 网络整理| 查看: 265

之前我在（一）中说，分类不采用平方差作为损失函数的原因是损失函数是一个非凸函数，容易陷入局部最优，不利于找到相对的全局最优解。这样的解释我感觉太宽泛。

今天我换种思路理解下不采用MSE的原因：

首先理解“交叉熵“：我最开始接触熵的概念是在高中化学中，一个描述化学反应体系混乱度的物理量，大学接触是在信息论中，变为了衡量信息量多少的物理量。而在深度学习损失函数中的熵，我理解的应该和信息论差不多，用来衡量信息的不确定性的，也就是说熵越大，这个网络的输出不确定性就越大，也就是说网络没学到东西，反知，交叉熵越小，网络输出不确定性越小，估计越准确，网络学到了东西。

交叉熵公式：

公式解释：y是我们预测的概率分布，y‘是实际的分布。

从公式中可以得到两个结论：

1、交叉熵是正的（不要被负号影响，因为yi

【本文地址】

公司简介

联系我们