联想:2022 秋招 算法工程师 一二面 | 您所在的位置:网站首页 › 联想首席工程师年薪 › 联想:2022 秋招 算法工程师 一二面 |
物理意义上,MSE 衡量的是几何空间的欧氏距离,而分类问题中每个类别的标签是离散的 信息学中,交叉熵衡量的是两个分布之间的差异,可用于衡量模型预测的概率分布和真实标签的类别分布是否相似。 计算上,分类模型输出的概率一般会经过 softmax 归一化,归一化后的值使用 MSE 会导致不符合预期的梯度,而使用交叉熵则无此问题。 如三分类问题中,标签为 可以看到,MSE 会考虑各个类别的概率,其最小化的目标除了让正确类别的概率最大化外,还会让错误类别的概率平均(这一步是不必要的,可能会导致梯度不符合预期,这也是其优化函数非凸的难以优化的直接表现); 而交叉熵则只针对正确的类别进行计算,就没存在 MSE 中的问题。 |
CopyRight 2018-2019 实验室设备网 版权所有 |