机器学习入门:L1范数最小正则化通俗易懂的理解 | 您所在的位置:网站首页 › l1范数公式 › 机器学习入门:L1范数最小正则化通俗易懂的理解 |
L1范数最小正则化
概念解释基本原理为什么L1范数最小正则化能够获得稀疏解?
概念解释
对于L1范数最小正则化,我们先拆分开来解释。 L1范数:向量中各元素绝对值之和。如[1,-1,3]的L1范数为1+1+3=5。 正则化:对模型提高泛化能力的一种方案。对于训练得到的模型,可能会出现模型复杂的情况,正则化可以看作对模型的简化,以提高模型适应能力。 最小:指最小化损失函数。在我们训练模型时,通过最小化损失函数可以使模型对于训练集更为拟合。 那么对于L1范数最小正则化的理解可以是这样的:向损失函数J中添加一个L1范数,使 J1=J+L1_norm, 将新的损失函数J1作为新的优化目标,J1最小时,能够得到具有泛化能力的模型(正则化)。 实际上,L1范数最小正则化是一个能使训练的模型具有泛化能力,且能获得稀疏解的一种方案。 基本原理首先我们假设有一组训练集: 此时,我们引入L1范数会得到什么样的改观呢? 那么,通过引入L1范数,最终得到的模型不仅能够迎合训练集,而且足够简单有效,这也就是说为什么L1范数最小正则化能够泛化模型。 为什么L1范数最小正则化能够获得稀疏解?或许用一个简单的例子就能帮助我们理解了。 假设在一个二维空间,我们有样本点 (2,2)。已知模型是线性模型。 即:y = ax+b 代入样本点:2 = 2a+b 那么 a , b 作为这个模型的解,解空间为: b = 2 - 2 a ,解空间如图所示。b 为 y 轴。 那么,重申结论:L1范数最小正则化在一般情况下是能够得到稀疏解的。 实际上,如果使用其他的范数作为辅助优化项呢? |
CopyRight 2018-2019 实验室设备网 版权所有 |