线性回归与岭回归:在进行线性回归时,为什么最小二乘法是最优方法? 您所在的位置:网站首页 什么是乘法 线性回归与岭回归:在进行线性回归时,为什么最小二乘法是最优方法?

线性回归与岭回归:在进行线性回归时,为什么最小二乘法是最优方法?

#线性回归与岭回归:在进行线性回归时,为什么最小二乘法是最优方法?| 来源: 网络整理| 查看: 265

1、线性回归

线性回归

y=\omega_0+\omega_1x_1+\omega_2x_2+\omega_3x_3+···+\omega_nx_n+\varepsilon

\boldsymbol \omega 为列向量 \boldsymbol \omega = \left[ \omega_0,\omega_1, \omega_2,···, \omega_n \right]^T

\boldsymbol x 为列向量 \boldsymbol x = \left[ 1,x_1,x_2,···,x_n \right]^T

此时,方程可以写为

\boldsymbol y=\boldsymbol \omega^T\boldsymbol x+ \varepsilon=\sum \limits_{j=1}^n\omega_jx_j+\varepsilon

2、最大似然估计与最小二乘法

一般 \varepsilon 服从正态分布,即

\varepsilon\sim N(\mu,\sigma^2)

假设 \mu 是 x 的线性函数,因而 \mu=\boldsymbol \omega^T\boldsymbol x ,而噪声是固定的, \sigma(x)=\sigma^2 。

从而参数 \boldsymbol\theta=(\boldsymbol \omega,\sigma^2) 。

p(y|\boldsymbol x,\boldsymbol\theta)=N(y|\mu(\boldsymbol x),\sigma(\boldsymbol x))

最大似然估计,即 Maximum likelihood estimation (least squares)

\hat {\boldsymbol \theta}\triangleq \mathop{\arg\max}\limits_{\theta}ln p(y|\boldsymbol x,\boldsymbol\theta)=\sum \limits_{i=1}^nlnp(y_i|\boldsymbol x_i,\boldsymbol\theta)

最大化对数似然等价于最小化负对数似然

\hat {\boldsymbol \theta}\triangleq \mathop{\arg\min}\limits_{\theta}-ln p(y|\boldsymbol x,\boldsymbol\theta)=-\sum \limits_{i=1}^nlnp(y_i|\boldsymbol x_i,\boldsymbol\theta)

对数似然函数

L(\boldsymbol\theta)=-\frac{n}{2}ln(2\pi)-nln\sigma-\frac{1}{2\sigma^2}\sum \limits_{i=1}^n{(y_i-\boldsymbol\omega^T\boldsymbol x_i)^2}

因而,最大化似然函数等价于最小化平方误差。

定义残差平方和

RSS(\boldsymbol\omega)\triangleq\sum \limits_{i=1}^n{(y_i-\boldsymbol\omega^T\boldsymbol x_i)^2}

也就是,

RSS(\boldsymbol\omega)=||\boldsymbol\varepsilon ||_{2}^{2}=\sum \limits_{i=1}^n\varepsilon_i

其中, \varepsilon_i = (y_i-\boldsymbol\omega^T\boldsymbol x_i)

因而线性回归的最大似然估计等价于最小化平方误差方法,也就是最小二乘法

这也是线性回归使用最小二乘法的原因。

3、正规方程

m 个样本, n 个特征的数据

线性回归方程写成矩阵形式

\boldsymbol y=\boldsymbol X\boldsymbol \omega

负对数似然函数最小化

-L(\boldsymbol\theta)\\=(\boldsymbol y-\boldsymbol X\boldsymbol \omega)^{T}(\boldsymbol y-\boldsymbol X\boldsymbol \omega)\\=(\boldsymbol y^T-\boldsymbol \omega^T\boldsymbol X^T)(\boldsymbol y-\boldsymbol X\boldsymbol \omega)\\=\boldsymbol y^T\boldsymbol y-\boldsymbol \omega^T\boldsymbol X^T\boldsymbol y-\boldsymbol y^T\boldsymbol X\boldsymbol \omega+\boldsymbol \omega^T\boldsymbol X^T\boldsymbol X\boldsymbol \omega\

对 \boldsymbol\omega 求偏导

由矩阵求导公式,

\Large \frac{\partial(\boldsymbol x^T \boldsymbol a)}{\partial\boldsymbol x}=\frac{\partial(\boldsymbol a^T \boldsymbol x)}{\partial\boldsymbol x}=\boldsymbol a ,

\Large \frac{\partial(\boldsymbol x^T \boldsymbol A\boldsymbol x)}{\partial\boldsymbol x}=\boldsymbol A\boldsymbol x+\boldsymbol A^T\boldsymbol x ,

可得

\Large \frac{\partial(-L(\boldsymbol\theta))}{\partial\boldsymbol \omega}\\=0-\boldsymbol X^T\boldsymbol y-\boldsymbol X^T\boldsymbol y+(\boldsymbol X^T\boldsymbol X+\boldsymbol X^T\boldsymbol X)\boldsymbol \omega\\=2(\boldsymbol X^T\boldsymbol X\boldsymbol \omega-\boldsymbol X^T\boldsymbol y)

令上式为 0 ,

\boldsymbol X^T\boldsymbol X\boldsymbol \omega=\boldsymbol X^T\boldsymbol y

如果矩阵 \boldsymbol X^T\boldsymbol X 可逆,

\hat{\boldsymbol \omega}_{OLS}=(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T\boldsymbol y

因而我们得到

\hat {\boldsymbol y}=\boldsymbol X \hat {\boldsymbol \omega}=\boldsymbol X(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T\boldsymbol y

4、岭回归

MLE(最大似然估计)出现过拟合的原因在于它选择最佳参数值来对训练数据进行建模;但如果数据存在噪声,这些参数通常会导致复杂的函数。

岭回归相当于在线性回归后加一个 L2 正则化罚项 \lambda||\boldsymbol\omega ||_{2}^{2}

损失函数或者目标函数为

J(\boldsymbol \omega)=\frac{1}{n}\sum \limits_{i=1}^n{(y_i-\boldsymbol\omega^T\boldsymbol x_i)^2}+\lambda||\boldsymbol\omega ||_{2}^{2}

此时正规方程

\hat{\boldsymbol \omega}_{ridge}=(\lambda \boldsymbol I_D +\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T\boldsymbol y

岭回归在统计上表现更好,同时在数值拟合方面也更加容易,因为 (\lambda \boldsymbol I_D +\boldsymbol X^T\boldsymbol X)^{-1} 更有可能可逆,至少对于适当大的 \lambda 而言,要比 (\boldsymbol X^T\boldsymbol X)^{-1} 好得多。



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有