最小二乘估计

2023-11-02 16:25| 来源: 网络整理| 查看: 265

最小二乘估计（Least Square Estimate）说在前头

这是我写的第一篇博文。在CSDN潜水很久了，受到了很多前辈的帮助，打算开始学习写博文，能够帮助自己总结知识，学习使用Markdown，还能和大家交流，我是小白一只，如果觉得文中有什么问题，或是排版的建议，欢迎大家不吝指教啦~谢谢！

最小二乘估计

最小二乘估计是一种估计（Estimate）的方法，什么是估计？

估计：字面上的意思即是对事物进行推断，和猜测的含意是很接近的，所以会混着用。

&emsp；&emsp；我们透过已有的信息，对未知的事物进行猜测即是估计，而猜测的方法有很多，你可以毫无根据的瞎猜，也可以依据某些策略进行猜测，这些都叫做估计，但显而易见的是，不同的估计方法（估计策略）会带来性能的差异，而本文要介绍的最小二乘估计（LSE）就是一种估计方法（猜测策略）。

那就开始介绍LSE啦~LSE要解决的问题是：透过观测到的X，Y数据，如何猜测X和Y之间的关系，假设M个X对应某个Y，共有N组观测数据，X和某个Y的关系可以表示成如下形式： X(1) = [X1(1),X2(1),X3(1)…XM(1)]->Y(1) X(2) = [X1(2),X2(2),X3(2)…XM(2)]->Y(2) … X(N) = [X1(N),X2(N),X3(N)…XM(N)]->Y(N) **重点：**第n组X，即X(n),有M个数据

X（n）代表是第n组X数据，Xm（n）代表是第n个数据X的第m变量

“->”代表了某种映射关系，如何透过观测数据猜测这种映射关系就是我们关心的。

LSE做了如下假设：（基函数线性组合成目标Y）

假设Y的估计是由X的基函数线性组成的，用h表示（取其hypothesis（假设）之意）

即

Y的估计=h=w1φ1（X）+w2φ2（X）+w3φ3（X）…wkφk（X）

其中的φ（X）就是基函数代表一个参数不超出X1~XM的函数，举几个例子：

φ（X）= X1

φ（X）= X1 + cos（X2）+sin（XM）

φ（X）只要是X1~XM的函数就行，意即里面的自变量只要不超出X1-XM这个范围即可，可以少，不能多。

wk则是对应φk（X）的权重

如何确定基函数形式，如何确定基函数个数是LSE最关键的部分，可以透过先验知识或问题需求来设定

**比如，**如果问题是求取Y和X的线性关系

那φ（X）就可以设成M+1个分别是：[1，X1，X2…XM]

如果是求取Y的频率分量，那则可以利用cos，sin来构建基函数

讲完以上假设，考虑组数差异，我们可以改写一下式子，加上下标n，变成

Y（n）的估计=h（n）=w1φ1（X（n））+w2φ2（X（n））+w3φ3（X（n））…wkφk（X（n））

代表了用第n组观测数据中的X对某个Y的估计结果

设定好了基函数（这个是最难的，也最关键，因为需要根据对问题的理解来设定）之后，只剩决定w1~wk啦

我们就可以阐述一下为什么这个方法叫做最小二乘估计啦~因为它的策略就是以最小化观测数据集中的Y和h的平方误差和为标准，来决定哪个p是最优的，写成式子就是：

min ⁡ p = [ p 1.. p k ] [ ∑ n = 1 N [ Y （ n ） − h （ n ） ] 2 ] \min\limits_{p=[p1..pk]}[{\sum_{n=1}^{N}[Y（n）-h（n）]^2}] p=[p1..pk]min[∑n=1N[Y（n）−h（n）]2]

其中h（n）=w1φ1（X（n））+w2φ2（X（n））+w3φ3（X（n））…wkφk（X（n））

将N组观测数据都列出来，可以得到如下矩阵关系在这里插入图片描述

将上式写成h = ϕ \phi ϕW

最小二乘优化问题 min ⁡ p = [ p 1.. p k ] [ ∑ n = 1 N [ Y （ n ） − h （ n ） ] 2 ] \min\limits_{p=[p1..pk]}[{\sum_{n=1}^{N}[Y（n）-h（n）]^2}] p=[p1..pk]min[∑n=1N[Y（n）−h（n）]2]变成：

min ⁡ p = [ p 1.. p k ] （ Y − ϕ W ）（ Y − ϕ W ） T \min\limits_{p=[p1..pk]}{（Y-\phi W）（Y-\phi W）^T} p=[p1..pk]min（Y−ϕW）（Y−ϕW）T

透过乘开后对W向量微分，可以得到当

W = ϕ T ϕ − 1 ϕ T Y 时 W ={\phi ^T\phi}^{-1}\phi^TY时 W=ϕTϕ−1ϕTY时

二乘误差

（ Y − ϕ W ）（ Y − ϕ W ） T （Y-\phi W）（Y-\phi W）^T （Y−ϕW）（Y−ϕW）T

达到最小

即求出

W o p t = ϕ T ϕ − 1 ϕ T Y Wopt ={\phi ^T\phi}^{-1}\phi^TY Wopt=ϕTϕ−1ϕTY

将这个Wopt代入Y的估计=h=w1φ1（X）+w2φ2（X）+w3φ3（X）…wkφk（X）即求出我们对Y和X的关系的估计。

重点回顾：

（1）LSE假设Y是由X的“基函数线性构成”，注意基函数可以是非线性的，例如cos（），sin（），x1^2…

（2）如何决定基函数形式和个数是最重要的，其中每个基函数的变量都能从X1~XM任意取

（3）决定基函数后就用简单的微分解出W即可

（4）决定最优W的标准是Y和h二乘误差和最小（当然也可以定义别的误差指标，但就要换个名子啦） (5) 什麼是估計? 為什麼這個方法叫做Least Square Estimate

【本文地址】

公司简介

联系我们