自变量存在多重共线性，如何通过变量筛选来解决？

2024-05-24 08:23| 来源: 网络整理| 查看: 265

多重线性回归要求各个自变量之间相互独立，不存在多重共线性。所谓多重共线性，是指自变量之间存在某种相关或者高度相关的关系，其中某个自变量可以被其他自变量组成的线性组合来解释。

医学研究中常见的生理资料，如收缩压和舒张压、总胆固醇和低密度脂蛋白胆固醇等，这些变量之间本身在人体中就存在一定的关联性。如果在构建多重线性回归模型时，把具有多重共线性的变量一同放在模型中进行拟合，就会出现方程估计的偏回归系数明显与常识不相符，甚至出现符号方向相反的情况，对模型的拟合带来严重的影响。

今天我们就来讨论一下，如果自变量之间存在多重共线性，如何通过有效的变量筛选来加以解决？

一、多重共线性判断

回顾一下前期讲解多重线性回归时，介绍的判断自变量多重共线性的方法。

1. 计算自变量两两之间的相关系数及其对应的P值，一般认为相关系数>0.7，且P

如表1所示， X3和X4、X5之间相关系数>0.7，变量X4与X1、X3、X5之间相关系数>0.7，X5与X3、X4之间相关系数>0.7，说明X3、X4、X5之间存在一定的共线性，由于X4与X1的相关性也较高，故此时建议可以先将X4删除再进行模型拟合，当然也需要结合容忍度和VIF值及专业知识来进行判断。有些时候共线性不可能从统计上得到完全解决，因此在不损失重要信息的前提下，人为剔除共线的变量往往是最有效的方法。

三、多重共线性解决方法：逐步选择

当自变量之间的关系较为复杂，对于变量的取舍不易把握时，我们还可以利用逐步回归的方法进行变量筛选，以解决自变量多重共线性的问题。逐步回归法从共线性的自变量中筛选出对因变量影响较为显著的若干个变量，把对因变量贡献不大的自变量排除在模型之外，从而建立最优的回归子集，不仅克服了共线性问题，而且使得回归方程得到简化。

在SPSS中提供了5种自变量进入模型的方法：

1. Enter（进入法）

将所选自变量强制性引入模型中进行拟合，不涉及变量筛选的问题，为默认选项。

2. Remove（移除法）

将指定的自变量强制性移除模型。Remove方法的第一步是利用Enter法构建回归方程，第二步再用Remove法将指定的自变量移除模型。该方法常与其他筛选变量的方法联合使用。

3. Forward selection（前进法）

即回归方程中的自变量从无到有，由少到多逐个引入来构建模型的一种方法。这里需要提到一个新的概念--偏回归平方和，简单来说就是在模型已经含有其他自变量的基础上，加入一个新的自变量后，引起的对于回归模型贡献的增加量，或者删除某个自变量后，引起的对于回归模型贡献的减少量。

如果不太好理解，这里打个比方，某个公司（因变量Y）将进行员工（自变量X）选拔。第一步，公司（Y）需要评估一下每个员工（X）对公司（Y）的贡献大小（偏回归平方和），选拔出贡献最大且有统计学显著性（引入标准Pin

【本文地址】

公司简介

联系我们