手把手教你做线性回归分析(附案例) 您所在的位置:网站首页 定量研究范例 手把手教你做线性回归分析(附案例)

手把手教你做线性回归分析(附案例)

2023-03-20 02:49| 来源: 网络整理| 查看: 265

线性回归分析流程图如下:

一、 基本关系查看

线性回归分析是用于研究定量数据之间的影响关系的,通常先有相关关系,才会有回归影响关系。所以一般在进行线性回归分析之前,需要先查看一下数据之间的相关关系,可以通过查看变量之间的相关系数或者查看散点图的方式进行。

当前有一家公司,想要研究员工的初始工资、工作时间、教育程度、工作经验是否会影响员工的当前工资,如果有影响,各个因素对当前工资的影响大小如何,故通过多元线性回归进行分析(数据纯属虚构,仅做教学使用)。

首先查看数据之间的相关关系,分别使用散点图和相关系数进行查看。

1、散点图

散点图用于直观展示自变量X与因变量Y之间的关系情况,通常用于探索性研究阶段。使用散点图查看工资与初始工资、教育程度、工作时间、工作经验之间的关系,利用SPSSAU可视化->散点图得到分析结果如下:

上图展示了分别以初始工资、教育程度、工作经验为X轴,工资为Y轴得到的散点图,从散点图可以看出,工资与初始工资、教育程度、工作经验之间关系为线性。

上图为以工作时间为X轴,工资为Y轴绘制的散点图,从上图可以看到,工作时间与工资之间并没有明显的关系。但是散点图的判断比较主观,不能说因为看起来没有相关关系,就认为确实没有相关关系,需要数据进行证实,故进行相关分析,查看变量间的相关系数,进一步进行数据关系查看。

2、相关分析

相关分析用于分析变量之间是否具有相关关系,回归分析用于分析影响关系,通常先有相关关系,才会有回归影响关系。所以在进行回归分析之前,通常先进行相关分析,查看自变量与因变量之间的相关关系。

使用SPSSAU相关分析,得到工资与初始工资、教育程度、工作经验、工作时间两两之间的相关系数表如下:

从上表可以看出,工资与工作时间之间的相关系数为0.101接近0,同时对应p值大于0.05没有呈现出显著性,而初始工资、教育程度、工作经验与工资之间的p值均小于0.01,呈现出显著性;所以将工作时间从回归方程中剔除。

经过散点图与相关分析得到,初始工资、教育程度、工作经验都与工资之间具有显著相关关系,而工作时间与工资之间并没有相关关系,故将工作时间从线性回归模型中移除。

接下来以工资作为因变量Y,初始工资、教育程度、工作经验作为自变量X进行线性回归分析。

二、 总体显著性检验

使用多元线性回归分析过程中,显著性检验应该包括两部分内容:对多个自变量与因变量这个整体的显著性检验(F检验),以及每个自变量对因变量影响的显著性检验(t检验),二者都是对线性回归的显著性检验,但是检验目的不同。特别提示:仅仅在一元线性回归分析过程中,F检验与t检验效果是等价的,因为此时只涉及到一个自变量。

首先进行总体显著性检验,是使用F检验进行的,可以判断多元线性回归方程是否成立。SPSSAU多元线性回归分析F检验输出结果如下:

从上表可以看出,统计量F=4009.94,对应的p值小于0.05,所以多元线性回归通过总体显著性检验,回归模型是有意义的,说明至少有1个X会对因变量Y产生影响。

接下来查看每个自变量对因变量影响的显著性,即回归系数显著性检验。

三、 回归系数显著性检验

回归系数显著性检验是指每个自变量对因变量影响的显著性检验,使用t检验进行。SPSSAU输出每个自变量对因变量影响的t检验结果如下:

从上表可以看出,初始工资、教育程度与工作经验三个自变量对应t检验的p值均小于0.05,呈现出显著性特征。说明三个自变量X对因变量Y(工资)均呈现出显著性。

多元线性回归分析同时会输出一些其他的指标,接下来将逐个进行说明。

四、 其他指标解读1、 VIF值

VIF值用于共线性判断,共线性是指在线性回归分析时,出现的自变量之间彼此相关的现象。共线性出现的原因可能是由于多个自变量之间本身就存在很强的相关关系;或者由于收集的样本量不足;再或者由于在回归分析时错误的使用虚拟变量等都可能导致共线性问题的出现。

使用SPSSAU进行多元线性回归时,分析结果会自动输出VIF值,用来判断是否存在共线性。一般VIF值大于10(严格大于5),则认为存在严重的共线性。SPSSAU输出结果如下:

从上表可以看出,VIF值均小于10,说明不存在共线性问题。但有些文献要求VIF值小于5才认为不存在共线性问题,严格来看,工作经验的VIF=6.76>5,说明可能存在一定的共线性问题。如果认为数据存在共线性,可以手动移除相关性非常高的变量,或者改用逐步回归、岭回归等方法进行分析。此处认为共线性可以忽略,故不再进行赘述。

2、 R方与调整后R方

R方用于分析模型的拟合优度,又称决定系数。R方的值介于0~1之间,代表模型的拟合程度,一般认为越大越好。例如R方为0.5,说明自变量可以解释因变量50%的变化原因。但是实际研究中并不会过多关注R方的大小,因为进行回归分析更多的主要关注自变量对因变量是否具有影响关系。调整后R方并没有实际意义,通常在进行模型调整(增加或者减少变量个数时)使用,用于判断你的模型中该不该加入你想加入的变量。

SPSSAU输出结果如下图:

从上表可以看出,R方=0.973,说明自变量可以解释因变量97.3%的变化原因,模型拟合较好。当进行模型调整时,可以关注调整后R方的变化。

3、D-W值

模型的随机干扰项相互独立或不相关,是多元线性回归模型的基本假设之一。随机干扰项是数据本身的不确定性带来的误差。如果模型的随机干扰项违背了相互独立的基本假设,称为存在自相关性。自相关性可以使用D-W检验进行分析。

D-W检验(杜宾-瓦特森检验),计量经济,统计分析中常用的一种检验序列一阶自相关最常用的方法。SPSSAU在进行线性回归分析时,输出D-W值如下:

一般认为,如果D-W值在2附近(1.7~2.3之间),说明不存在自相关性,模型构建比较好,反之如果D-W值明显偏离2,说明模型具有自相关性,模型构建较差。

从上表得到,本次分析的D-W值=0.438,明显偏离2,说明模型存在自相关性,模型构建较差。但是由于一般对于时间序列分析才会考虑DW值,本次分析数据并非时间序列,所以暂且忽略自相关性。如果在分析时需要自相关问题修正,可以使用广义差分法,在此不再进行深入分析。

4、残差

在进行分析时,如果有需要,可以选择勾选【保存预测和残差值】选项,SPSSAU会输出残差值和预测值。

针对残差值,一般会检验残差值的正态性。如果残差直观上满足正态性,说明模型构建较好,反之说明模型构建较差。SPSSAU利用残差绘制直方图,得到结果如下:

从直方图可以看出,数据呈现出的分布并不对称,但是从形状来看,直方图近似呈现“中间高,两头低”的钟形分布形状,说明数据为可接受的正态分布。即说明残差符合正态分布,模型构建较好。如果残差正态性非常糟糕,建议重新构建模型,比如对因变量Y取对数后再次构建模型等。

以上指标分析完成后,最后进行归回分析结果解读,判断哪些自变量对因变量有显著影响,影响方向、影响大小是怎样的;构建回归分析模型。

五、 回归分析模型

SPSSAU输出回归分析结果如下:

1、 模型公式

从上表可以看出,以初始工资、教育程度、工作经验为自变量,工资为因变量进行多元线性回归分析,得到回归模型公式为:工资=18326.101 + 0.353*初始工资-280.300*教育程度 + 144.955*工作经验。

特别提示:构建回归模型使用非标准化回归系数,它是方程中不同自变量对应的原始回归系数,反映了在其他自变量不变的情况下,该自变量每变化一个单位对因变量作用的大小。通过非标准化回归系数构建的回归方程,才可以对因变量进行预测。

2、 影响大小比较

自变量对因变量影响大小的比较是通过标准化回归系数进行比较的。标准化回归系数的绝对值越大,说明该自变量对因变量的影响越大。

标准化回归系数,是对自变量和因变量同时进行标准化处理后所得到的回归系数,数据经过标准化处理后消除了量纲、数量级等差异的影响,是的不同变量之间具有可比性,因此使用标准化回归系数比较不同自变量对因变量的影响大小。

从线性回归结果可以看出,初始工资、教育程度、工作经验的标准化回归系数分别是:0.168、-0.046、0.881;所以工作经验对工资的影响最大,其次是初始工资,影响最小的是教育程度,且初始工资与工作经验对工资的影响是显著正向的,而教育程度对工资的影响是显著负向的。

3、 coefPlot

SPSSAU会输出coefPlot图,用于展示具体的回归系数值和对应的置信区间,可直观查看数据的显著性情况,如果说置信区间包括数字0则说明该项不显著,如果置信区间不包括数字0则说明该项呈现出显著性。

具体数值还可通过SPSSAU输出的回归系数中间过程值表格查看,见下图:

从上表可以看出,3个自变量回归系数对应的置信区间均不包括0,说明3个自变量对因变量的影响均呈现出显著性。

综上所述,探究工资的影响关系,经过基本关系分析后,得到与因变量有相关关系的自变量后进行多元线性回归分析,发现初始工资、教育程度、工作经验对工资有显著影响,其中工作经验对工资的影响最大,多元线性回归分析结束。



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有