Stata 回归结果详解

您所在的位置：网站首页 › stata回归结果怎么看t值显著性 › Stata 回归结果详解

Stata 回归结果详解

2024-01-14 22:21| 来源: 网络整理| 查看: 265

目录一、数据信息二、指标1.上半部分2.下半部分三、详细解释SSM - 模型平方和SSR - 残差平方和SST - 总平方和R-squared - R方 - 拟合系数Adj R-squared - 调整后的拟合系数df - 自由度MS - 均方差F - 总体显著性检验Prob > F - P值Root MSECoef.Std. Err.tP > | t |95% Conf. Interval

一、数据信息

使用stata自带的auto数据，被解释变量（因变量）：price（价格）解释变量（自变量）：mpg（里程）、rep78（1978年后的修理记录）、weight（重量）、length（长度）、foreign（本土/国外品牌）在这里插入图片描述回归结果分两部分，上半部分为回归结果的总体描述信息，下半部分为具体变量信息。

二、指标 1.上半部分指标英文名称解释SSsum of squares平方和dfdegrees of freedom自由度MSmean square均方差Model(SSM)sum of squares model模型平方和衡量预测值的离散程度Residual(SSR)sum of squares residual残差平方和衡量预测值与真实值的偏差程度Total(SST)sum of squares total总平方和衡量真实数据的离散程度Number of obs观测值数量观测值数量F(a,b)F值检验系数不为0的概率Prob > FP值1%、5%、10%水平上显著R-squared拟合系数表示模型的拟合程度Adj R-squared调整后的拟合系数更精确的表示模型的拟合程度Root MSERoot Mean square of error均误差平方根衡量模型中的误差项的大小 2.下半部分指标英文名中文名解释Coefficient系数βStd. err.The standard error of the coefficient回归系数标准误估计系数的波动水平tt值检验系数不为0的概率p > [t]P值1%、5%、10%水平上显著[95% conf. interval]confidence interval置信区间回归系数取值范围，该范围有效率是95% 三、详细解释

在这里插入图片描述

SSM - 模型平方和

每一个预测值与平均值之间距离的平方之和在这里插入图片描述 SSM越大越好

SSR - 残差平方和

每一个真实值与预测值之间距离的平方之和，即误差项的平方和在这里插入图片描述 SSR越小越好

SST - 总平方和

每一个真实值与平均值之间距离的平方之和，用于衡量真实值的离散程度在这里插入图片描述 SST = SSM + SSR ，即【总平方和=模型平方和+残差平方和】

R-squared - R方 - 拟合系数

拟合系数表示模型能解释的数据波动占总体波动的百分比，表示拟合程度 R方越高，表示模型的拟合程度越高，回归预测越准确 R方的值在0到1之间，具体的大小并无要求，需要根据不同的领域具体判断，在某些领域，10%-30%是合理的；而在某些领域甚至达到50%才是合理。在这里插入图片描述

Adj R-squared - 调整后的拟合系数

R-squared无法控制变量的增加而导致过度拟合，Adj R-squared则在此基础上，引入了自变量的个数这一因素，以更加准确地评估模型的拟合效果。在多元线性回归模型中，当自变量的数量增加时，R-squared也会随之增加。但是，当自变量的数量增加时，也容易出现过拟合（overfitting）现象，导致模型的预测能力下降。因此，为了避免过拟合，我们需要使用Adj R-squared对R-squared进行修正。Adj R-squared可以更精确地反映自变量对因变量的解释程度，避免了因自变量数量增加而导致的过拟合问题，是多元线性回归模型中一个比较重要的评估指标。

df - 自由度

自由度是表示能够自由变动的变量的个数

例如：有3个变量a、b、c，加入限制条件 a + b + c = 100，则a和b任意取一个值后，c无法自由取值，即df=2。在本文章的数据中，观测值 n= 69，自由度 df = 69 - 1 = 68

本章数据中，假设观测值个数为n，自变量个数为k，则： df_Total = n - 1 df_Model = k (不是k-1，因为模型中有常数项β0，所以模型的自由度就是自变量个数) df_Residual = n - k -1 = 69 - 5 - 1 = 63

MS - 均方差

MS = SS / df

简单理解就是平方和的平均数

F - 总体显著性检验

F = MS_Model / MS_Residual

原假设H0：所有系数β均为0 备择假设H1：系数β不全为0

F值越大越好

Prob > F - P值

P值表示在在原假设成立的情况下，能够得到F值的概率，通常有模型在1%、5%、10%水平下拒绝原假设，从而认为自变量对因变量影响的显著水平，也可以说模型在1%、5%、10%水平上显著。 P值由F值查表得出

P值指的是假设检验中得到的显著性水平，其英文单词为"p-value"。其中，p表示概率(probability)，value则代表一个数值，即显著性水平。 P值表示在在原假设成立的情况下，能够得到F值的概率，通常有模型在1%、5%、10%水平下拒绝原假设，从而认为自变量对因变量影响的显著水平，也可以说模型在1%、5%、10%水平上显著。当 P < 0.1 时，模型在10%水平上显著。当 P < 0.05 时，模型在5%水平上显著。当 P < 0.01 时，模型在1%水平上显著。

P值越小越好

Root MSE

衡量模型中的误差项的大小，Root MSE越大，误差越大在这里插入图片描述 Root MSE越小越好

Coef.

回归系数，其中_cons表示常数项

例：连续变量和0-1变量的解释不用，本文数据中：车辆重量weight为连续变量，weight每增加一千克，价格price将增加6.006738美元。是否为外国车辆foreign为0-1变量，当foreigh=1时，价格price将增加3303.213美元。

Std. Err.

衡量估计系数的波动水平

t = Coef. / Std. Err.

t检验中的字母t来源于英文单词"t-distribution"，也就是t分布。T分布是一种概率分布函数，是一类常用于小样本假设检验的概率分布。T分布的形态与自由度有关，当自由度越大时，T分布越趋近于标准正态分布。在t检验中，t值的计算需要用到样本均值、标准差和样本量，然后再根据自由度和置信水平查找t分布表，得到检验的p值，以此来判断是否拒绝零假设。

越大越好

P > | t |

仍是P值，根据t值查表获得

当 | t | > 1.65 或 P < 0.1 时，模型在10%水平上显著，标记*。当 | t | > 1.96 或 P < 0.05 时，模型在5%水平上显著，标记**。当 | t | > 2.58 或 P < 0.01 时，模型在1%水平上显著，标记***。

越小越好

95% Conf. Interval

95%置信区间，表示回归系数的取值范围，该范围有效的概率是95%

【本文地址】

公司简介

联系我们

今日新闻

推荐新闻

专题文章