Stata 回归结果详解 | 您所在的位置:网站首页 › stata回归结果怎么看t值显著性 › Stata 回归结果详解 |
目录
一、数据信息二、指标1.上半部分2.下半部分
三、详细解释SSM - 模型平方和SSR - 残差平方和SST - 总平方和R-squared - R方 - 拟合系数Adj R-squared - 调整后的拟合系数df - 自由度MS - 均方差F - 总体显著性检验Prob > F - P值Root MSECoef.Std. Err.tP > | t |95% Conf. Interval
一、数据信息
使用stata自带的auto数据, 被解释变量(因变量):price(价格) 解释变量(自变量):mpg(里程)、rep78(1978年后的修理记录)、weight(重量)、length(长度)、foreign(本土/国外品牌) 每一个预测值与平均值之间距离的平方之和 每一个真实值与预测值之间距离的平方之和,即误差项的平方和 每一个真实值与平均值之间距离的平方之和,用于衡量真实值的离散程度 拟合系数表示模型能解释的数据波动占总体波动的百分比,表示拟合程度 R方越高,表示模型的拟合程度越高,回归预测越准确 R方的值在0到1之间,具体的大小并无要求,需要根据不同的领域具体判断,在某些领域,10%-30%是合理的;而在某些领域甚至达到50%才是合理。 R-squared无法控制变量的增加而导致过度拟合,Adj R-squared则在此基础上,引入了自变量的个数这一因素,以更加准确地评估模型的拟合效果。 在多元线性回归模型中,当自变量的数量增加时,R-squared也会随之增加。但是,当自变量的数量增加时,也容易出现过拟合(overfitting)现象,导致模型的预测能力下降。因此,为了避免过拟合,我们需要使用Adj R-squared对R-squared进行修正。Adj R-squared可以更精确地反映自变量对因变量的解释程度,避免了因自变量数量增加而导致的过拟合问题,是多元线性回归模型中一个比较重要的评估指标。 df - 自由度自由度是表示能够自由变动的变量的个数 例如:有3个变量a、b、c,加入限制条件 a + b + c = 100,则a和b任意取一个值后,c无法自由取值,即df=2。 在本文章的数据中,观测值 n= 69,自由度 df = 69 - 1 = 68 本章数据中,假设观测值个数为n,自变量个数为k,则: df_Total = n - 1 df_Model = k (不是k-1,因为模型中有常数项β0,所以模型的自由度就是自变量个数) df_Residual = n - k -1 = 69 - 5 - 1 = 63 MS - 均方差MS = SS / df 简单理解就是平方和的平均数 F - 总体显著性检验F = MS_Model / MS_Residual 原假设H0:所有系数β均为0 备择假设H1:系数β不全为0 F值越大越好 Prob > F - P值P值表示在在原假设成立的情况下,能够得到F值的概率,通常有模型在1%、5%、10%水平下拒绝原假设,从而认为自变量对因变量影响的显著水平,也可以说模型在1%、5%、10%水平上显著。 P值由F值查表得出 P值指的是假设检验中得到的显著性水平,其英文单词为"p-value"。其中,p表示概率(probability),value则代表一个数值,即显著性水平。 P值表示在在原假设成立的情况下,能够得到F值的概率,通常有模型在1%、5%、10%水平下拒绝原假设,从而认为自变量对因变量影响的显著水平,也可以说模型在1%、5%、10%水平上显著。 当 P < 0.1 时,模型在10%水平上显著。 当 P < 0.05 时,模型在5%水平上显著。 当 P < 0.01 时,模型在1%水平上显著。 P值越小越好 Root MSE衡量模型中的误差项的大小,Root MSE越大,误差越大 回归系数,其中_cons表示常数项 例:连续变量和0-1变量的解释不用,本文数据中: 车辆重量weight为连续变量,weight每增加一千克,价格price将增加6.006738美元。 是否为外国车辆foreign为0-1变量,当foreigh=1时,价格price将增加3303.213美元。 Std. Err.衡量估计系数的波动水平 tt = Coef. / Std. Err. t检验中的字母t来源于英文单词"t-distribution",也就是t分布。T分布是一种概率分布函数,是一类常用于小样本假设检验的概率分布。T分布的形态与自由度有关,当自由度越大时,T分布越趋近于标准正态分布。在t检验中,t值的计算需要用到样本均值、标准差和样本量,然后再根据自由度和置信水平查找t分布表,得到检验的p值,以此来判断是否拒绝零假设。 越大越好 P > | t |仍是P值,根据t值查表获得 当 | t | > 1.65 或 P < 0.1 时,模型在10%水平上显著,标记*。 当 | t | > 1.96 或 P < 0.05 时,模型在5%水平上显著,标记**。 当 | t | > 2.58 或 P < 0.01 时,模型在1%水平上显著,标记***。 越小越好 95% Conf. Interval95%置信区间,表示回归系数的取值范围,该范围有效的概率是95% |
CopyRight 2018-2019 实验室设备网 版权所有 |