独家 您所在的位置:网站首页 r语言的qq图干嘛的 独家

独家

2023-07-02 18:54| 来源: 网络整理| 查看: 265

640?wx_fmt=png

作者:Abhijit Telang

翻译:张睿毅

校对:丁楠雅

本文约2600字,建议阅读10分钟。

本文介绍了做残差分析的方法及其重要性,以及利用R语言实现残差分析。

在这篇文章中,我们通过探索残差分析和用R可视化结果,深入研究了R语言。

残差本质上是当一个给定的模型(在文中是线性回归)不完全符合给定的观测值时留下的gap。

医学中的病理学发现的残留分析是一个形象的比喻。人们通常用代谢残留水平来作为衡量药物吸收的指标。

残差是用于建模的原始值与作为模型结果的对于原始值的估计之间的差异。

残差=y-y-hat,其中y是初始值,y-hat是计算值。

期望这个错误尽可能接近于零,并且通过残差找到任何异常值。

找到异常值的一个快速方法是使用标准化残差。第一种方法是简单地求出残差与其标准差的比值,因此,任何超过3个标准差的情况都可以被视为异常值。

## 标准化残差-相对于其标准偏差的比例残差

residueStandard3,]

以下是得到的结果:

days.instant days.atemp days.hum days.windspeed days.casual

442          442   0.505046 0.755833       0.110704        3155

456          456   0.421708 0.738333       0.250617        2301

463          463   0.426129 0.254167       0.274871        3252

470          470   0.487996 0.502917       0.190917        2795

471          471   0.573875 0.507917       0.225129        2846

505          505   0.566908 0.456250       0.083975        3410

512          512   0.642696 0.732500       0.198992        2855

513          513   0.641425 0.697083       0.215171        3283

533          533   0.594708 0.504167       0.166667        2963

624          624   0.585867 0.501667       0.247521        3160

645          645   0.538521 0.664167       0.268025        3031

659          659   0.472842 0.572917       0.117537        2806

当然,我希望我的模型是无偏的,至少我想这样。因此回归线两边的任何残差,如果没有在这条线上,都是随机的,也就是说,没有任何特定的模式。

也就是说,我希望我的剩余误差分布遵循一个普通的正态分布。

使用R语言,只需两行代码就可以优雅地完成这项工作。

绘制残差柱状图;

添加一个分位数图,其中有一条线穿过,即第一个和第三个分位数。

hist(lmfit$residuals)

qqnorm(lmfit$residuals);qqline(lmfit$residuals)

640?wx_fmt=png

于是,我们知道这个图偏离了正常值(正常值用直线表示)。

但这种非黑即白的信息一般是不够的。因此,我们应该检查偏态和峰度,以了解分布的分散性。

首先,我们将计算偏态;我们将使用一个简单的高尔顿偏态(Galton’s skewness)公式。

## 分布对称性检验:偏态

summary



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有