R语言︱异常值检验、离群点分析、异常值处理

您所在的位置:网站首页 箱图的异常值怎么处理 R语言︱异常值检验、离群点分析、异常值处理

R语言︱异常值检验、离群点分析、异常值处理

2024-07-16 13:34:25| 来源: 网络整理| 查看: 265

版权声明:博主原创文章,微信公众号:素质云笔记,转载请注明来源“素质云博客”,谢谢合作!! https://blog.csdn.net/sinat_26917383/article/details/51210793

———————————————————————————

笔者寄语:异常值处理一般分为以下几个步骤:异常值检测、异常值筛选、异常值处理。

其中异常值检测的方法主要有:箱型图、简单统计量(比如观察极值)

异常值处理方法主要有:删除法、插补法、替换法。

提到异常值不得不说一个词:鲁棒性。就是不受异常值影响,一般是鲁棒性高的数据,比较优质。

一、异常值检验

异常值大概包括缺失值、离群值、重复值,数据不一致。

1、基本函数

summary可以显示每个变量的缺失值数量.

2、缺失值检验

关于缺失值的检测应该包括:缺失值数量、缺失值比例、缺失值与完整值数据筛选。

代码语言:javascript复制#缺失值解决方案 sum(complete.cases(saledata)) #is.na(saledata) sum(!complete.cases(saledata)) mean(!complete.cases(saledata)) #1/201数字,缺失值比例 saledata[!complete.cases(saledata),] #筛选出缺失值的数值3、箱型图检验离群值

箱型图的检测包括:四分位数检测(箱型图自带)+1δ标准差上下+异常值数据点。

箱型图有一个非常好的地方是,boxplot之后,结果中会自带异常值,就是下面代码中的sp$out,这个是做箱型图,按照上下边界之外为异常值进行判定的。

上下边界,分别是Q3+(Q3-Q1)、Q1-(Q3-Q1)。

代码语言:javascript复制sp=boxplot(saledata$"销量",boxwex=0.7) title("销量异常值检测箱线图") xi=1.1 sd.s=sd(saledata[complete.cases(saledata),]$"销量") mn.s=mean(saledata[complete.cases(saledata),]$"销量") points(xi,mn.s,col="red",pch=18) arrows(xi, mn.s - sd.s, xi, mn.s + sd.s, code = 3, col = "pink", angle = 75, length = .1) text(rep(c(1.05,1.05,0.95,0.95),length=length(sp$out)),labels=sp$out[order(sp$out)], sp$out[order(sp$out)]+rep(c(150,-150,150,-150),length=length(sp$out)),col="red")

代码中text函数的格式为text(x,label,y,col);points加入均值点;arrows加入均值上下1δ标准差范围箭头。

箱型图还有等宽与等深分箱法,可见另外一个博客:R语言︱噪声数据处理、数据分组——分箱法(离散化、等级化)

4、数据去重

数据去重与数据分组合并存在一定区别,去重是纯粹的所有变量都是重复的,而数据分组合并可能是因为一些主键的重复。

数据去重包括重复检测(table、unique函数)以及重复数据处理(unique/duplicated)。

常见的有unique、数据框中duplicated函数,duplicated返回的是逻辑值。

二、异常值处理

常见的异常值处理办法是删除法、替代法(连续变量均值替代、离散变量用众数以及中位数替代)、插补法(回归插补、多重插补)

除了直接删除,可以先把异常值变成缺失值、然后进行后续缺失值补齐。

实践中,异常值处理,一般划分为NA缺失值或者返回公司进行数据修整(数据返修为主要方法)

1、异常值识别

利用图形——箱型图进行异常值检测。

代码语言:javascript复制#异常值识别 par(mfrow=c(1,2))#将绘图窗口划为1行两列,同时显示两图 dotchart(inputfile$sales)#绘制单变量散点图,多兰图 pc=boxplot(inputfile$sales,horizontal=T)#绘制水平箱形图

代码来自《R语言数据分析与挖掘实战》第四节。

2、盖帽法

整行替换数据框里99%以上和1%以下的点,将99%以上的点值=99%的点值;小于1%的点值=1%的点值。

(本图来自CDA DSC,L2-R语言课程,常老师所述)

代码语言:javascript复制#异常数据处理 q1


【本文地址】

公司简介

联系我们

今日新闻


点击排行

实验室常用的仪器、试剂和
说到实验室常用到的东西,主要就分为仪器、试剂和耗
不用再找了,全球10大实验
01、赛默飞世尔科技(热电)Thermo Fisher Scientif
三代水柜的量产巅峰T-72坦
作者:寞寒最近,西边闹腾挺大,本来小寞以为忙完这
通风柜跟实验室通风系统有
说到通风柜跟实验室通风,不少人都纠结二者到底是不
集消毒杀菌、烘干收纳为一
厨房是家里细菌较多的地方,潮湿的环境、没有完全密
实验室设备之全钢实验台如
全钢实验台是实验室家具中较为重要的家具之一,很多

推荐新闻


图片新闻

实验室药品柜的特性有哪些
实验室药品柜是实验室家具的重要组成部分之一,主要
小学科学实验中有哪些教学
计算机 计算器 一般 打孔器 打气筒 仪器车 显微镜
实验室各种仪器原理动图讲
1.紫外分光光谱UV分析原理:吸收紫外光能量,引起分
高中化学常见仪器及实验装
1、可加热仪器:2、计量仪器:(1)仪器A的名称:量
微生物操作主要设备和器具
今天盘点一下微生物操作主要设备和器具,别嫌我啰嗦
浅谈通风柜使用基本常识
 众所周知,通风柜功能中最主要的就是排气功能。在

专题文章

    CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭