R语言︱异常值检验、离群点分析、异常值处理 |
您所在的位置:网站首页 › 箱图的异常值怎么处理 › R语言︱异常值检验、离群点分析、异常值处理 |
版权声明:博主原创文章,微信公众号:素质云笔记,转载请注明来源“素质云博客”,谢谢合作!! https://blog.csdn.net/sinat_26917383/article/details/51210793 ——————————————————————————— 笔者寄语:异常值处理一般分为以下几个步骤:异常值检测、异常值筛选、异常值处理。 其中异常值检测的方法主要有:箱型图、简单统计量(比如观察极值) 异常值处理方法主要有:删除法、插补法、替换法。 提到异常值不得不说一个词:鲁棒性。就是不受异常值影响,一般是鲁棒性高的数据,比较优质。 一、异常值检验异常值大概包括缺失值、离群值、重复值,数据不一致。 1、基本函数summary可以显示每个变量的缺失值数量. 2、缺失值检验关于缺失值的检测应该包括:缺失值数量、缺失值比例、缺失值与完整值数据筛选。 代码语言:javascript复制#缺失值解决方案 sum(complete.cases(saledata)) #is.na(saledata) sum(!complete.cases(saledata)) mean(!complete.cases(saledata)) #1/201数字,缺失值比例 saledata[!complete.cases(saledata),] #筛选出缺失值的数值3、箱型图检验离群值箱型图的检测包括:四分位数检测(箱型图自带)+1δ标准差上下+异常值数据点。 箱型图有一个非常好的地方是,boxplot之后,结果中会自带异常值,就是下面代码中的sp$out,这个是做箱型图,按照上下边界之外为异常值进行判定的。 上下边界,分别是Q3+(Q3-Q1)、Q1-(Q3-Q1)。 代码语言:javascript复制sp=boxplot(saledata$"销量",boxwex=0.7) title("销量异常值检测箱线图") xi=1.1 sd.s=sd(saledata[complete.cases(saledata),]$"销量") mn.s=mean(saledata[complete.cases(saledata),]$"销量") points(xi,mn.s,col="red",pch=18) arrows(xi, mn.s - sd.s, xi, mn.s + sd.s, code = 3, col = "pink", angle = 75, length = .1) text(rep(c(1.05,1.05,0.95,0.95),length=length(sp$out)),labels=sp$out[order(sp$out)], sp$out[order(sp$out)]+rep(c(150,-150,150,-150),length=length(sp$out)),col="red")代码中text函数的格式为text(x,label,y,col);points加入均值点;arrows加入均值上下1δ标准差范围箭头。 ![]() 箱型图还有等宽与等深分箱法,可见另外一个博客:R语言︱噪声数据处理、数据分组——分箱法(离散化、等级化) 4、数据去重数据去重与数据分组合并存在一定区别,去重是纯粹的所有变量都是重复的,而数据分组合并可能是因为一些主键的重复。 数据去重包括重复检测(table、unique函数)以及重复数据处理(unique/duplicated)。 常见的有unique、数据框中duplicated函数,duplicated返回的是逻辑值。 二、异常值处理常见的异常值处理办法是删除法、替代法(连续变量均值替代、离散变量用众数以及中位数替代)、插补法(回归插补、多重插补) 除了直接删除,可以先把异常值变成缺失值、然后进行后续缺失值补齐。 实践中,异常值处理,一般划分为NA缺失值或者返回公司进行数据修整(数据返修为主要方法) 1、异常值识别利用图形——箱型图进行异常值检测。 代码语言:javascript复制#异常值识别 par(mfrow=c(1,2))#将绘图窗口划为1行两列,同时显示两图 dotchart(inputfile$sales)#绘制单变量散点图,多兰图 pc=boxplot(inputfile$sales,horizontal=T)#绘制水平箱形图代码来自《R语言数据分析与挖掘实战》第四节。 2、盖帽法整行替换数据框里99%以上和1%以下的点,将99%以上的点值=99%的点值;小于1%的点值=1%的点值。 ![]() (本图来自CDA DSC,L2-R语言课程,常老师所述) 代码语言:javascript复制#异常数据处理 q1 |
今日新闻 |
点击排行 |
|
推荐新闻 |
图片新闻 |
|
专题文章 |
CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭 |