spss分析数据如何剔除极端值? 您所在的位置:网站首页 三值指的是 spss分析数据如何剔除极端值?

spss分析数据如何剔除极端值?

2023-03-22 00:16| 来源: 网络整理| 查看: 265

在数据分析工作中,面对收集而来的数据,数据清洗是首要环节。而异常值处理是其中的一个重要部分。下面就给大家介绍一下如何处理数据中的异常值。

一、异常值判断

何为异常值?

异常值,指的是样本中的一些数值明显偏离其余数值的样本点,所以也称为离群点。异常值分析就是要将这些离群点找出来,然后进行分析。

异常值判断

在不同的数据中,鉴别异常值有不同的标准,常规有以下几种:

(1)数字超过某个标准值

这是最常用的异常值判断方法之一。主要是看数据中的最大值或最小值,依据专业知识或个人经验,判断是否超过了理论范围值,数据中有没有明显不符合实际情况的错误。

比如,测量成年男性身高(M),出现17.8m这样的数据,显然不符合实际情况。

又或者,如问卷数据使用1-5级量表进行研究,出现-2,-3这类数据,则可能提示为跳转题、空选等。

(2)数据大于±3标准差

3σ 原则是在数据服从正态分布的时候用的比较多,在这种情况下,异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值。

在数据处理的时候,按照正态分布的性质,三个标准差以外的数据都可以被看作是错误的数据从而排除掉。

二、异常值的鉴别

(1)箱盒图

箱盒图很适合鉴别异常值,具体的判断标准是计算出数据中的最小估计值和最大估计值。如果数据数据超过这一范围,说明该值可能为异常值。箱盒图会自动标出此范围,异常值则用圆圈表示。

SPSSAU【可视化】--【箱线图】可完成此操作。

SPSSAU 箱线图

(2)描述分析

描述分析可以得到数据的最大值、最小值、四分位值等。通过描述分析查看出数据中有无极端值,并将极端值剔除。不过描述分析没有箱盒图展现的直观,一般可以初步筛查时使用。

SPSSAU【通用方法】--【描述】可完成此操作。

SPSSAU 描述分析

(3)散点图

散点图通过展示两组数据的位置关系,可以清晰直观地看出哪些值是离群值。异常值会改变数据间的关系,通常在研究数据关系,如进行回归分析前,都会先做散点图观察数据中是否存在异常值。

SPSSAU【可视化】--【散点图】可完成此操作。

SPSSAU 散点图

三、异常值处理

异常值的处理分为三种:设为缺失值、填补、不处理。

(1)缺失

设置为Null值;此类处理最简单,而且绝大多数情况下均使用此类处理;直接将异常值“干掉”,相当于没有该异常值。如果异常值不多时建议使用此类方法。

(2)填补

如果异常值非常多时,则可能需要进行填补设置,SPSSAU共提供平均值,中位数,众数和随机数、填补数字0共五种填补方式。

(3)不处理

一些异常值也可能同时包含有用的信息,是否需要剔除,应由分析人员自行判断。

四、异常值操作SPSSAU操作

判断有异常值后可以通过SPSSAU【数据处理】--【异常值】进行处理。

SPSSAU 异常值

此处可以对缺失值进行填补或设为Null,即空值。也可以对异常值进行处理。设置标准由分析人员自行设定,然后点击“确认处理”按钮即可生效。

注意事项

1、异常值带微弱主观性,判定没有固定标准,一些异常值也可能同时包含有用的信息,是否需要剔除,应由分析人员自行判断。

2、异常值一旦处理则无法恢复,建议先备份数据再操作。

以上就是本次分享的内容,登录SPSSAU官网了解更多。



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有