数据缺失类型 您所在的位置:网站首页 区分度有哪三种类型 数据缺失类型

数据缺失类型

2024-07-16 14:26| 来源: 网络整理| 查看: 265

目录

 

一、缺失值分类

1.1 完全随机缺失(missing completely at random,MCAR)

1.2 随机缺失 (missing at random,MAR)

1.3 非随机缺失 (missing not at random,MNAR)

二、缺失值处理

2.1 删除

2.2 插补

一、缺失值分类

数据缺失类型分为三种:完全随机缺失、随机缺失、非随机缺失。

1.1 完全随机缺失(missing completely at random,MCAR)

指的是数据的缺失是随机的,数据的缺失不依赖于任何不完全变量或完全变量。空值的出现与数据集中已知或者未知的特征是完全无关的。就像随机遗失(MAR)一样,测试应该比较有缺失值的记录和无空值的记录的其他变量的分布。(没有任何已知特征与其相关,类似自然选择无筛选条件)。

比如:一调查问卷中的性别字段,是否缺失完全随机,取决于调查对象。

1.2 随机缺失 (missing at random,MAR)

指的是数据的缺失不是完全随机的,即该类数据的缺失依赖于其他完全变量。

比如:一个关于教育的数据集缺失了很多小孩的IQ测试分数,只是因为相比十二岁的孩子,四岁的孩子很少会通过这个测试。所以出现的空值与IQ实际值没有相关性,而与年龄相关。IQ字段缺失记录主要集中在低年龄人群中!

1.3 非随机缺失 (missing not at random,MNAR)

指的是数据的缺失依赖于不完全变量自身。 

比如:只有得低分个体的IQ变量值缺失。

二、缺失值处理 2.1 删除

删除行:只对于完全随机缺失(MCAR)的时间序列 。如果缺失值只占数据集的一小部分,删除行是一个完美解决方案。但是,当比例上升时,这很快就行不通了。

删除列:我们通常不考虑这个方法因为这会导致重要信息丢失。一般来说,当空值比例高于60%时,你可以开始考虑删除列(根据实际情况选择比例,数据充足时30%亦可)。

2.2 插补

上一个或下一个值:仅用于完全随机缺失(MCAR)在处理时间序列问题时,可以使用前或后一个值填充缺失值。

平均值:仅用于完全随机缺失(MCAR)因为平均值对异常值敏感,所以用平均值并非是一个好的选择。

中位数值:(仅用于完全随机缺失(MCAR)类似于平均值,但是对异常值更稳定。

众数值:仅用于完全随机缺失(MCAR)通过选择最常见的值,可以确定大部分时间你正确填充空值。但是要小心多众数分布,因为对于此,使用众数就不再是一个可行的方案。

用常数填充:(仅用于非随机缺失(MNAR)正如我们之前看到的,非随机缺失(MNAR)情况下的缺失值实际上包含很多有关实际值的信息。所以,用常数值来填充空值是可行的(不同于其他类型数值)。

线性插值法:(仅用于完全随机缺失(MCAR)下的时间序列)在具有趋势和几乎没有季节性问题的时间序列中,我们可以用缺失值前后的值进行线性插值来估算出缺失值。

样条插值法:(仅用于完全随机缺失(MCAR)下的时间序列)这个方法和线性插值法相似,但是因为样条插值法使用高阶多项式特征从而得到了更平滑的插值。重申,这个方法不适用于季节性数据。

具有季节性调整的线性/样条插值法:(只适用于完全随机缺失(MCAR)情况下的时间序列)这个方法和线性、样条插值法原理一致,但是对于季节性进行了调整。它包括了消除季节变动的影响,应用线性/样条插值法和对时间序列应用季节性。下面是一个对于STL(一种数据去季节性的方法)的详细解释。

机器学习算法(线性回归,KNN,MCMC,多元高斯或者任何:(仅用于随机缺失(MAR)使用这一方法可能需要额外的工作,但是这是处理随机缺失(MAR)唯一可行的方案。因为这个方法考虑了其他变量的记录值,所以我们可以使用这些变量缺失和非缺失值的不同信息来预测缺失值。

多重插补法:(仅适用于随机遗失(MAR)和完全随机遗失(MCAR))多重插补法是最好的处理缺失值的方法。这个方法用一个模型多次估算缺失值,因为模型允许同一个观测结果有不同的预测值。使同一观测对象的预测值差异化的解决方案可以用一个类似线性回归的模型。假设一个模型参数来自一个你可以让每一步估算过程中产生小小的变化,想知道更多这个技巧可以查看下方链接。对于每一步的估算,都有一个新的数据集产生。然后对每个数据集进行分析。完成之后,计算不同数据集结果的平均值和标准方差,给出一个具有“置信区间”的输出值的近似值。

 

 

 

 



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有