《数据清洗》第一章知识总结

#《数据清洗》第一章知识总结| 来源: 网络整理| 查看: 265

数据清洗概述 1.1 数据清洗的背景

目前的海量数据来源广泛，类型繁杂。由此会出现不完整、重复、错误等问题。因此数据清洗是大数据分析和应用过程中的关键环节。

1）数据质量

数据质量是一个相对的概念，是指在业务环境下，数据符合数据消费者的使用目的，能满足业务场景具体需求的程度。

2）数据质量的评价指标

准确性、完整性、简洁性、适用性。

其中适用性是评价数据质量的重要标准，而数据的准确性、完整性和简洁性是为了保证数据的适用性。

3）数据质量的问题分类

由于数据仓库的数据来自底层数据源，因此“脏”数据出现的原因和数据源有密切的关系。而基于数据源的“脏”数据分类方法需要为每种类型的“脏”数据设计单独的清洗方式，所以从数据清洗方式的设计者角度看又可以进一步的进行分类，这是基于清洗方式的“脏”数据分类。

模式层：数据库的结构，就是关系结构

实例层：关系中具体存储的数据记录或元组

独立型“脏”数据：可通过记录或本身属性检验出是否包含“脏”数据，不需要依赖其他记录或属性检测

依赖性“脏”数据：主要包括缺失数据和重复数据等“脏”数据，而缺失数据主要为数据空值和数据异常，一般针对特定类型的“脏”数据涉及特定的清洗方式

1.2 数据清洗的定义

数据清洗技术是提高数据质量的有效方法。主要应用于3个领域，即数据仓库领域、数据挖掘领域以及数据质量管理领域。

1.3 数据清洗的原理

数据清洗是利用相关技术将“脏”数据转换为满足质量要求的数据

需要注意的是，数据清洗的目的是解决“脏”数据问题，不是将“脏”数据洗掉，是将其洗干净

1.4 数据清洗的基本流程

原始数据→数据分析→定义数据清洗的策略和规则→搜寻并确定错误实例→纠正发现的错误→干净数据回流→目标数据

1.5 数据清洗的策略

1)一般的数据策略

手工清洗策略：即通过人工直接修改“脏”数据

自动清洗策略：即通过编写专门的应用程序检测并修改“脏”数据

特定应用领域的清洗策略：即根据概率统计学原理检测并修改数值异常的记录

与特定应用领域无关的清洗策略：即根据相关算法检测并删除重复记录

2）混合的数据清洗策略

主要以自动清洗为主

1.6 常见的数据清洗方法

1）缺失值的清洗

主要分为两类，分别是忽略缺失值数据即直接删除属性或实例忽略缺失值的数据和填充缺失值数据即使用最接近缺失值的值替代缺失的值。

2）重复值的清洗

目前的基本思想是“排序和合并”，主要方法有相似度计算和基于基本近邻排序算法。相似度计算是通过计算记录的个别属性的相似度然后考虑权重值来判断重复性。而基本近邻排序算法是为了减少记录的比较次数，再按关键字排序后的数据集移动一个大小固定的窗口，通过检测窗口内的记录判断其相似度从而确定并处理重复记录。

3）错误值的清洗

主要是使用统计分析的方法识别可能的错误值、使用简单规则库检测出错误值、使用不同属性间的约束以及使用外部的数据等方法检测和处理错误值

【本文地址】

公司简介

联系我们