数据预处理 | 您所在的位置:网站首页 › 数据集成分析都有什么 › 数据预处理 |
数据预处理的主要内容
数据清洗
缺失值
异常值
数据集成
实体识别
冗余属性识别
数据变换
简单函数变换
归一化
连续属性离散化
属性构造
小波变换(不太了解,故不想做笔记)
数据规约
属性规约
数值规约
笔记来源《Python数据分析与挖掘实战》0~ 数据清洗主要是删除原始数据集中的无关数据、重复数据,平滑噪声数据,筛选掉与目的无关的数据,处理缺失值、异常值等。 缺失值处理的方法一般有三种:删除记录、数据插补、不处理。直接删除会浪费和丢弃大量隐藏的信息,可能会影响到分析结果的客观性和正确性。 常用的插补方法有: 均值、中位数、众数插补 用固定值,如官方出具的一些标准数据 最近邻插补 回归插补,如建立模型来拟合已有数据 插值法,如拉格朗日插值法、牛顿插值法、分段插值法等,其中拉格朗日法在python的Scipy库中有现成的函数可以调用1,牛顿插值法就需要自己编写代码了。 异常值异常值处理的方法主要有:删除记录、将其视为缺失值【这样可以利用已有的信息来填补】、用平均值修正、不处理【直接在有异常值的数据集上建模】。 数据集成数据集成即:将多个不同的数据源合并存放在一个一致的数据存储(如数据仓库)中的过程。 因为数据往往分布在不同的数据源中, 来自多个数据源的现实世界实体的表达形式不一样,有可能不匹配,所以要考虑实体识别问题和属性冗余问题,从而将源数据在最底层上加以转换、提炼和集成。 实体识别 |
CopyRight 2018-2019 实验室设备网 版权所有 |