数据预处理 您所在的位置:网站首页 数据集成分析都有什么 数据预处理

数据预处理

2024-07-01 15:04| 来源: 网络整理| 查看: 265

数据预处理的主要内容 数据清洗 缺失值 异常值 数据集成 实体识别 冗余属性识别 数据变换 简单函数变换 归一化 连续属性离散化 属性构造 小波变换(不太了解,故不想做笔记) 数据规约 属性规约 数值规约

笔记来源《Python数据分析与挖掘实战》0~

数据清洗

主要是删除原始数据集中的无关数据、重复数据,平滑噪声数据,筛选掉与目的无关的数据,处理缺失值、异常值等。

缺失值

处理的方法一般有三种:删除记录、数据插补、不处理。直接删除会浪费和丢弃大量隐藏的信息,可能会影响到分析结果的客观性和正确性。

常用的插补方法有:

均值、中位数、众数插补 用固定值,如官方出具的一些标准数据 最近邻插补 回归插补,如建立模型来拟合已有数据 插值法,如拉格朗日插值法、牛顿插值法、分段插值法等,其中拉格朗日法在python的Scipy库中有现成的函数可以调用1,牛顿插值法就需要自己编写代码了。 异常值

异常值处理的方法主要有:删除记录、将其视为缺失值【这样可以利用已有的信息来填补】、用平均值修正、不处理【直接在有异常值的数据集上建模】。

数据集成

数据集成即:将多个不同的数据源合并存放在一个一致的数据存储(如数据仓库)中的过程。 因为数据往往分布在不同的数据源中, 来自多个数据源的现实世界实体的表达形式不一样,有可能不匹配,所以要考虑实体识别问题和属性冗余问题,从而将源数据在最底层上加以转换、提炼和集成。

实体识别


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有