规范化、中心化、归一化、标准化、无量纲化 您所在的位置:网站首页 规范化方法的值域 规范化、中心化、归一化、标准化、无量纲化

规范化、中心化、归一化、标准化、无量纲化

2023-04-21 09:34| 来源: 网络整理| 查看: 265

1.规范化

规范化是一个统称,包括一系列使得数据满足我们研究需要的处理过程,也可称为数据的预处理,例如消除量纲的影响、将数据变换到特定区间等等,也就是说,规范化包含了标准化、归一化等处理。

2.无量纲化

是指消除量纲的影响,使得不同特征的数据具有可比性。而归一化、标准化就是实现无量纲化的具体做法。

3.中心化

中心化就是把数据整体移动到以0为中心点的位置,将数据减去这个数据集的平均值即可。

4.归一化(Normalization)

归一化,顾名思义,一般是将数据映射到指定的范围如[0,1],用于去除不同维度数据的量纲影响。常用的方法有:max-min(最大最小归一化,极差变化法)、线性比例变化法利用向量模的归一化方法等。

● max min归一化:x'=\dfrac{x-min}{max-min}

● 线性比例变化法:x'=\dfrac{x}{max}

● 利用向量的模:x'=\dfrac{x}{\sqrt{\sum_{i=1}^nx_i^2}}

5.标准化(Standardization)

标准化,顾名思义,和标准正态分布有点关系,是指利用样本的均值和方差将原始数据进行变换,使得均值为0,标准差为1(但并不一定是正态分布),即z-score标准化:

x'=\dfrac{x-\mu}{\sigma}\\ 分子可以看做是先进行了中心化,然后再除以数据的方差;或者可以看成先对向量进行了平移再进行压缩。

总结

规范化是一个总称,包含了各种数据预处理工作,归一化和标准化都是一种特征缩放的方法,可以用于实现无量纲化,归一化强调将数据缩放到特定的区间,仅使用数据的极值,最常用的是max-min方法,而标准化强调将数据变成均值为0方差为1的样本总体,一般就是指z-score方法。

一般,数据中存在异常值/离群点或数据本身服从正态分布时,更适合用z-score标准化;若对数据的范围有明确要求,不存在极端的最大最小值,可以使用归一化。

然而标准化与归一化在实际中并不特意区分,可以根据数据特点选择具体的处理方法。

在分类、聚类算法中,需要使用距离来度量相似性的时候、或者使用PCA技术进行降维的时候,需要先做标准化。且Z-score standardization表现更好;基于树的模型不需要标准化;用到正则的线性模型一定要标准化,没用到正则的线性模型不一定要标准化, 但标准化可以加快收敛;在不涉及距离度量、协方差计算、数据不符合正态分布的时候,可以使用归一化方法。

参考资料:



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有