规范化、中心化、归一化、标准化、无量纲化 | 您所在的位置:网站首页 › 规范化方法的值域 › 规范化、中心化、归一化、标准化、无量纲化 |
规范化是一个统称,包括一系列使得数据满足我们研究需要的处理过程,也可称为数据的预处理,例如消除量纲的影响、将数据变换到特定区间等等,也就是说,规范化包含了标准化、归一化等处理。 2.无量纲化是指消除量纲的影响,使得不同特征的数据具有可比性。而归一化、标准化就是实现无量纲化的具体做法。 3.中心化中心化就是把数据整体移动到以0为中心点的位置,将数据减去这个数据集的平均值即可。 4.归一化(Normalization)归一化,顾名思义,一般是将数据映射到指定的范围如[0,1],用于去除不同维度数据的量纲影响。常用的方法有:max-min(最大最小归一化,极差变化法)、线性比例变化法、利用向量模的归一化方法等。 ● max min归一化:x'=\dfrac{x-min}{max-min} ● 线性比例变化法:x'=\dfrac{x}{max} ● 利用向量的模:x'=\dfrac{x}{\sqrt{\sum_{i=1}^nx_i^2}} 5.标准化(Standardization)标准化,顾名思义,和标准正态分布有点关系,是指利用样本的均值和方差将原始数据进行变换,使得均值为0,标准差为1(但并不一定是正态分布),即z-score标准化: x'=\dfrac{x-\mu}{\sigma}\\ 分子可以看做是先进行了中心化,然后再除以数据的方差;或者可以看成先对向量进行了平移再进行压缩。 总结规范化是一个总称,包含了各种数据预处理工作,归一化和标准化都是一种特征缩放的方法,可以用于实现无量纲化,归一化强调将数据缩放到特定的区间,仅使用数据的极值,最常用的是max-min方法,而标准化强调将数据变成均值为0方差为1的样本总体,一般就是指z-score方法。 一般,数据中存在异常值/离群点或数据本身服从正态分布时,更适合用z-score标准化;若对数据的范围有明确要求,不存在极端的最大最小值,可以使用归一化。 然而标准化与归一化在实际中并不特意区分,可以根据数据特点选择具体的处理方法。 参考资料: |
CopyRight 2018-2019 实验室设备网 版权所有 |