Standardization（标准化）和Normalization（归一化）的区别

2024-07-17 02:51| 来源: 网络整理| 查看: 265

先前一直在纠结Standardization（标准化）和Normalization（归一化）的区别，后来参考了知乎（https://www.zhihu.com/question/20467170）的一篇文章才终于弄懂。

其实Standardization和Normalization在不同的领域是有不同的定义的，一直以来弄不清楚的原因也是因为混用了，现在从统计学、机器学习、sklearn的preprocessing模块3个方面来区分，参考资料为：

统计学：https://en.wikipedia.org/wiki/Normalization_(statistics)

机器学习：https://en.wikipedia.org/wiki/Feature_scaling

sklearn的preprocessing：

因为Normalization有几个意思，为方便，在本文，统一把Normalization翻译为归一化，Standardization翻译为标准化。

从统计学上：

在统计学上没有Standardization，只有Normalization，不管是把数据变为均值为0，方差为1的正态分布，还是把数据映射到[0,1]，都叫Normalization，其包括如下几种公式：

从机器学习上：

在机器学习上，叫Feature Sacling，也叫Normalization，其主要为：

2个归一化：

Rescaling (min-max normalization)： $x'={\frac {x-{\text{min}}(x)}{{\text{max}}(x)-{\text{min}}(x)}}$ Mean normalization： $x'={\frac {x-{\text{average}}(x)}{{\text{max}}(x)-{\text{min}}(x)}}$

1个标准化（把数据分布变为正态分布）：

Standardization： $x' = \frac{x - \bar{x}}{\sigma}$

一个正则化（x除以L2范数）：

Scaling to unit length： $x'={\frac {x}{||x||}}$

所以，在机器学习里，把数据变为正态分布是标准化，把数据的范围缩放到[0,1]是归一化。

从sklearn的preprocessing上：

在preprocessing里，不管是把数据分布变为均值为0，方差为1的正态分布还是把数据缩放到[0,1]都叫Standardization，当然把数据缩放为[-1,1]也叫Standardization，preprocessing里的Normalization里只包括正则化，即把x除以L1-范数或L2范数。

标准化的方法远不止上述这些，但这里只把我觉得疑惑的点写出来，想要知道更多的公式可以自己去研究。

【本文地址】

公司简介

联系我们