皮尔逊相关系数

2024-07-14 19:11| 来源: 网络整理| 查看: 265

皮尔逊相关系数经过本杰明·安德森博 7月 29, 2023 指导 1条评论

Pearson 相关系数（也称为“乘积矩相关系数”）是两个变量X和Y之间线性关联的度量。它的值介于 -1 和 1 之间，其中：

-1 表示两个变量之间完全负线性相关0 表示两个变量之间不存在线性相关1 表示两个变量之间存在完全正线性相关求皮尔逊相关系数的公式

用于查找数据样本的皮尔逊相关系数（表示为r ）的公式为（来自维基百科）：

您可能永远不需要手动计算这个公式，因为您可以使用软件来计算这个公式，但是通过示例来了解这个公式的确切作用是有帮助的。

假设我们有以下数据集：

如果我们将这些对 (X, Y) 绘制在散点图上，它将如下所示：

散点图上的 Pearson 相关性示例

只需查看该散点图，我们就可以看到变量 X 和 Y 之间存在正相关关系：随着 X 的增加，Y 也趋于增加。但为了准确量化这两个变量的正相关程度，我们需要找到皮尔逊相关系数。

我们只关注公式的分子：

对于数据集中的每一对 (X, Y)，我们需要找到 x 值与平均 x 值之间的差值、y 值与平均 y 值之间的差值，然后将这两个数字相乘。

例如，我们的第一对 (X, Y) 是 (2, 2)。该数据集中 x 的平均值为 5，该数据集中 y 的平均值为 7。因此该对的 x 值与 x 的平均值之差为 2 – 5 = -3。该对的 y 值与平均 y 值之差为 2 – 7 = -5。然后，当我们将这两个数字相乘时，我们得到 -3 * -5 = 15。

手动皮尔逊相关系数

这是我们刚刚所做的直观概述：

皮尔逊相关示例

然后对每一对执行以下操作：

皮尔逊相关示例散点图上的 Pearson 相关性示例

获取公式分子的最后一步是将所有这些值简单地添加在一起：

15 + 3 +3 + 15 = 36

然后公式的分母告诉我们找到 x 和 y 的所有平方差之和，然后将这两个数字相乘，然后取平方根：

首先我们要求 x 和 y 之差的平方和：

接下来，我们将这两个数字相乘：20 * 68 = 1,360。

最后，我们求平方根：√ 1,360 = 36.88

所以我们发现公式的分子是36，分母是36.88。这意味着我们的皮尔逊相关系数为 r = 36 / 36.88 = 0.976

这个数字接近 1，表明我们的变量X和Y之间存在很强的正线性关系。这证实了我们在散点图中观察到的关系。

查看相关性

请记住，皮尔逊相关系数告诉我们两个变量之间的线性关系类型（正、负、无）以及这种关系的强度（弱、中等、强）。

当我们创建两个变量的散点图时，我们可以看到两个变量之间的真实关系。以下是我们可能观察到的多种类型的线性关系：

强正相关关系：随着 x 轴上的变量增加，y 轴上的变量也会增加。这些点紧密聚集，表明存在很强的关系。

皮尔逊相关系数： 0.94

弱正关系：随着 x 轴上的变量增加，y 轴上的变量也会增加。这些点相当分散，表明关系较弱。

皮尔逊相关系数： 0.44

无关系：变量之间没有明确的关系（正或负）。

皮尔逊相关系数： 0.03

强负关系：随着 x 轴上的变量增加，y 轴上的变量减少。这些点紧密地堆积在一起，表明存在很强的关系。

皮尔逊相关系数： -0.87

弱负关系：随着 x 轴上的变量增加，y 轴上的变量减少。这些点相当分散，表明关系较弱。

皮尔逊相关系数： – 0.46

测试 Pearson 相关系数的显着性

当我们找到一组数据的皮尔逊相关系数时，我们通常会使用来自较大总体的数据样本。这意味着即使两个变量在总体中实际上不相关，也可以找到两个变量的非零相关性。

例如，假设我们为整个总体中每个数据点的变量X和Y创建一个散点图，如下所示：

零相关示例

很明显，这两个变量不相关。然而，当我们从总体中抽取 10 个点的样本时，我们可能会选择以下点：

相关异常值示例

变量X和Y的 Pearson 相关系数为0.00 。但想象一下数据集中有一个异常值：

皮尔逊相关示例

然而，这两个变量的 Pearson 相关系数为0.878 。这个异常值改变了一切。这就是为什么在计算两个变量的相关性时，最好使用散点图可视化变量来检查异常值。

3. Pearson 相关系数不能捕捉两个变量之间的非线性关系。假设我们有两个具有以下关系的变量：

非线性关系的相关性

这两个变量的 Pearson 相关系数为 0.00，因为它们不具有线性关系。然而，这两个变量具有非线性关系：y 值只是 x 值的平方。

使用皮尔逊相关系数时，请记住您只是测试两个变量是否线性相关。即使皮尔逊相关系数告诉我们两个变量不相关，它们仍然可能具有某种类型的非线性关系。这是在分析两个变量之间的关系时创建散点图很有用的另一个原因：它可以帮助您检测非线性关系。

关于作者

本杰明·安德森博

大家好，我是本杰明，一位退休的统计学教授，后来成为 Statorials 的热心教师。凭借在统计领域的丰富经验和专业知识，我渴望分享我的知识，通过 Statorials 增强学生的能力。了解更多

一条评论

Zhang Chunbo 11月 6, 2023

I am a Chinese student studying IAL. Your website has been of great help to me, and I see your initiative as a substantial support for free access to knowledge, giving everyone an equal right to learn.My greatest respect to you.

回复添加评论取消回复

【本文地址】

公司简介

联系我们