皮尔逊相关系数 | 您所在的位置:网站首页 › 如果变量x和变量y之间的相关系数为 › 皮尔逊相关系数 |
皮尔逊相关系数经过 本杰明·安德森博
7月 29, 2023
指导
1条评论 Pearson 相关系数(也称为“乘积矩相关系数”)是两个变量X和Y之间线性关联的度量。它的值介于 -1 和 1 之间,其中: -1 表示两个变量之间完全负线性相关0 表示两个变量之间不存在线性相关1 表示两个变量之间存在完全正线性相关求皮尔逊相关系数的公式用于查找数据样本的皮尔逊相关系数(表示为r )的公式为( 来自维基百科): 您可能永远不需要手动计算这个公式,因为您可以使用软件来计算这个公式,但是通过示例来了解这个公式的确切作用是有帮助的。 假设我们有以下数据集: 如果我们将这些对 (X, Y) 绘制在散点图上,它将如下所示: 只需查看该散点图,我们就可以看到变量 X 和 Y 之间存在正相关关系:随着 X 的增加,Y 也趋于增加。但为了准确量化这两个变量的正相关程度,我们需要找到皮尔逊相关系数。 我们只关注公式的分子: 对于数据集中的每一对 (X, Y),我们需要找到 x 值与平均 x 值之间的差值、y 值与平均 y 值之间的差值,然后将这两个数字相乘。 例如,我们的第一对 (X, Y) 是 (2, 2)。该数据集中 x 的平均值为 5,该数据集中 y 的平均值为 7。因此该对的 x 值与 x 的平均值之差为 2 – 5 = -3。该对的 y 值与平均 y 值之差为 2 – 7 = -5。然后,当我们将这两个数字相乘时,我们得到 -3 * -5 = 15。 这是我们刚刚所做的直观概述: 然后对每一对执行以下操作: 获取公式分子的最后一步是将所有这些值简单地添加在一起: 15 + 3 +3 + 15 = 36 然后公式的分母告诉我们找到 x 和 y 的所有平方差之和,然后将这两个数字相乘,然后取平方根: 首先我们要求 x 和 y 之差的平方和: 接下来,我们将这两个数字相乘:20 * 68 = 1,360。 最后,我们求平方根:√ 1,360 = 36.88 所以我们发现公式的分子是36,分母是36.88。这意味着我们的皮尔逊相关系数为 r = 36 / 36.88 = 0.976 这个数字接近 1,表明我们的变量X和Y之间存在很强的正线性关系。这证实了我们在散点图中观察到的关系。 查看相关性请记住,皮尔逊相关系数告诉我们两个变量之间的线性关系类型(正、负、无)以及这种关系的强度(弱、中等、强)。 当我们创建两个变量的散点图时,我们可以看到两个变量之间的真实关系。以下是我们可能观察到的多种类型的线性关系: 强正相关关系:随着 x 轴上的变量增加,y 轴上的变量也会增加。这些点紧密聚集,表明存在很强的关系。 皮尔逊相关系数: 0.94 弱正关系:随着 x 轴上的变量增加,y 轴上的变量也会增加。这些点相当分散,表明关系较弱。 皮尔逊相关系数: 0.44 无关系:变量之间没有明确的关系(正或负)。 皮尔逊相关系数: 0.03 强负关系:随着 x 轴上的变量增加,y 轴上的变量减少。这些点紧密地堆积在一起,表明存在很强的关系。 皮尔逊相关系数: -0.87 弱负关系:随着 x 轴上的变量增加,y 轴上的变量减少。这些点相当分散,表明关系较弱。 皮尔逊相关系数: – 0.46 测试 Pearson 相关系数的显着性当我们找到一组数据的皮尔逊相关系数时,我们通常会使用来自较大总体的数据样本。这意味着即使两个变量在总体中实际上不相关,也可以找到两个变量的非零相关性。 例如,假设我们为整个总体中每个数据点的变量X和Y创建一个散点图,如下所示: 很明显,这两个变量不相关。然而,当我们从总体中抽取 10 个点的样本时,我们可能会选择以下点: 我们可以看到,该点样本的 Pearson 相关系数为 0.93,表明尽管总体相关性为零,但仍存在很强的正相关性。 为了检验两个变量之间的相关性是否具有统计显着性,我们可以找到以下检验统计量: 检验统计量 T = r * √ (n-2) / (1-r 2 ) 其中n是样本中的对数, r是 Pearson 相关系数,T 检验统计量遵循 n-2 自由度的分布。 让我们回顾一下如何测试 Pearson 相关系数的显着性的示例。 例子以下数据集显示了 12 个人的身高和体重: 下面的散点图显示了这两个变量的值: 这两个变量的 Pearson 相关系数为 r = 0.836。 检验统计量 T = 0.836 * √ (12 -2) / (1-0.836 2 ) = 4.804。 根据我们的t 分布计算器,自由度为 10 的分数 4.804 的 p 值为 0.0007。由于 0.0007 < 0.05,我们可以得出结论,本例中体重和身高之间的相关性在 alpha = 0.05 时具有统计显着性。 防范措施尽管皮尔逊相关系数可用于告诉我们两个变量是否具有线性关联,但在解释皮尔逊相关系数时,我们需要记住三件事: 1.相关性并不意味着因果关系。并不是因为两个变量相关,其中一个变量必然会导致另一个变量出现的频率增加或减少。一个典型的例子是冰淇淋销售与鲨鱼袭击之间的正相关关系。当冰淇淋销量在一年中的某些时候增加时,鲨鱼袭击事件也往往会增加。 这是否意味着吃冰淇淋会导致鲨鱼袭击?当然不是!这仅仅意味着在夏天,冰的消耗和鲨鱼袭击往往会增加,因为冰在夏天更受欢迎,更多的人在夏天进入海洋。 2. 相关性对异常值很敏感。极端异常值可以显着改变皮尔逊相关系数。考虑下面的例子: 变量X和Y的 Pearson 相关系数为0.00 。但想象一下数据集中有一个异常值: 然而,这两个变量的 Pearson 相关系数为0.878 。这个异常值改变了一切。这就是为什么在计算两个变量的相关性时,最好使用散点图可视化变量来检查异常值。 3. Pearson 相关系数不能捕捉两个变量之间的非线性关系。假设我们有两个具有以下关系的变量: 这两个变量的 Pearson 相关系数为 0.00,因为它们不具有线性关系。然而,这两个变量具有非线性关系:y 值只是 x 值的平方。 使用皮尔逊相关系数时,请记住您只是测试两个变量是否线性相关。即使皮尔逊相关系数告诉我们两个变量不相关,它们仍然可能具有某种类型的非线性关系。这是在分析两个变量之间的关系时创建散点图很有用的另一个原因:它可以帮助您检测非线性关系。 关于作者大家好,我是本杰明,一位退休的统计学教授,后来成为 Statorials 的热心教师。 凭借在统计领域的丰富经验和专业知识,我渴望分享我的知识,通过 Statorials 增强学生的能力。了解更多 一条评论I am a Chinese student studying IAL. Your website has been of great help to me, and I see your initiative as a substantial support for free access to knowledge, giving everyone an equal right to learn.My greatest respect to you. 回复添加评论取消回复 |
CopyRight 2018-2019 实验室设备网 版权所有 |