统计学(一)： Z 分数 & 正态分布 (附 Python 实现代码)

2023-09-25 19:02| 来源: 网络整理| 查看: 265

在这里插入图片描述

背景介绍

笔者的第一本心理学启蒙教材《西奥蒂尼社会心理学》；揭开了自我、环境、群体之间看不见的影响力。“ 行为背后的目的到底是什么？” “ 目的背后的人和环境发挥了怎样的作用？” 是社会心理学探究的两大核心问题。笔者从心理学网站中抽取了有一组关于说服者态度强硬指数的数据，为了探究受试者态度强硬的程度与说服结果的关系，我们首先需要知道他们的强硬指数的 “ 段位 ”，即他们超过了群体中百分之几的人，又或者说群体中有百分之几的人在 TA 后/前面。不过为了让你对 z 分数有一个更加深刻的认识，请确保你已经掌握了如下的基础概念和简单的术语，它们在统计学实验和文献中会经常出现。在这里插入图片描述

正式开始 z 分数

z 分数是将个体分数，个体所在样本或总体的平均值和标准差串在一起的一个概念，它是对普通数据进行转换的结果，可以更好地描述数据在分布中的位置，进而得出原始分数在数据集合中的百分等级，这样便能让一个统计学外行人也能完全听懂；计算公式为 Z = (X - M)/SD，用来描述某分数在其分布中高于(或低于，如果它为负)平均数的标准差数目；总的来说，可以确定该分数所在的位置(“段位”) 在这里插入图片描述数据预览 & 求解 z 分数

我们现在随机抽取一位同学，计算 TA 强硬指数的“段位” 在这里插入图片描述求解 z 分数现在我们知道了 “石军” 同学的 z 分数大约为 -0.63，那接下来该如何判断其“段位”呢？两个方法：结合正态分布曲线粗略标定法和直接查表法。

查表法：如下为z 分数表通过上表不难看出，石军的 z_score 为 -0.63，根据正态曲线的 z 分数表可以找出精确的百分比为 0.735(三位小数)，即 73.5%，因为其 z 分数为负，所以我们可以这样说：石军同学的强硬指数低于 73.5% 的同学。

源代码

def z_score(data, individual): """ 传入这个样本的所有数据 & 希望探究的个体的数据，打印其对应的 Z 分数 """ # 求解平均值和方差, 并求解 z 分数 mean = data.mean() std = data.std() z = (individual - mean) / std return {'原始分数': individual, 'Mean': round(mean,3), 'Standard deviation': round(std,3), 'Z score': z}

粗略估计法则则可参照下图的范围区间（该图非常常用，需要牢记）在这里插入图片描述顺便安利一个免费的提高效率的软件，用后再不说自己忙了。Office Lens：扫描软件，不多说，谁下谁知道。

正态曲线初探

细心一点的朋友应该会发现，其实上面两个方法（精确查表和粗略看分布图）的方法都是基于正态曲线来说的。其实数据的分布情况并不会给 Z 分数的可信度造成很大影响。Z 分数有时候被称作标准分布，因为 Z 分数相对于平均数和标准差有着标准值，而且它提供了测量任意变量的标准尺度（话虽如此，又是只有当 Z 分数的分布为正态时，术语标准分数才能使用，后面会继续更博）

为什么自然界中正态曲线如此常见？

常见的连续分布的形式在这里插入图片描述

正态分布（刚好处于一半的那个位置）：一般自然界自然生长/自然而成的东西的分布情况如人的身高 – 受到了多方面的影响，很难考量单一因素等。对数正态分布：收入是对数正态。最高的蓝线，最往右边偏的。几种分布中：其中对数正态分布在统计分析中运用最为广泛，顾名思义，这种类型的分布在取对数之后服从正态分布。因为其具有这样的良好属性，在精确度要求并不严格的统计分析中。描述性统计分析 – 直接正态分布描述就可以了；建模的时候才取对数。泊松分布：网页点击量、队伍长度等符合泊松分布伽马分布：灾难给我们带来的经济损失，一旦到了理赔的方面，伽马分布就最常见了

注意：数据分析中，一般情况下，右偏不严重的 – 当正态分布用；右偏严重的 – 当对数正态用；做描述性统计分析的时候，中心水平通常用均值或者中位数来表示。如何在两者中抉择呢？偏度一般：均值；偏度比较大时，使用中位数。为什么不一直使用中位数？对老百姓来说不好理解

说服者态度强硬指数的分布情况在这里插入图片描述

如何一步到位的画出复杂精美的图片可以参考这篇博文

Python 数据可视化：seaborn displot 正态分布曲线拟合图代码注释超详解(放入自写库，一行代码搞定复杂细节绘图)

模拟问答

谈谈你对平均数，方差和标准差的理解吧，他们之间的关系

z 分数是什么，计算公式？有什么意义？

z 分数与百分位数有什么异同？计算公式与 numpy 中的 percentile 函数可当成是一体吗 percentile（百分位数）更接近顺序变量，Z-score（标准分数）是连续变量。分布正态时两者无差别，偏态时用百分位数更好，不过还是要看具体情况。

总而言之，了解 Z 分数，是入门统计学的开始，加油！

后记

数据分析，商业实践，数据可视化，网络爬虫，统计学，Excel，Word, 社会心理学，认知心理学，行为科学，民族意志学各种专栏后续疯狂补充

欢迎评论与私信交流！

【本文地址】

公司简介

联系我们