都有哪些形式的描述性统计？

您所在的位置：网站首页 › oneself有哪些形式 › 都有哪些形式的描述性统计？

都有哪些形式的描述性统计？

2023-03-21 09:43| 来源: 网络整理| 查看: 265

你好！欢迎参加《小白爱上SPSS》课程，这是第二讲内容：如何进行描述性统计。

今天，小白正悠闲地看着金庸笔下40名大侠在切磋武艺，太精彩了，看得如痴如醉。

突然教导主任过来，“小白啊，把这40名大侠基本情况汇总下，半个小时交过了”。

小白一脸懵逼地问“怎么汇总？”

教导主任不耐烦地说“用描述性统计啊”

小白不敢再问了，赶紧打开手机，从“小白爱上SPSS”课程中搜索到描述统计相关内容。

一、描述性统计

对样本数据的特征进行统计描述，称之为描述性统计。具体包括三方面：数据集中量数、差异量数和分布形态。

1、 集中量数

集中量数是指描述数据的集中趋势，包括平均数、中位数和众数。

【平均值】所有观察变量值相加，再除以观察值的个数所得之商。

注意：平均值易受到极端值的影响，或数据出现严重偏态时，此时平均数失去代表性，可用中位数来代替。

例：2、20、23、25、21、28、26、31中，2在这组数据中属于极端值，若要用平均值来代表这组数据，则会因为受到极端值2的影响而失去代表性。

【中位数】将数据按从小到大排列后，在中间位置的数。例：在10、12、15、18、23中，中位数为15。

注意：在有极端数值和偏态分布时、数据分布不对称时，使用中位数。

【众数】一组数据中出现次数最多的数。例：10、12、18、24、12、20、12、15、10、23、18中，众数为12。

2、差异量数

差异量数是指描述数据的离散趋势。包括标准差、方差、全距和四分位距。

【标准差】是表示离散趋势的统计量，是指各个数据与平均数之差的平方的平均数(方差)的算术平方根, 代表数据的离散程度。标准差的值越大，表示各数值不在均值的附近，数据分布的离散程度大，反之亦然。

注意：标准差是反映数据离散趋势首选指标，但它也容易受极端数据的影响。如果数据出现严重偏态，则不太适合采用标准差描述。

【方差】方差是标准差的平方。

【全距】也称范围，指一组数据中最大值与最小值的差。

【四分位距】将数据按从小到大排序，分成四等份。每份各占25%，上四分位数为75%处的值，下四分位数为25%处的值，四分位数间距=75%处的值-25%处的值。数值越大，个体差异度越大。

注意：当数据属于偏态时，则采用采用四分位距代替标准差。

【标准误差平均值】也称标准误，是样本均值与总体均值间平均差异程度的统计量，是统计推断的核心概念。

3、分布形态

【偏度】分布不对称的方向和和程度。若偏度>0，为正偏态，长长的尾巴在右侧；若偏度

【峰度】指分布图形的峰凸程度。峰度>0，为高峰度，表示比正态分布更陡峭，峰形较尖，反之亦然，如下图所示。

有了这些知识之后，我们就可以利用SPSS进行描述性统计了。

本讲主要介绍频数和描述分析两个功能。

二、频数分析

我们先看40名大侠的变量类型。编号和姓名代表大侠的ID，我们不对其进行描述统计分析。另外班级和性别为分类变量。身高、体重和成绩是连续型变量。对不同变量类型，需采用不同描述策略（详情点击之前推文《变量类型》）。

1、分类变量分析

Step1：选择【分析】-【描述统计】-【频率】

Step2：弹出对话框【频率】后，将分类变量“班级”和“性别”移至右侧【变量】中，最主要是确定左下角的【显示频率表】打钩。

Step3: 得出结果如下图。

从上述表格可知：一班和二班人数均为20人，各占据50%；男生32名，占80%，女8名，占20%。

2、连续型变量分析

Step1：选择【分析】-【描述统计】-【频率】，弹出对话框【频率】，将“身高”、“体重”和”成绩”至右侧【变量】框中。

Step2: 点击右上的【统计】，弹出【频率：统计】对话框，选择需要的统计量。

需说明：标准误差平均值是统计推断中的重要概念，在此不做分析。而偏度和峰度主要是检验数据是否服从正态分布，我们将在下一讲具体讲解。

Step3：上述步骤完成后，点击继续，回到“频率”对话框。

由于我们要分析的是连续变量，主要考量数据集中趋势和离散趋势，所以可以取消勾选“显示频率表”复选框，如图。

Step4：点击确定后，得出如下结果。

从上述表格描述了身高、体重和期末成绩的集中量数，包括平均数、中位数、众数、以及差异量数，包括标准差、方差、最大值、最小值、范围（最大值减去最小值），25%、50%和75%位数。

当然，四分位距需要计算，例如身高的四分位距=75%位数-25%位数=176-164=12。

三、描述分析

描述分析比频数分析少了一些功能，比如不能计算百分位数、中位数和众数等指标，它只能统计连续型变量。操作步骤如下。

Step1：选择【分析】→【描述统计】→【描述】

Step2：打开【描述】对话框，将“身高”、“体重”和”成绩”送入【变量】框。

Step3：送入变量框后，点击【选项】标签，弹出【描述“选项”】，做出如下选择。

Step4: 点击【继续】，就会返回【描述】对话框。此时注意左下角有一个”将标准化值另存为变量“，勾选这个选项就可以将原始分数转化为Z分数并生成新变量。然后再点击【确定】

输出结果如下。

上述表格描述了身高、体重和期末成绩的范围（全距）、最大值、最小值、均值、标准差和方差，数据结果与频数分析的结果相一致。

同时，我们还发现在“数据视图”可以发现新增的“身高”“体重”“成绩”的Z分数。

四、规范表达

虽然，小白对40名大侠的基本情况进行了描述性统计，是不是就可以把SPSS统计结果直接呈送给教导主任？

还不行，他需要将其进行规范表达，绘制三线表格整理数据如下。

分类变量只用频数和频率描述，而连续型变量用最小值、最大值、平均数、标准差、中位数和四分位距来描述。

表1 40名大侠班级和性别频率分布表

表2 40名大侠的身高、体重和成绩的描述性统计表

当小白将两个表格呈送给教导主任后，他看了一眼，点了点头说：

“小白，你这个三线表画得不错，只是在表2中，你呈现了两个集中量数（平均数和中位数），还有两个差异量数（标准差和四分位距），这不合理呀！”

“那怎么办呢？”小白问道。

“你要进行正态分布检验呀，如果数据服从正态分布，就用平均数和标准差描述；如果不服从正态分布，就用中位数和四分位距描述。”

“怎么正态分布检验呢？”小白弱弱问。

“赶紧学习《小白爱上SPSS》第三讲”教导主任又不耐烦了。

小白回到办公室，搬好小板凳，等待《小白爱上SPSS》第三讲内容：怎样进行正态分布检验？

划重点

1、描述性统计包括三方面：集中量数、差异量数和分布形态。

2、分类变量只能用频数和频率描述，而连续型变量一般用最小值、最大值、平均数、标准差、中位数和四分位距来描述。

3、若数据服从正态分布，连续型变量用平均数和标准差来描述；如果不服从正态分布，就用中位数和四分位距来描述。

【本文地址】

公司简介

联系我们