都有哪些形式的描述性统计? 您所在的位置:网站首页 oneself有哪些形式 都有哪些形式的描述性统计?

都有哪些形式的描述性统计?

2023-03-21 09:43| 来源: 网络整理| 查看: 265

你好!欢迎参加《小白爱上SPSS》课程, 这是第二讲内容:如何进行描述性统计。

今天,小白正悠闲地看着金庸笔下40名大侠在切磋武艺,太精彩了,看得如痴如醉。

突然教导主任过来,“小白啊,把这40名大侠基本情况汇总下,半个小时交过了”。

小白一脸懵逼地问“怎么汇总?”

教导主任不耐烦地说“用描述性统计啊”

小白不敢再问了,赶紧打开手机,从“小白爱上SPSS”课程中搜索到描述统计相关内容。

一、描述性统计

对样本数据的特征进行统计描述,称之为描述性统计。具体包括三方面:数据集中量数、差异量数和分布形态。

1、 集中量数

集中量数是指描述数据的集中趋势,包括平均数、中位数和众数。

【平均值】所有观察变量值相加,再除以观察值的个数所得之商。

注意:平均值易受到极端值的影响,或数据出现严重偏态时,此时平均数失去代表性,可用中位数来代替。

例:2、20、23、25、21、28、26、31中,2在这组数据中属于极端值,若要用平均值来代表这组数据,则会因为受到极端值2的影响而失去代表性。

【中位数】将数据按从小到大排列后,在中间位置的数。例:在10、12、15、18、23中,中位数为15。

注意:在有极端数值和偏态分布时、数据分布不对称时,使用中位数。

【众数】一组数据中出现次数最多的数。例:10、12、18、24、12、20、12、15、10、23、18中,众数为12。

2、差异量数

差异量数是指描述数据的离散趋势。包括标准差、方差、全距和四分位距。

【标准差】是表示离散趋势的统计量,是指各个数据与平均数之差的平方的平均数(方差)的算术平方根, 代表数据的离散程度。标准差的值越大,表示各数值不在均值的附近,数据分布的离散程度大,反之亦然。

注意:标准差是反映数据离散趋势首选指标,但它也容易受极端数据的影响。如果数据出现严重偏态,则不太适合采用标准差描述。

【方差】方差是标准差的平方。

【全距】也称范围,指一组数据中最大值与最小值的差。

【四分位距】将数据按从小到大排序,分成四等份。每份各占25%,上四分位数为75%处的值,下四分位数为25%处的值,四分位数间距=75%处的值-25%处的值。数值越大,个体差异度越大。

注意:当数据属于偏态时,则采用采用四分位距代替标准差。

【标准误差平均值】也称标准误,是样本均值与总体均值间平均差异程度的统计量,是统计推断的核心概念。

3、分布形态

【偏度】分布不对称的方向和和程度。若偏度>0,为正偏态,长长的尾巴在右侧;若偏度

【峰度】指分布图形的峰凸程度。峰度>0,为高峰度,表示比正态分布更陡峭,峰形较尖,反之亦然,如下图所示。

有了这些知识之后,我们就可以利用SPSS进行描述性统计了。

本讲主要介绍频数和描述分析两个功能。

二、频数分析

我们先看40名大侠的变量类型。编号和姓名代表大侠的ID,我们不对其进行描述统计分析。另外班级和性别为分类变量。身高、体重和成绩是连续型变量。对不同变量类型,需采用不同描述策略(详情点击之前推文《变量类型》)。

1、分类变量分析

Step1:选择【分析】-【描述统计】-【频率】

Step2:弹出对话框【频率】后,将分类变量“班级”和“性别”移至右侧【变量】中,最主要是确定左下角的【显示频率表】打钩。

Step3: 得出结果如下图。

从上述表格可知:一班和二班人数均为20人,各占据50%;男生32名,占80%,女8名,占20%。

2、连续型变量分析

Step1:选择【分析】-【描述统计】-【频率】,弹出对话框【频率】,将“身高”、“体重”和”成绩”至右侧【变量】框中。

Step2: 点击右上的【统计】,弹出【频率:统计】对话框,选择需要的统计量。

需说明:标准误差平均值是统计推断中的重要概念,在此不做分析。而偏度和峰度主要是检验数据是否服从正态分布,我们将在下一讲具体讲解。

Step3:上述步骤完成后,点击继续,回到“频率”对话框。

由于我们要分析的是连续变量,主要考量数据集中趋势和离散趋势,所以可以取消勾选“显示频率表”复选框,如图。

Step4:点击确定后,得出如下结果。

从上述表格描述了身高、体重和期末成绩的集中量数,包括平均数、中位数、众数、以及差异量数,包括标准差、方差、最大值、最小值、范围(最大值减去最小值),25%、50%和75%位数。

当然,四分位距需要计算,例如身高的四分位距=75%位数-25%位数=176-164=12。

三、描述分析

描述分析比频数分析少了一些功能,比如不能计算百分位数、中位数和众数等指标,它只能统计连续型变量。操作步骤如下。

Step1:选择【分析】→【描述统计】→【描述】

Step2:打开【描述】对话框,将“身高”、“体重”和”成绩”送入【变量】框。

Step3:送入变量框后,点击【选项】标签,弹出【描述“选项”】,做出如下选择。

Step4: 点击【继续】,就会返回【描述】对话框。此时注意左下角有一个”将标准化值另存为变量“,勾选这个选项就可以将原始分数转化为Z分数并生成新变量。然后再点击【确定】

输出结果如下。

上述表格描述了身高、体重和期末成绩的范围(全距)、最大值、最小值、均值、标准差和方差,数据结果与频数分析的结果相一致。

同时,我们还发现在“数据视图”可以发现新增的“身高”“体重”“成绩”的Z分数。

四、规范表达

虽然,小白对40名大侠的基本情况进行了描述性统计,是不是就可以把SPSS统计结果直接呈送给教导主任?

还不行,他需要将其进行规范表达,绘制三线表格整理数据如下。

分类变量只用频数和频率描述,而连续型变量用最小值、最大值、平均数、标准差、中位数和四分位距来描述。

表1 40名大侠班级和性别频率分布表

表2 40名大侠的身高、体重和成绩的描述性统计表

当小白将两个表格呈送给教导主任后,他看了一眼,点了点头说:

“小白,你这个三线表画得不错,只是在表2中,你呈现了两个集中量数(平均数和中位数),还有两个差异量数(标准差和四分位距),这不合理呀!”

“那怎么办呢?”小白问道。

“你要进行正态分布检验呀,如果数据服从正态分布,就用平均数和标准差描述;如果不服从正态分布,就用中位数和四分位距描述。”

“怎么正态分布检验呢?”小白弱弱问。

“赶紧学习《小白爱上SPSS》第三讲”教导主任又不耐烦了。

小白回到办公室,搬好小板凳,等待《小白爱上SPSS》第三讲内容:怎样进行正态分布检验?

划重点

1、描述性统计包括三方面:集中量数、差异量数和分布形态。

2、分类变量只能用频数和频率描述,而连续型变量一般用最小值、最大值、平均数、标准差、中位数和四分位距来描述。

3、若数据服从正态分布,连续型变量用平均数和标准差来描述;如果不服从正态分布,就用中位数和四分位距来描述。



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有