都有哪些形式的描述性统计? | 您所在的位置:网站首页 › oneself有哪些形式 › 都有哪些形式的描述性统计? |
你好!欢迎参加《小白爱上SPSS》课程, 这是第二讲内容:如何进行描述性统计。 今天,小白正悠闲地看着金庸笔下40名大侠在切磋武艺,太精彩了,看得如痴如醉。 突然教导主任过来,“小白啊,把这40名大侠基本情况汇总下,半个小时交过了”。 小白一脸懵逼地问“怎么汇总?” 教导主任不耐烦地说“用描述性统计啊” 小白不敢再问了,赶紧打开手机,从“小白爱上SPSS”课程中搜索到描述统计相关内容。 一、描述性统计对样本数据的特征进行统计描述,称之为描述性统计。具体包括三方面:数据集中量数、差异量数和分布形态。 1、 集中量数 集中量数是指描述数据的集中趋势,包括平均数、中位数和众数。 【平均值】所有观察变量值相加,再除以观察值的个数所得之商。 注意:平均值易受到极端值的影响,或数据出现严重偏态时,此时平均数失去代表性,可用中位数来代替。 例:2、20、23、25、21、28、26、31中,2在这组数据中属于极端值,若要用平均值来代表这组数据,则会因为受到极端值2的影响而失去代表性。 【中位数】将数据按从小到大排列后,在中间位置的数。例:在10、12、15、18、23中,中位数为15。 注意:在有极端数值和偏态分布时、数据分布不对称时,使用中位数。 【众数】一组数据中出现次数最多的数。例:10、12、18、24、12、20、12、15、10、23、18中,众数为12。 2、差异量数 差异量数是指描述数据的离散趋势。包括标准差、方差、全距和四分位距。 【标准差】是表示离散趋势的统计量,是指各个数据与平均数之差的平方的平均数(方差)的算术平方根, 代表数据的离散程度。标准差的值越大,表示各数值不在均值的附近,数据分布的离散程度大,反之亦然。 注意:标准差是反映数据离散趋势首选指标,但它也容易受极端数据的影响。如果数据出现严重偏态,则不太适合采用标准差描述。 【方差】方差是标准差的平方。 【全距】也称范围,指一组数据中最大值与最小值的差。 【四分位距】将数据按从小到大排序,分成四等份。每份各占25%,上四分位数为75%处的值,下四分位数为25%处的值,四分位数间距=75%处的值-25%处的值。数值越大,个体差异度越大。 注意:当数据属于偏态时,则采用采用四分位距代替标准差。 【标准误差平均值】也称标准误,是样本均值与总体均值间平均差异程度的统计量,是统计推断的核心概念。 3、分布形态 【偏度】分布不对称的方向和和程度。若偏度>0,为正偏态,长长的尾巴在右侧;若偏度 【峰度】指分布图形的峰凸程度。峰度>0,为高峰度,表示比正态分布更陡峭,峰形较尖,反之亦然,如下图所示。 有了这些知识之后,我们就可以利用SPSS进行描述性统计了。 本讲主要介绍频数和描述分析两个功能。 二、频数分析我们先看40名大侠的变量类型。编号和姓名代表大侠的ID,我们不对其进行描述统计分析。另外班级和性别为分类变量。身高、体重和成绩是连续型变量。对不同变量类型,需采用不同描述策略(详情点击之前推文《变量类型》)。 1、分类变量分析 Step1:选择【分析】-【描述统计】-【频率】 Step2:弹出对话框【频率】后,将分类变量“班级”和“性别”移至右侧【变量】中,最主要是确定左下角的【显示频率表】打钩。 Step3: 得出结果如下图。 从上述表格可知:一班和二班人数均为20人,各占据50%;男生32名,占80%,女8名,占20%。 2、连续型变量分析 Step1:选择【分析】-【描述统计】-【频率】,弹出对话框【频率】,将“身高”、“体重”和”成绩”至右侧【变量】框中。 Step2: 点击右上的【统计】,弹出【频率:统计】对话框,选择需要的统计量。 需说明:标准误差平均值是统计推断中的重要概念,在此不做分析。而偏度和峰度主要是检验数据是否服从正态分布,我们将在下一讲具体讲解。 Step3:上述步骤完成后,点击继续,回到“频率”对话框。 由于我们要分析的是连续变量,主要考量数据集中趋势和离散趋势,所以可以取消勾选“显示频率表”复选框,如图。 Step4:点击确定后,得出如下结果。 从上述表格描述了身高、体重和期末成绩的集中量数,包括平均数、中位数、众数、以及差异量数,包括标准差、方差、最大值、最小值、范围(最大值减去最小值),25%、50%和75%位数。 当然,四分位距需要计算,例如身高的四分位距=75%位数-25%位数=176-164=12。 三、描述分析描述分析比频数分析少了一些功能,比如不能计算百分位数、中位数和众数等指标,它只能统计连续型变量。操作步骤如下。 Step1:选择【分析】→【描述统计】→【描述】 Step2:打开【描述】对话框,将“身高”、“体重”和”成绩”送入【变量】框。 Step3:送入变量框后,点击【选项】标签,弹出【描述“选项”】,做出如下选择。 Step4: 点击【继续】,就会返回【描述】对话框。此时注意左下角有一个”将标准化值另存为变量“,勾选这个选项就可以将原始分数转化为Z分数并生成新变量。然后再点击【确定】 输出结果如下。 上述表格描述了身高、体重和期末成绩的范围(全距)、最大值、最小值、均值、标准差和方差,数据结果与频数分析的结果相一致。 同时,我们还发现在“数据视图”可以发现新增的“身高”“体重”“成绩”的Z分数。 四、规范表达虽然,小白对40名大侠的基本情况进行了描述性统计,是不是就可以把SPSS统计结果直接呈送给教导主任? 还不行,他需要将其进行规范表达,绘制三线表格整理数据如下。 分类变量只用频数和频率描述,而连续型变量用最小值、最大值、平均数、标准差、中位数和四分位距来描述。 表1 40名大侠班级和性别频率分布表 表2 40名大侠的身高、体重和成绩的描述性统计表 当小白将两个表格呈送给教导主任后,他看了一眼,点了点头说: “小白,你这个三线表画得不错,只是在表2中,你呈现了两个集中量数(平均数和中位数),还有两个差异量数(标准差和四分位距),这不合理呀!” “那怎么办呢?”小白问道。 “你要进行正态分布检验呀,如果数据服从正态分布,就用平均数和标准差描述;如果不服从正态分布,就用中位数和四分位距描述。” “怎么正态分布检验呢?”小白弱弱问。 “赶紧学习《小白爱上SPSS》第三讲”教导主任又不耐烦了。 小白回到办公室,搬好小板凳,等待《小白爱上SPSS》第三讲内容:怎样进行正态分布检验? 划重点 1、描述性统计包括三方面:集中量数、差异量数和分布形态。 2、分类变量只能用频数和频率描述,而连续型变量一般用最小值、最大值、平均数、标准差、中位数和四分位距来描述。 3、若数据服从正态分布,连续型变量用平均数和标准差来描述;如果不服从正态分布,就用中位数和四分位距来描述。 |
CopyRight 2018-2019 实验室设备网 版权所有 |