数据分析为何要学统计学(3) 您所在的位置:网站首页 spss数据集中趋势分析 数据分析为何要学统计学(3)

数据分析为何要学统计学(3)

2024-07-12 01:09| 来源: 网络整理| 查看: 265

给定一组数据,我们怎么来判断业务的基本情况呢?此时我们主要用到两个统计学工具:集中趋势和离散趋势。

1. 集中趋势

集中趋势是一组数据的代表值,那用什么值作代表最有代表性呢?当然这个值应该和所有值差距不大是最好,此时我们首先想到的就是平均数,事实上,用来衡量集中趋势的最常用指标就是平均数,当然有时我们也可以使用中位数、众数。

平均数和中位数一般是不同的,除非样本呈正态分布。如果衡量集中趋势的指标选择不合理,那么对业务整体情况的判断往往会出现争议,最常见的例子就是“工资水平”统计数据的梗——大多数人总是感到“拖了大家的后腿”。为什么会这样呢?因为工资收入是偏态分布的,而且是正偏态分布——大多数人工资处于较低的水平。

那么表示集中趋势时,什么时候选择平均数,什么时候选择中位数呢?我们可以通过考察数据分布的正态、偏态情况进行选择。 如果样本呈正态分布,那么集中趋势使用平均数或中位数表示均可,因为两者是相等的。 如果样本呈偏态分布,那么选择中位数更能反映数据的集中趋势。通常情况下,正偏态的中位数小于平均数,负偏态的中位数大于平均数。因此,如果工资水平的计量采用中位数,大家心里接受的程度可能会更高一些。 比如以下工资水平的抽样数据,用中位数表示是3000,用平均数表示是9200。显然选择中位数的表示集中趋势更符合实际。 salary=[2500,3500,2000,4000,2200,3000,1800,20000,50000,3000] 综合所描述的两种情况,还是中位数更合理一些。

2. 离散趋势

离散趋势反映了样本数据之间的差异水平。反映离散趋势的统计指标一般包括标准差/方差、极差、四分位间距IQR和变异系数。

极差是样本最大值与最小值的差;四分位间距IQR是75%分位数与25%分位数的差,显然四分位间距IQR一般要比极差小;变异系数是标准差与均值的比值,通常认为如果变异系数超过15%,则说明业务状况是很不稳定的。上例中,工资样本的变异系数是1.58,说明工资水平是极不稳定的。

除了变异系数是相对量化指标外,其它三个指标都是绝对量化指标。因此,变异系数可以进行不同数据集离散程度的比较,而其它三个指标不可以,因为不同数据集的数据尺度有所差异。

集中趋势和离散趋势相结合才能更准确的反映业务状况,当离散趋势不明显时,集中趋势反映总体水平的能力就越强。

推荐自编课程《零基础学python数据分析》 推荐自编简明预测分析教程(Python版)



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有