数据分析为何要学统计学(3) | 您所在的位置:网站首页 › spss数据集中趋势分析 › 数据分析为何要学统计学(3) |
给定一组数据,我们怎么来判断业务的基本情况呢?此时我们主要用到两个统计学工具:集中趋势和离散趋势。 1. 集中趋势集中趋势是一组数据的代表值,那用什么值作代表最有代表性呢?当然这个值应该和所有值差距不大是最好,此时我们首先想到的就是平均数,事实上,用来衡量集中趋势的最常用指标就是平均数,当然有时我们也可以使用中位数、众数。 平均数和中位数一般是不同的,除非样本呈正态分布。如果衡量集中趋势的指标选择不合理,那么对业务整体情况的判断往往会出现争议,最常见的例子就是“工资水平”统计数据的梗——大多数人总是感到“拖了大家的后腿”。为什么会这样呢?因为工资收入是偏态分布的,而且是正偏态分布——大多数人工资处于较低的水平。 那么表示集中趋势时,什么时候选择平均数,什么时候选择中位数呢?我们可以通过考察数据分布的正态、偏态情况进行选择。 离散趋势反映了样本数据之间的差异水平。反映离散趋势的统计指标一般包括标准差/方差、极差、四分位间距IQR和变异系数。 极差是样本最大值与最小值的差;四分位间距IQR是75%分位数与25%分位数的差,显然四分位间距IQR一般要比极差小;变异系数是标准差与均值的比值,通常认为如果变异系数超过15%,则说明业务状况是很不稳定的。上例中,工资样本的变异系数是1.58,说明工资水平是极不稳定的。除了变异系数是相对量化指标外,其它三个指标都是绝对量化指标。因此,变异系数可以进行不同数据集离散程度的比较,而其它三个指标不可以,因为不同数据集的数据尺度有所差异。 集中趋势和离散趋势相结合才能更准确的反映业务状况,当离散趋势不明显时,集中趋势反映总体水平的能力就越强。 推荐自编课程《零基础学python数据分析》 推荐自编简明预测分析教程(Python版) |
CopyRight 2018-2019 实验室设备网 版权所有 |