统计学 |
您所在的位置:网站首页 › 频数分布表组距可以不相等吗 › 统计学 |
一、用图表展示定性数据
定性数据包括分类数据和顺序数据,通常可以用频数分布图和图形来描述。 (一)生成频数分布表定性数据生成频数分布表的步骤: 1、列出个类别 2、计算各类别的频数 3、生成频数分布表 注:频数是指频数分布表中落在某一特定类别的数据个数。 频数分布表的作用:通过频数分布可以观察不同类别数据的分布情况。 用excel生成频数分布表有几种途径,一种最简单的方法就是使用“数据透视表”进行计数和汇总。 (二)定性数据的图形表示定性数据可以描绘出它们各类的比例,常用饼图和条形图表示。 1、饼图饼图又称圆饼图、圆形图,它是利用圆形及圆内扇形面积来表示数值大小的图形。饼图主要用于总体中各组成部分所占比重的研究。 2、条形图条形图是用宽度相同的条形的高度或长度来表述数据多少的图形。用于观察不同类别数据的多少或分布情况。 3、环形图特点:环形图中间有一个“空洞” 与饼图的区别: 环形图可以比较不同变量之间的结构差异饼图只能显示一个变量各部分所占的比重 二、用图形展示定量数据定性数据的图示方法(饼图、条形图、环形图)都适用于定量数据。定量数据还有一些特定的图示方法(如直方图、折线图、散点图等),它们并不适用于定性数据。 (一)生成频数分布表生成定量数据的频数分布表时,首先是将数据进行分组,然后再统计出各组别的数据频数。 步骤: 1、对数据进行分组 组数的多少应以能够适当的观察数据的分布特征为准,一般的分组个数在5-15之间。 2、确定组距 组距是指每个组变量值中的最大值与最小值之差。 最大值成为上限,最小值称为下限,则:组距 = 上限 - 下限。 3、统计出各组的频数及频数分布表。 确定组距的原则: 1、要考虑各组的划分是否能区分总体内部各个组成部分的性质差别。 2、要能准确地清晰地反映总体单位的分布特征 在确定组距时,在研究的现象变动比较均匀的情况下,可以采用等距分组;而当研究的现象变动很不均匀时,则一般采用不等距分组。 注意:在统计各组频数时,恰好等于某一组的组限时,则采取上限不在内的原则,即将该频数计算在与下限相同的组内。即每个组区间都是左闭右开,[0,100),[100,200),[200,300),100在二组,200在第三组。 (二)定量数的图形表示常用来表述定量数据的图形有:直方图、折线图和散点图。此外还有茎叶图、箱线图等。excel不能绘制茎叶图和箱线图。 1、直方图用横坐标代表变量分组,纵坐标代表各变量值出现的频数,这样,各组与相应的频数就形成了一个矩阵,即直方图。 直方图与条形图的区别: 1、条形图中的每一矩形表示一个类别,其宽度没有意义,直方图的宽度表示各组的组距。 2、由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列。 2、折线图折线图是利用线段的升降来说明现象变动的一种统计图。它主要用于表示现象的分配情况,现象在时间上的变化或两个现象之间依存关系等。 3、散点图散点图可以反映两个变量之间的关系。 三、用统计表来表示数据统计表和统计图形是显示统计数据的两种方式。 统计表是一种用密集的形式归纳数据的方法。它主要是利用行和列中的数据来表述现象特征。 使用统计表的目的 1、在文章使用它以支持自己的观点。 2、利用它组织数据。 统计表的组成 统计表一般由五个部分组成:表头、行标题、列标题、数据资料和表外附加。 四、用数字来概括数据从一组数据中找出它的分布规律及本质特征,需要从两个方面考察: 1、该组数据的集中趋势,即该组数据的数值向其中心值的靠拢程度。 2、该组数据的离散程度,它反映的是该组数据的各个数值远离中心值的趋势和程度。 (一)定性数据的数字特征测量定性数据集中趋势常用的方法是计算百分比、中位数、众数。 1、中位数在定性数据中,中位数适用于顺序数据,不适用分类数据。 中位数是数据按照大小排列之后位于中间的那个数(如果样本量为奇数),或中间两个数的平均(如果样本量为偶数)。 2、众数是数据中出现次数或出现频率最多的数值。 (二)定量数据的数字特征反映定量数据集中趋势的统计量(水平度量):平均数、中位数、众数和分位数等。 反映定量数据离散程度的统计量(差异度量):极差、四分位差、标准差、方差、离散系数、标准分数。 1、水平度量 (1)平均数平均数分为简单平均数和加权平均数。 ① 简单平均数 把一个变量的所有观测值相加,再除以观测值的数目。 ② 加权平均数 根据分组数据计算。假定数据被分成 n 组,各组的组中值是 x i ( i = 0 , 1 , 2 , . . . , n ) x_i(i=0,1,2,...,n) xi(i=0,1,2,...,n),各组的频数是 f i ( i = 0 , 1 , 2 , . . . , n ) f_i(i=0,1,2,...,n) fi(i=0,1,2,...,n),权数为各组的频数。 X ‾ = ∑ i = 1 n x i f i ∑ i = 1 n f i \overline{X}=\frac{\sum_{i=1}^{n}{x_i f_i}}{\sum_{i=1}^{n}{f_i}} X=∑i=1nfi∑i=1nxifi 说明:组中值 = (上限 + 下限) / 2 (2)中位数 (3)众数极差又称全距,是最简单的离散指标,它是一组数据中的最大值与最小值之差。 R = x m a x − x m i n R=x_{max}-x_{min} R=xmax−xmin 极差越大,数据的离散程度越大,各个观测值分布的越分散。 优点:计算非常简单 缺点:极差仅受最大值和最小值的影响,不能反映一组数据变量分布的情况,而且它非常容易受数据中极端值的影响,因此不能准确的描述数据的离散程度。 (2)方差和标准差① 方差 方差是各个变量值和其均值离差平方的平均数。它反映了样本中各个观测值到其均值的平均离散程度。方差越大,说明离散程度越大。 未分组数据: σ = ∑ ( x i − x ‾ ) 2 n \sigma = \frac{\sum{(x_i-\overline{x})^2}}{n} σ=n∑(xi−x)2 分组数据: σ = ∑ ( x i − x ‾ ) 2 f i ∑ f i \sigma = \frac{\sum{(x_i-\overline{x})^2f_i}}{\sum{f_i}} σ=∑fi∑(xi−x)2fi ② 标准差 标准差是方差的平方根,它与方差相比更具量纲性,而且与变量值的计量单位相同,使用的范围也比方差更广泛。 ③ 离散系数 离散系数也称为变异系数、标准差系数,它是将一组数据的标准差除以其均值,用来测度数据离散程度的相对数。主要用于比较不同组别数据的离散程度。离散系数越大,说明数据的离散程度也越大。 计算离散系数的原因: 极差、方差、标准差都是反映数据分散程度的绝对值,其数值大小受数据本身数值大小和计量单位的影响。为消除数据本身大小和计量单位不同对离散程度测度值的影响,需要计算离散系数。 ④ 标准分数 |
今日新闻 |
点击排行 |
|
推荐新闻 |
图片新闻 |
|
专题文章 |
CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭 |