IQR箱线图 您所在的位置:网站首页 箱型图是什么 IQR箱线图

IQR箱线图

2024-03-05 07:34| 来源: 网络整理| 查看: 265

最近读论文看到有个实验里的箱线图,记录以下它的意义;

1 箱线图

首先说明箱线图中各条线的意义,一个箱线图表如下:请添加图片描述 以其中一个箱线为例(一个竖行),其从上到下分别为: ①最上的横线:上内限,表示上离群值边界,比上内限大的数据是outlier; ②方框的上边界:Q3,表示数据的上 1 4 \frac{1}{4} 41​分界,超过Q3的数据按照大小排序在前25%; 🌂黄线:中位线,表示数据的中位数值; ④方框的下边界:Q1,表示数据的下 1 4 \frac{1}{4} 41​分界,小于Q1的数据按照大小排序在后25%; ⑤最下的横线:下内限,表示下离群值边界,比下内限小的数据是outlier; 其中IQR=Q3-Q2,即两个四分位值的跨度;

五条线的数学统计意义如下表示: 在这里插入图片描述 ①上内限的值 = m a x ( D a t a m a x , Q 3 + 1.5 I Q R ) =max(Data_{max},Q3+1.5IQR) =max(Datamax​,Q3+1.5IQR),其数学意义为正态分布数据的99.65%分界线; ②Q3的数学意义表示正态分布数据的75%分界线,以及距离均值25%的上分界线; 🌂中位数没什么好说的; ④Q1的数学意义同Q3类似; ⑤下内线的值 = m i n ( D a t a m i n , Q 1 − 1.5 I Q R ) =min(Data_{min}, Q1-1.5IQR) =min(Datamin​,Q1−1.5IQR),其数学意义与上内限类似; IQR的数学意义是数据落在中间50%的跨度; **注:由于上下限的max比较,所以使得上下限有时长度不一样,因为数据的边界值没有到达上下限;**比如下图中的左箱线图; 在这里插入图片描述

2 功能 2.1 识别异常值

箱线图注意依赖中间50%的数据确定上下阈值,两边25%中离群点不会对其产生影响,与直接计算均值方差相比其耐抗性更好;

2.2 比较几批数据的形状

同一数轴上几批数据的箱线图并列排列,几批数据中的中位数、尾长、异常值、分布区间都很清楚。各批数据的四分距大小,正常值的分布是集中还是分散,观察各方和和线段的长度即可。每批数据分布的偏如何,分析中位线和异常值的位置也可估计出来。

3 计算

对于数据大小为奇数和偶数的情况,箱线图IQR的计算会有所不同;

偶数:4 7 9 12 20 奇数:5 8 10 10 15 18 24

①确定中间位置 偶数情况下中间位置是9跟11的中间,没有对应到一个具体的位置; 奇数情况下中间位置是10;

偶数:4 7 9 | 11 12 20 奇数:5 8 10 |10| 15 18 24

②确定竖线左右两侧的中位数; 在①中所画竖线两侧计算中位数,分别即代表Q1和Q3;

偶数:4 _7_ 9 | 11 _12_ 20 奇数:5 _8_ 10 |10| 15 _18_ 24

③得到Q1和Q3即可完成后续计算;

参考文献: 1.MBA智库百科-箱线图 2.如何得到四分位差



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

      专题文章
        CopyRight 2018-2019 实验室设备网 版权所有