六西格玛项目测量阶段:数据的收集和整理 | 您所在的位置:网站首页 › 计算西格玛度量值可描述测量程序 › 六西格玛项目测量阶段:数据的收集和整理 |
用量具进行测量得出的可连续取值的数据是连续型数据,也称计量数据,如长度、重量、温度等。它可以比较敏感地反映过程变化,包含的信息丰富。离散型数据也称非连续型数据、计数数据,反映过程变化时不如连续型数据敏感。如合格/不合格,成功/失败,是/否,接受/拒绝,好/坏等。离散型数据又分为计件值数据和计点值数据。计件值数据是指按件计数的数据,如不合格品数、彩色电视机台数等;记点值数据是指按缺陷点计数的数据,如疵点数、沙眼数、气泡数等。 瀚晟企业管理顾问 (3)按数据来源,可分为观测数据与实验数据。 观测数据是指在没有对现象进行人为控制条件下,通过统计调查或观察而得到的数据。实验数据是在人为控制条件下通过实验方式获取的关于实验对象的数据。 (4)按加工程度,可分为原始数据与次级数据。 原始数据是研究者直接对研究对象进行调查、观测和实验所获得的反映个体特征的数据,也称为直接数据。次级数据也称为加工数据或二手数据,是指已经过加工整理、能反映总体数量特征的各种非原始数据。 二、收集数据与方法 收集数据的方法有很多,包括观察法、实验法、报告法与询问法等,其中询问法又包括访问调查、电话调查、座谈会等。本书主要介绍一种数据收集的工具——检查表。检查表是测量阶段过程数据收集时最常用的工具。针对不同的测量过程,不同测量对象需要使用不同的测量表,因此要有针对性地设计检查表,按团队意图收集重要数据。通常在检查表中要注明被测变量,同时还应注明由谁来收集数据以及采用的测量间隔。表4-2是一个检查表的示例。该表既记录了抽样数量和检测到的不合格品的数量,又记录了各种缺陷发生的频次。 三、抽样方法 抽样时需要考虑的重点是所抽取样本对总体的代表性和准确性。采用不同的抽样方法样本的代表性和准确性不同,因此必须采用合适的抽样方法,常用的有简单随机抽样、分层抽样等。 1、简单随机抽样 简单随机抽样也叫单纯随机抽样,指直接从抽样总体中随机地抽取样本,并以该样本对总体相应的指标做出统计推断。简单随机抽样必须满足两个条件: (1)等可能性,即总体的每个个体都有同等机会被抽到。 (2)独立性,即每次抽样都是相互独立的。常用的简单随机抽样方法有: 抽签法。将总体中的每个个体编号,用手工或者摇号机随机抽取号码,确定抽样单位。 随机数表法。随机数表中的数字的出现及其排列是随机形成的。使用时先将总体编号,按随机数表的任意一列任意行开始向任何方向寻找,凡属于范围内的编号都可作为样本。 计算机模拟法。利用计算机中的随机数字发生器进行抽取。 信手抽取法。从研究总体中随手抽取所需的调查单位。简单随机抽样使用简单,但当总体中各标志值之间差异较大时,这种抽样形成的代表性较小,这时采用分层抽样的代表性更好。 2、分层抽样 分层抽样又称类型抽样或分类抽样,是统计分组与随机抽样的结合。它是将抽样总体按某一标志分层,然后从每层总体样本中随机抽取若干个样本组成抽样样本。 四、描述性统计方法 当我们获得样本数据后,需找出能反映数据分布特征的各个代表值,如数据分布的集中趋势,数据分布的离散程度,数据分布的偏度和峰度,等等。在前面已经介绍了常用的描述数据集中程度的统计量有均值、中位数、众数等;反映数据分布的离散程度的统计量有方差、标准差和极差等。这里仅介绍反映数据分布形状的统计量:偏度和峰度。 偏度是对数据分布的偏移方向和程度所作的描述。若已知样本数据,其偏度的估计为: 例1:为了解某地区成年人心脏健康程度,项目小组对该地区的成年人脉搏分别进行了随机抽样。小组测量的脉搏的数据如表4—3所示。 解:运用MINITAB进行计算,实现路径为统计→基本统计量→图形化汇总,得到的结果如图4-41和图4-42所示。 在图4-41和图4-42中,包含了样本的大量信息,包括平均值、标准差、方差、极值、中位数、四分位数、偏度、峰度,以及对样本的正态性检验和置信区间的计算结果。 五、数据的图示方法 1、直方图 瀚晟企业管理顾问 直方图是用矩形的宽度和高度来表示频数分布的图形,我们可以从图中看出数据的聚集程度与离散程度。作直方图的步骤一般如下: 例2:表4-5为某公司4个月共120天的销售量数据,利用MINITAB给出其直方图。 解:运用MINITAB进行计算,实现路径为:图形→直方图,得到的结果如图4-43所示。 2、茎叶图 茎叶图是由“茎”与“叶”两部分组成,反映原始数据分布的图形,其图形是由数字组成的,高位数字为茎,低位数字为叶。茎叶图类似于横置的直方图,它能给出数据的分布情况,又能给出每一个原始数据,即保留了原始数据。我们可以在茎叶图上看出数据的分布形状及数据的离散状况。下面通过一个例子来说明茎叶图的做法。 例3:根据例2的数据,给出销量的茎叶图。 解:运用MINITAB进行计算,实现路径为:图形→茎叶图,选中“修整异常值”,在增量中填上10,得到的结果如图4-44所示。 3、箱线图 箱线图主要由数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数和最大值绘制而成,通过它可以粗略地得出数据分布的对称性、离散程度等信息。箱线图具有不同类型:中位数/四分位数/极差箱线图,均值/标准误差/标准差箱线图,均值/标准差/1.96倍的标准差箱线图,均值/标准误差/1.96倍标准误差箱线图。其中中位数/四分位数/极差箱线图是最常见的,这里只介绍该种箱线图,其他类别的箱线图可参考相关统计学资料。在箱线图中,两个四分位数组成的矩形称为箱体,箱体与极值的连线称为须触线。在图中用中位数来表述数据的集中趋势,箱体与须触线均用来描述数据的离散程度。 箱线图比较简单,从中位数可以确定中心趋势或者位置;箱体的长度可以确定观测值的离散程度;如果中位数不在箱体的中心,说明分布是有偏的。 例4:从某班级随机抽取11人,对两门课程的考试成绩进行调查,所得数据如表4—6所示。给出两门课程的考试成绩比较箱线图。 解:运用MINITAB进行计算,实现路径为:图形→箱线图,得到的结果如图4-45所示。 4、链图 瀚晟企业管理顾问 链图也称趋势图,它是显示质量特性随时间变化的图表,是控制图的基础。分析链图是为了确认所出现的波动是由随机因素引起还是由特殊因素引起。链图可用于任何按时间序列收集的数据的图形分析。 链图的绘制具有以下步骤: (1)按时间顺序画出数据的折线图。 (2)找到数据的中位数,画一条水平线穿过该折线图,标识为“中位数”或x。 图4-46就是一个链图的例子。 判断过程是否受到特殊因素影响可从以下几方面进行: (1)链的长度。 链的长度是指位于中位数同一侧的连续点数目。除非过程受到异常因素影响,否则过程中不太可能出现一长串连续点落在中位数的同一侧。如果只有一个点落在中位数线上,忽略该点;如果有多个点落在中位数上,按每侧各占50%把这些点分配到两侧。如果最长链的长度较长,这个过程很有可能受到特殊波动原因的影响。 (2)链的数目。 位于中位数同一侧连续点的序列构成一个链。一个受控过程中期望得到的链的数目同样可以用数学方法来确定。一个没有受特殊因素影响的过程,链不会太多也不会太少,应通过统计检验判断链的数目是否正常。 (3)趋势。 链图中不应该存在任何异常的连续上升和连续下降的序列。如果出现这种情况,则暗示存在某种异常趋势。如果连续增高或连续降低的点数较多,那么有可能存在特殊因素引起的过程偏移,需通过统计检验判断链图中的趋势是否异常。 5、正态概率图 正态概率纸是一种特殊的坐标纸,横坐标是等间隔的,用来表示观察值的大小,其纵坐标是按标准正态分布累积概率分布Φ(x)=P(X≤x)标示的。在正态坐标纸上: 任一正态分布函数呈上升直线状。 任一右偏分布函数呈上凸曲线状。 任一左偏分布函数呈下凹曲线状。 任意两个方差相等的正态分布函数呈平行直线状。用正态概率纸可检验一组数据x1,x2,…,xn,是否为来自正态分布的样本。具体操作如下: 例5:用正态概率纸检验某品牌的防锈剂的防锈能力是否服从正态分布。 解:运用MINITAB进行计算,实现路径为:统计→基本统计量→正态性检验,得到的结果如图4-47所示: 根据图4-47右侧的P值可判定样本防锈能力是否服从正态分布。其假设是:H0:数据服从正态分布,H1:数据不服从正态分布。根据假设检验的规则,如果P值小于0.05,则认为分布非正态;如果P值大于0.05,没有充分的理由拒绝原假设,可以认为分布为正态。
|
CopyRight 2018-2019 实验室设备网 版权所有 |