聚类案例分析全流程汇总 | 您所在的位置:网站首页 › 聚类分析实例聚类分析的办法和结论 › 聚类案例分析全流程汇总 |
研究调查10名运动员的3项测试数据,其中三项分别是:肩宽/髋宽×100、胸厚/胸围×100、腿长/身长×100。其中编号为4、6、8、9的4名运动员分别是蛙、自由、仰、蝶泳四种姿势的佼佼者。预计姿势按姿势分为蝶泳、仰泳、蛙泳、自由泳4类(为简化问题仅以10名运动员的3项测试数据为例)。 2.分析目的本案例对游泳运动员调查的数据进行聚类,以便分项,预计姿势按姿势分为蝶泳、仰泳、蛙泳、自由泳4类。 [案例来源于:SPSS统计分析(第5版)卢纹岱,朱红兵主编,案例有一些变动 具体请看分析。] 二、数据处理 1.数据检查在数据分析之前,首先需要进行数据查看,包括数据中是否有异常值,无效样本等。如果有异常值则需要进行处理,然后再进行分析。另外如果数据中有无效样本也需要进行处理后再进行分析。无效样本会干扰分析研究,扭曲数据结论等,因而在分析前先对无效样本进行标识显示尤其必要。异常值的鉴别与处理一般分为三个部分,其中分别是判断标准,鉴别方法以及异常值的处理,以下从这三个方面进行说明。 异常值的判断标准如下: 检验数据是否有异常值的方法: 异常值处理方法: 此案例对于异常值参照的标准为大于±3个标准差 使用箱线图进行查看发现没有异常值。 除了对异常值的处理,还需要对于无效样本进行检查:如果数据来源为问卷,则很可能出现无效样本,因为填写问卷的样本是否真实填写无从判定;如果数据库下载或者使用二手数据等,也可能出现大量缺失数据等无效样本。以下从无效样本场景、SPSSAU设置标准、处理三方面进行说明。 1.常见场景 2.设置标准 3.无效样本的处理 设置好无效样本后,默认会新生成一个标题,用来标识那些样本是有效,那些是无效,在分析的时候直接进行筛选下就好。 本次案例分析将以相同数字大于70%为标准进行检验,结果显示没有无效样本。 将变量肩宽/髋宽×100设为x1、变量胸厚/胸围×100设为x2、变量腿长/身长×100设为x3。 三、操作首先对初始计划进行分析得到模型如下: 分析结果来源于SPSSAU 从上表可以看出:最终聚类得到4类群体, 4类人群分布较为均匀,整体说明聚类效果较好。如果分析人员没有预设聚类个数也可以利用该方法对数据类别进行初步判断,若该案例数据聚类个数为3,结果如下: 从结果来看,若分为三类,数据中第三个类别占比较多,不如分为4类的结果均匀,综合结果对比聚类个数选择4,但是就此案例说明,若研究者的预设聚类个数为3,也是可以接受的。 总结来讲,不需要对模型进行调整,重复进行案例模型的构建。 聚类分析往往是一个主观判断的过程,需要根据分析结果及个人专业知识判断,聚为几类更合适。这里结合SPSSAU输出结果,提供几个判断聚类效果的方法: 接下来将对此一一说明。 四、结果输出及分析首先要查看数据分布是否均匀,一般来说,每个类别的样本比例应分布均匀,如果出现某一类占比过大或过小,可以考虑重新设置聚类类别个数。 1.聚类基本情况分析结果来源于SPSSAU 使用聚类分析对样本进行分类,使用Kmeans聚类分析方法,从上表可以看出:最终聚类得到4类群体,此4类群体的占比分别是20.00%, 20.00%, 30.00%, 30.00%。整体来看, 4类人群分布较为均匀,整体说明聚类效果较好。 2.方差分析分析结果来源于SPSSAU 聚类类别与聚类分析项进行交叉分析,如果呈现出显著性(p |
CopyRight 2018-2019 实验室设备网 版权所有 |