主成分分析 | 您所在的位置:网站首页 › spss主因子分析法详细步骤 › 主成分分析 |
主成分分析是用原始变量的线性组合来表示主成分,且主成分彼此之间互不相关,且能反映出原始数据的绝大部分信息。 一般来说,当研究的问题涉及到多变量且变量之间存在很强的相关性时,我们可考虑使用主成分分析的方法来对数据进行简化。 SPSS 软件中主成分分析与因子分析均在“因子分析”模块中完成。因此,在 SPSS 数据表中录人以上数据后,依次点击“分析-降维-因子”进入“因子分析”对话框,然后将12个变量全部选入“变量”框中。 点击右侧的“描述”按钮,在弹出的对话框中,在“相关矩阵”中选择“系数”。点击右侧的“降维”按钮打开相应对话框,其中“方法”是“主成分”,“分析”部分可以选择是从相关阵还是从协方整阵出发求解主成分,默认是从相关阵出发。本例中各变量的量纲差别较大,选择从相关阵出发求解主成分。“显示”部分可以选择输出“未旋转的因子解”和“碎石图”。“降维”部分可以选择提取大于1的特征根与其所对应的主成分或者设定固定的因子(此处为主成分)个数,但是如果选择从协方差阵出发,则会提取大于特征根均值的指定倍数(默认为1)的特征根。点击“确定”运行,即可得到输出结果。 表1 相关性矩阵a X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X1 1 0.244 0.18 0.807 -0.023 -0.009 0.023 0.107 -0.118 -0.359 0.097 -0.155 X2 0.244 1 0.861 -0.195 -0.138 0.145 -0.548 -0.39 0.686 -0.294 -0.35 0.461 X3 0.18 0.861 1 -0.185 -0.402 0.408 -0.367 -0.557 0.751 -0.195 -0.167 0.281 X4 0.807 -0.195 -0.185 1 0.027 -0.067 0.318 0.179 -0.351 -0.403 0.176 -0.277 X5 -0.023 -0.138 -0.402 0.027 1 -0.999 -0.546 0.726 -0.416 -0.331 -0.566 0.523 X6 -0.009 0.145 0.408 -0.067 -0.999 1 0.532 -0.731 0.429 0.346 0.558 -0.511 X7 0.023 -0.548 -0.367 0.318 -0.546 0.532 1 -0.253 -0.299 0.357 0.523 -0.728 X8 0.107 -0.39 -0.557 0.179 0.726 -0.731 -0.253 1 -0.847 -0.292 0.137 -0.15 X9 -0.118 0.686 0.751 -0.351 -0.416 0.429 -0.299 -0.847 1 0.092 -0.422 0.548 X10 -0.359 -0.294 -0.195 -0.403 -0.331 0.346 0.357 -0.292 0.092 1 0.131 -0.217 X11 0.097 -0.35 -0.167 0.176 -0.566 0.558 0.523 0.137 -0.422 0.131 1 -0.908 X12 -0.155 0.461 0.281 -0.277 0.523 -0.511 -0.728 -0.15 0.548 -0.217 -0.908 1 a. 此矩阵不是正定矩阵。 输出结果中,表1是样本相关阵,可以看到12个变量之间部分变量存在较强的相关关系,适合进行主成分分析。 表2 总方差解释表 成分 初始特征值 提取载荷平方和 总计 方差百分比 累积 % 总计 方差百分比 累积 % 1 4.031 33.591 33.591 4.031 33.591 33.591 2 3.930 32.746 66.337 3.930 32.746 66.337 3 2.175 18.122 84.459 2.175 18.122 84.459 4 .973 8.108 92.567 5 .513 4.278 96.845 6 .210 1.749 98.594 7 .104 .864 99.458 8 .041 .338 99.795 9 .024 .202 99.998 10 .000 .002 100.000 11 5.402E-7 4.501E-6 100.000 12 -1.167E-16 -9.728E-16 100.000 提取方法:主成分分析法。 表2给出了相关阵的特征根及对应主成分的方差贡献率和累积贡献率。本例保留了大于1的特征根,可看到提取了3个主成分,其方差贡献率为84.459%,说明该三个主成分基本上提取了原始变量的大部分信息。这样由分析原来的12个变量转化为仅需分析3个综合变量,极大地起到了降维的作用。【注:lamda10、11、12接近于0,意味着中心化以后的原始变量之间存在着多重共线性,即原始变量存在不可忽视的重叠信息】 从碎石图中也可以看出,前三个特征根较大,因此选取三个特征根是合适的。 表3 成分矩阵a 成分 1 2 3 VAR1 -.102 -.030 .908 VAR2 .836 .084 .368 VAR3 .782 .353 .345 VAR4 -.423 -.070 .790 VAR5 -.032 -.991 -.086 VAR6 .048 .992 .055 VAR7 -.632 .604 -.036 VAR8 -.550 -.732 .060 VAR9 .889 .390 -.040 VAR10 -.132 .433 -.646 VAR11 -.648 .547 .141 VAR12 .773 -.536 -.135 提取方法:主成分分析法。a a. 提取了 3 个成分。 表3是因子载荷阵,需要将其每个元素除以响应主成分的特征根的平方根,才可以得到第一主成分关于标准化的原始变量的变换系数,如表4所示。 表4 成分得分系数矩阵 成分 1 2 3 VAR1 -.025 -.008 .418 VAR2 .208 .021 .169 VAR3 .208 .090 .159 VAR4 -.105 -.018 .363 VAR5 -.008 -.252 -.040 VAR6 .012 .252 .025 VAR7 -.157 .154 -.016 VAR8 -.136 -.186 .028 VAR9 .221 .099 -.018 VAR10 -.033 .110 -.297 VAR11 -.161 .139 .065 VAR12 .192 -.136 -.062 由此可得,主成分Y关于各标准化变量的线性组合为: 式中各变量的系数的大小可以表示其重要性。 本例中有12个指标,通过主成分计算后,选择了3个主成分。其中,第一主成分的线性组合表达式中X2、X3、X7、X9、X11、X12的系数相对较大,因此第一主成分可看成X2、X3、X7、X9、X11、X12的综合变量,可以理解为第一主成分主要体现了第二、三产业从业人员数、第一、三产业产出结构、第二、三产业劳动生产率,大致反映了产业结构合理化情况;同理,第二主成分可看成X5、X6、X8的综合变量,可以理解为第二主成分主要体现了第二、三产业就业结构及第二产业产出结构,大致反映了产业结构升级化情况;第三主成分可看成X1、X4、X10的综合变量,可以理解为第三主成分主要体现了第一产业从业人员数、产业就业结构及产业劳动生产率,大致反映了产业结构合理化情况。 通常为了分析各样品在主成分上所反映的经济意义方面的情况,还需将原始数据代入主成分表达式计算出各样品的主成分得分,根据各样品的主成分得分就可以对样品进行大致分类或者排序。 表5 主成分1的样品排序 排序 地区 Y1 排序 地区 Y1 1 北京市 180.5150607 13 临汾市 10.46116696 2 天津市 64.58425815 14 阳泉市 9.58268787 3 太原市 28.6908458 15 运城市 9.576200993 4 石家庄市 27.51126238 16 朔州市 9.403504998 5 保定市 20.44835652 17 晋中市 9.333657238 6 唐山市 16.13782061 18 晋城市 8.618180294 7 邯郸市 14.34404851 19 邢台市 8.55713213 8 大同市 14.18527824 20 秦皇岛市 8.001142876 9 张家口市 12.49250853 21 承德市 7.456756398 10 沧州市 12.13317336 22 忻州市 7.275499933 11 长治市 10.97995128 23 吕梁市 5.205538483 12 廊坊市 10.5379542 24 衡水市 4.263760211 表6 主成分2的样品排序 排序 地区 Y2 排序 地区 Y2 1 北京市 68.95036761 13 承德市 5.738359679 2 廊坊市 21.7017499 14 晋中市 5.250730169 3 衡水市 21.32785977 15 邯郸市 5.050358973 4 天津市 18.6740728 16 临汾市 4.428244365 5 石家庄市 17.85848122 17 大同市 3.900698174 6 秦皇岛市 14.01048574 18 忻州市 2.923556626 7 保定市 11.93600734 19 朔州市 0.677891108 8 邢台市 11.26217305 20 唐山市 0.675547677 9 沧州市 10.72374997 21 长治市 -1.095271353 10 运城市 9.121019677 22 阳泉市 -1.189746842 11 太原市 7.647849868 23 吕梁市 -1.534529357 12 张家口市 7.563284738 24 晋城市 -1.951322435 表7 主成分3的样品排序 排序 地区 Y3 排序 地区 Y3 1 北京市 124.0088998 13 吕梁市 -1.403670484 2 天津市 39.57507582 14 保定市 -1.740401389 3 唐山市 12.41857457 15 临汾市 -3.664946889 4 太原市 9.96648314 16 忻州市 -3.96973901 5 长治市 4.219456963 17 石家庄市 -6.378107088 6 晋城市 2.40563238 18 晋中市 -7.704121015 7 阳泉市 2.125268721 19 运城市 -9.152635185 8 邯郸市 2.007346431 20 沧州市 -14.18356557 9 朔州市 1.315259427 21 邢台市 -17.43441436 10 大同市 0.76826382 22 秦皇岛市 -24.86005785 11 张家口市 -0.194855256 23 廊坊市 -43.0706488 12 承德市 -1.191899812 24 衡水市 -45.14251758 注意表中各地区得分中,有许多地区的得分是负数,但并不表明这些地区的指标为负,这里的正负仅表示该地区与平均水平的位置关系。 |
CopyRight 2018-2019 实验室设备网 版权所有 |