案例,spss,数据分析
您现在的位置:SPSS案例分析网 >> SPSS学习案例

因子分析作业——全国30个省市经济指标分析


因子分析作业——全国30个省市经济指标分析、


全国30个省市的8项经济指标如下:
 
要求:先对数据做标准化处理,然后基于标准化数据进行以下操作
1、给出原始变量的相关系数矩阵;
2、用主成分法求公因子,公因子的提取按照默认提取(即特征值大于1),给出公因子的方差贡献度表;
3、给出共同度表,并进行解释;
4、给出因子载荷矩阵,据之分析提取的公因子的实际意义。如果不好解释,请用因子旋转(采用正交旋转中最大方差法)给出旋转后的因子载荷矩阵,然后分析旋转之后的公因子,要求给各个公因子赋予实际含义;
5、先利用提取的每个公因子分别对各省市进行排名并作简单分析。最后构造一个综合因子,计算各省市的综合因子的分值,并进行排序并作简单分析。
    


1、 输入数据,依次点选分析描述统计描述,将变量x1到x8选入右边变量下面,点选“将标准化得分另存为变量”,点确定即可的标准化的数据。
依次点选分析降维因子分析,打开因子分析窗口,将标准化的8个变量选入右边变量下面,点选描述相关矩阵下选中系数及KMO和Bartlett的检验,点继续,确定,就可得出8个变量的相关系数矩阵如下图。
 
由表中数据可以看出大部分数据的绝对值都在0.3以上,说明变量间有较强的相关性。

KMO 和 Bartlett 的检验
取样足够度的 Kaiser-Meyer-Olkin 度量。 .621
Bartlett 的球形度检验 近似卡方 231.420
 df 28
 Sig. .000
由上图看出,sig.值为0,所以拒绝相关系数为0(变量相互独立)的原假设,即说明变量间存在相关性。
2、依次点选在因子分析窗口点选抽取方法:主成分;分析:相关性矩阵;输出:未旋转的因子解,碎石图;抽取:基于特征值(特征值大于1);继续,确定,输出结果如下3个图。
解释的总方差
成份 初始特征值 提取平方和载入
 合计 方差的 % 累积 % 合计 方差的 % 累积 %
1 3.748 46.847 46.847 3.748 46.847 46.847
2 2.198 27.474 74.321 2.198 27.474 74.321
3 1.222 15.278 89.599 1.222 15.278 89.599
4 .403 5.036 94.635   
5 .212 2.652 97.287   
6 .135 1.690 98.977   
7 .067 .840 99.817   
8 .015 .183 100.000   
提取方法:主成份分析。
上表中第一列为特征值(主成分的方差),第二列为各个主成分的贡献率,第三列为累积贡献率,由上表看出前3个主成分的累计贡献率就达到了89.599%>85%,所以选取主成分个数为3。选y1为第一主成分,y2为第二主成分,y3为第三主成分。且这三个主成分的方差和占全部方差的89.599%,即基本上保留了原来指标的信息。这样由原来的8个指标变为了3个指标。

 
由上图看出,成分数为3时,特征值的变化曲线趋于平缓,所以由碎石图也可大致确定出主成分个数为3。与按累计贡献率确定的主成分个数是一致的。

3、共同度结果如下:
公因子方差
 初始 提取
Zscore:  国内生产 1.000 .945
Zscore:  居民消费 1.000 .800
Zscore:  固定资产 1.000 .902
Zscore:  职工工资 1.000 .873
Zscore:  货物周转 1.000 .858
Zscore:  消费价格 1.000 .957
Zscore:  商品零售 1.000 .929
Zscore:  工业产值 1.000 .904
提取方法:主成份分析。
上表给出了该次分析从每个原始变量中提取的信息。由上表数据可以看出,主成分包含了各个原始变量的80%以上的信息。

4、在因子分析窗口,旋转输出:载荷阵。输出结果如下:
成份矩阵a
 成份
 1 2 3
Zscore:  国内生产 .885 .384 .119
Zscore:  居民消费 .606 -.597 .276
Zscore:  固定资产 .912 .162 .211
Zscore:  职工工资 .467 -.722 .365
Zscore:  货物周转 .486 .737 -.280
Zscore:  消费价格 -.500 .257 .801
Zscore:  商品零售 -.619 .596 .437
Zscore:  工业产值 .823 .427 .208
提取方法 :主成分分析法。
a. 已提取了 3 个成份。
由上表数据第一列表明:第一主成分与各个变量之间的相关性;第二列表明:第二主成分与各个变量之间的相关性;第三列表明:第三主成分与各个变量之间的相关性。可以得出:x1x3x8主要由第一主成分解释,x4x5主要由第二主成分解释,x6主要由第三主成分解释。但是x2是由第一主成分还是第二主成分解释不好确定,x7是由三个主成分中的哪个解释也不好确定。
下面作因子旋转后的因子载荷阵。
在因子分析窗口,抽取输出:旋转的因子解,继续;旋转方法:最大方差法,继续;确定。输出结果如下2图;

旋转成份矩阵a
 成份
 1 2 3
Zscore:  国内生产 .955 .126 -.128
Zscore:  居民消费 .218 .843 -.207
Zscore:  固定资产 .872 .353 -.134
Zscore:  职工工资 .051 .926 -.116
Zscore:  货物周转 .753 -.505 -.191
Zscore:  消费价格 -.129 -.008 .970
Zscore:  商品零售 -.104 -.497 .819
Zscore:  工业产值 .944 .111 -.012
提取方法 :主成分分析法。
 旋转法 :具有 Kaiser 标准化的正交旋转法。

a. 旋转在 5 次迭代后收敛。
由上表数据可以得出:x1x3x5x8主要由第一主成分解释,x2x4主要由第二主成分解释,x6x7主要由第三主成分解释。与第一因子关系密切的变量主要是投入(投资:固定资产投资)与产出(产值:国内生产总值、工业总产值)方面的变量,货物周转又是投入产出的中介过程,可以命名为投入产出因子;与第二因子关系密切的都是反映民众生活水平的变量,可以命名为消费能力因子;与第三因子关系密切的是价格指数方面的变量,可以命名为价格指数因子。

解释的总方差
成份 初始特征值 旋转平方和载入
 合计 方差的 % 累积 % 合计 方差的 % 累积 %
1 3.748 46.847 46.847 3.207 40.089 40.089
2 2.198 27.474 74.321 2.222 27.770 67.859
3 1.222 15.278 89.599 1.739 21.740 89.599
4 .403 5.036 94.635   
5 .212 2.652 97.287   
6 .135 1.690 98.977   
7 .067 .840 99.817   
8 .015 .183 100.000   
提取方法:主成份分析。
由上表可以看出:第二列数据表明,各个主成分的贡献率与旋转前的有变化,但是3个主成分的累积贡献率相同都是89.599%。
5、在因子分析窗口,得分因子得分保存为变量f1f2f3;方法:回归。再按三个主成分降序排列:数据排序个案:将f1选入排序依据,排列顺序:降序。同理得出按f2f3排序的结果。结果如下;
最后,以各因子的方差贡献率占三个因子总方差贡献率的比重作为权重进行加权汇总,得出各城市的综合得分f。即
f=(0.40089*f1+0.277*f2+0.2174*f3)/0.89599
f得分在转换计算变量中的出。最后再按f得分排序。排序结果如下:

f1 排序 f2 排序 f3 排序 f 排序
2.11763 山东     3.66094 上海     2.07204 云南     1.62 上海   
2.03281 江苏     1.6829 广东     1.69291 贵州     0.95 山东   
1.48171 广东     1.58836 北京     1.28542 湖北     0.95 江苏   
1.22895 河北     0.99048 天津     1.16111 新疆     0.88 广东   
1.10693 四川     0.74993 浙江     0.98784 四川     0.58 四川   
1.07313 河南     0.6314 西藏     0.90343 陕西     0.5 湖北   
0.96184 辽宁     0.27409 福建     0.84557 上海     0.44 浙江   
0.65225 浙江     0.26647 江苏     0.77625 甘肃     0.42 云南   
0.60326 上海     0.18476 青海     0.62601 广西     0.25 北京   
0.60136 湖北     0.11802 新疆     0.53464 湖南     0.14 辽宁   
0.26238 湖南     0.04579 云南     0.47211 青海     0.09 湖南   
0.23633 黑龙江   0.00117 海南     0.25513 山东     0.07 新疆   
-0.06617 安徽     -0.15123 宁夏     0.21824 内蒙     -0.02 贵州   
-0.26842 福建     -0.19777 山东     -0.00481 西藏     -0.05 河南   
-0.28002 云南     -0.27211 广西     -0.0403 江西     -0.05 广西   
-0.28376 广西     -0.29037 甘肃     -0.13117 宁夏     -0.12 陕西   
-0.36466 山西     -0.29779 湖北     -0.13995 山西     -0.12 河北   
-0.39638 北京     -0.34462 贵州     -0.17691 江苏     -0.16 黑龙江 
-0.41389 陕西     -0.37617 黑龙江   -0.25054 北京     -0.23 甘肃   
-0.47727 内蒙     -0.39701 吉林     -0.32565 浙江     -0.24 福建   
-0.51327 吉林     -0.43068 辽宁     -0.46473 河南     -0.4 山西   
-0.56026 江西     -0.52044 湖南     -0.57616 黑龙江   -0.42 青海   
-0.57753 新疆     -0.52561 四川     -0.61312 辽宁     -0.43 内蒙   
-0.74551 甘肃     -0.53203 陕西     -0.78714 河北     -0.47 江西   
-0.76636 贵州     -0.66221 山西     -0.79854 福建     -0.5 天津   
-0.88229 天津     -0.68 江西     -0.94379 吉林     -0.52 西藏   
-1.34465 青海     -0.79471 安徽     -1.1953 广东     -0.59 吉林   
-1.35668 宁夏     -0.88339 内蒙     -1.50695 安徽     -0.66 安徽   
-1.46804 海南     -1.3165 河南     -1.62403 天津     -0.69 宁夏   
-1.59344 西藏     -1.52165 河北     -2.25163 海南     -1.23 海南   

有了对各个公因子的合理的解释,结合各个城市在三个公因子的得分和综合得分,就可对各城市的经济发展水平进行评价了。在投入产出因子f1上得分最高的6个城市是山东、江苏、广东、河北、四川。其中山东得分为2.11763,江苏得分为2.03281,高于其他城市,说明山东、江苏的工业的投入产出能力最高,工业发展相对较快,从而推动城市发展;而青海、宁夏、海南、西藏的投入产出能力较差,可能由于地理位置的缘故工业发展相对落后。上海、广东、北京、天津在消费能力因子f2上的得分较高,说明它们的消费能力较高,人们的收入也较高,从而生活质量较好,城市发展较快;而河南、河北得分较低,它们的消费能力较低,从而说明人们的收入也相对较低,生活质量相对差一点,城市发展较慢。云南、贵州、湖北、新疆在价格指数因子f3上的得分较高,说明在这些城市物价相对较高,可能以些非本地产的东西由于运输的不方便,使得这些物价相对较高,而广东、安徽、天津、海南的价格指数较低,说明,在这些城市,交通相对便捷,运输方便,或者本地产的东西较多基本满足需求,使得物价相对较低,但从侧面也可看出这些城市与其他城市的联系可能较少,不利于自己的总和发展,从而也说明了这些城市的发展相对较慢。由综合因子f的分就可综合评价城市的经济发展水平,综合得分的前3名上海、山东、江苏,得分最低的3个城市安徽、宁夏、海南。