应用多元统计分析论文
2.5主成分分析原理
主成分分析也称主分量分析。由于多个变量之间往往存在着一定程度的相关性。人们自然希望通过线性组合的方式,从这些指标中尽可能地提取信息。当第一个线性组合不能提取更多的信息时,再考虑用第二个线性组合继续这个快速提取的过程,??直到所提取的信息与原指标相差不多为止。一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。以各个主成分为分量,就得到一个更低维的随机向量;因此,通过主成分分析既可以降低数据“维数”,又保留了原数据的大部分信息。
2.6主成分分析数学模型
设p个分量构成的p维随机向量为X?(x1,?xp)T.对X作正交变换,令Y?T?X,其中T为正交阵,要求Y的个分量是不相关的,并且Y的第一个分量的方差是最大的,第二个分量的方差次之,??。为了保持信息不丢失,Y的各分量的方差和与X的各分量的方差和相等
3对各年文化机构数进行数据分析
3.1符号说明
x1——艺术表演团体
x2——艺术表演场馆
x3——博物馆 x4——公共图书馆
x5——群众艺术馆(省级、地市级文化馆) x6——县市级文化馆 x7——乡镇(街道)文化站 x8——中等艺术学校
3.2 因子的提取
表1Eigenvalues of the Correlation Matrix: Total = 8 Average = 1
变量对因子模型所贡献的方差
- 5 -
应用多元统计分析论文
1 2 3 4 5 6 7 8 Eigenvalue 特征值 5.02133157 1.19574366 0.96481123 0.42888720 0.34557095 0.03486592 0.00875396 0.00003550 Difference 上下特征值 3.82558790 0.23093243 0.53592403 0.08331625 0.31070503 0.02611195 0.00871846 Proportion 方差比例 0.6277 0.1495 0.1206 0.0536 0.0432 0.0044 0.0011 0.0000 Cumulative 累计方差比例 0.6277 0.7771 0.8977 0.9513 0.9945 0.9989 1.0000 1.0000 2 factors will be retained by the MINEIGEN criterion. 从表1可以看出有以下4个统计量的关键词。
(1) 特征值,即每个样本变量的方差值。方差是按递减顺序排列的,因此,表1第一列的1-8
只能表示第1-8个成分,它们和程序语句中的x1-x8并不存在一一对应的关系。可以看出主成分为1者,方差为5.02133157,主成分为8者,方差为0.00003550
(2) 上下特征值(方差值)之差
(3) 方差比例,它是某个主成分的方差除以总方差所得的商。
(4) 累积方差比例,由表1可看出前7个主成分的方差和为1,由此可以获得初步结论:这个
模型只需要提取前7个主成分作为共同因子。
3.2前几个因子的抽取法
表2Factor Pattern
初始的因子载荷量及因子解释的方差
x1 x2 x3 x4 x5 x6 x7 x8 艺术表演团体 艺术表演场馆 博物馆 公共图书馆 群众艺术馆 县市级文化馆 乡镇文化站 中等艺术学校 Factor1 0.83851 0.57329 0.94141 0.97314 0.26114 -0.82471 -0.83523 -0.84284 Factor2 0.50126 0.65223 0.15014 -0.01639 -0.36994 0.33790 0.45537 0.19459 Variance Explained by Each Factor Factor1 Factor2 5.0213316 1.1957437 由表2显示出前2个因子与各个变量之间的相关关系,这些系数称为因子载荷量。它们表示系数绝对值较大的变量,与相应因子(Factor)的相关强度较强,可以看出,公共图书馆与Factor1的系数为0.97314,但对于因子2来说系数很小,为-0.01639,表明公共图书馆只与Factor1关系密切。
从表2可以看出x1,x2,x3,x4,x6,x7,x8分别与Factor1相关,x1,x2分别于Factor2相关。但是到目前为止,不知道前7个因子对模型的拟合度究竟如何,因此需要进一步研究前7个因子。
- 6 -
应用多元统计分析论文
3.3因子对于变量的共通值
表3Final Communality Estimates: Total = 6.217075 转轴前因子对变量的方差贡献率(所解释的方差)
X1 0.95436817 X5 0.20505198 X2 0.75406630 X6 0.79432053 X3 0.90878880 X7 0.90498010 X4 0.94726203 X8 0.74823731 由表3可以看出各个变量通过主成分分析后所获得最终共通值,由于共通值在0-1之间,当共通值为0时,表示该变量不包含于共同因子中,当共通值为1时,表示该变量所有信息能完全由共同因子解释。可以看出x1,x3,x4,x7的拟合度很好,但x5,x2,x6效果不是很好,与初始结论不符。
3.4转轴处理
表4 转轴后的因子载荷量及因子解释的方差
The FACTOR Procedure Rotation Method: Varimax Orthogonal Transformation Matrix 1 2 1 -0.71990 0.69407 2 0.69407 0.71990 Rotated Factor Pattern x1 x2 x3 x4 x5 x6 x7 x8 艺术表演团体 艺术表演场馆 博物馆 公共图书馆 群众艺术馆 县市级文化馆 乡镇文化站 中等艺术学校 Factor1 -0.25574 0.03998 -0.57351 -0.71194 -0.44476 0.82824 0.91735 0.74182 Factor2 0.94285 0.86745 0.76149 0.66363 -0.08507 -0.32915 -0.25189 -0.44490 根据表4可以看出转轴后的因子矩阵与表2大不一样,Factor1因子载荷量大于0.5的,由7个锐减到5个,同时变量与因子相关的情形大不一样了,即转轴前x2,x1与Factor2相关,所以 x2 ,x1相关,但转轴后,x1,x2,x3,x4与Factor2相关,又因为Factor2居后,他们的相关性就显得相对地不太重要。
表5 Final Communality Estimates: Total = 6.217075
转轴后的因子共通值
X1 0.95436817 X5 0.20505198 X2 0.75406630 X6 0.79432053 X3 0.90878880 X7 0.90498010 X4 0.94726203 X8 0.74823731 - 7 -
应用多元统计分析论文
Factor1 Factor2 3.1783942 3.0386810 由表5可以看出转轴不改变因子对于变量的共通值,不影响变量对于因子的拟合程度。
3.5因子分析
如表4所示,经过转轴后,从转轴因子模型中,可容易地解释因子的实际意义,
(1) 与第一个因子Factor1有关的变量有:博物馆,公共图书馆,县市级文化馆,乡镇文化馆。
因此Factor1可以解释为文化教育因子。
(2) 与第二个因子Factor2有关的变量有:艺术表演团体,艺术表演场馆,博物馆,公共图书
馆,中等艺术学校。因此Factor2可以解释为艺术传统因子。
3.6因子得分
表6 变量与因子得分 The FACTOR Procedure Rotation Method: Varimax Scoring Coefficients Estimated by Regression Squared Multiple Correlations of the Variables with Each Factor Factor1 1.0000000 Standardized Scoring Coefficients x1 x2 x3 x4 x5 x6 x7 x8 艺术表演团体 艺术表演场馆 博物馆 公共图书馆 群众艺术馆 县市级文化馆 乡镇文化站 中等艺术学校 Factor1 0.17074 0.29640 -0.04782 -0.14903 -0.25217 0.31437 0.38407 0.23379 Factor2 0.41769 0.47192 0.22052 0.12465 -0.18663 0.08944 0.15871 0.00065 Factor2 1.0000000 从表6可以看出,变量x1(艺术表演团体),x2(艺术表演场馆),x4(公共图书馆),x7(乡镇文化馆)对因子得分起决定作用,而且因子得分最高。
3.7主成分分析
表7 Simple Statistics
均值等描述性统计量 y x1 x2 x3 - 8 -
相关推荐: