图6:预测组值与实际组值的对比
由图6可以更加直观的看到预测与实际值之间占比浮动小,再次说明我们的预测方法具有较高的可信度。
7 问题三的解答
判断居民收入是否超过50k的潜在影响因素众多,题目给出了15个可能影响收入的条件指标因素,在不影响判别准确性的前提下,精简指标信息在信息膨胀的今天显得很有必要。问题三中我们运用主成分分析法进行指标的精简,确定影响居民收入是否超过50K的关键指标。 7.1 主成分的基本思想
主成分分析旨在利用降维的思想,设法将原来众多的具有一定相关性的指标,重新组合成一组新的互补相关的综合指标来代替原来指标.通常数学上的处理就是将原来的P个指标作线性组合,作为新的综合指标。线性组合的选取应遵循以下准则:在所有线性组合中所选取的
F1应该是方差最大的,故称F1为第一主成
分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合.为了有效的反映原有信息,数学的语言表达就是要求
F1已有的信息就不需要再出现在F2中,用,称F2为第一主成分,依次类推可以构
Cov?F1,F2??0造出第三、第四、?、第P个主成分。
7.2问题三模型的建立
我们以附录二中的500组数据为样本数据,记n?500表示以从age到native-country的16个信息特征为指标,记p?16得到原始数据矩阵x。
*(1)样本数据xij标准化为xij
为了消除各项因素之间在量纲化和数量级上的差别,对样本数据进行标准
*化,得到标准化矩阵X*??X1*?Xp*???xij*?n?p,用标准化后的数据xij代替xij,
得:xij?*xij?xjsj1n;其中,xj??xij为因素j的平均数, sj?ni?1?(xi?1nij?xj)2为因
n?1素j的标准差。
(2)根据标准化矩阵X*建立相关系数矩阵R相关系数矩阵R??rij?p?p是反映标准化后的数据之间的相关关系的密切程度的统计指标,值越大,说明有必要对数据进行主成分分析。由于矩阵R是一个实对称矩阵,故
1n**rij?xkixkj??n?1k?1??xk?1nki?xi2??xnk?1kj?xj??2??k?1n;
xki?xi???xkj?xj其中,i?1,?,n;j?1,?,p。
(3)根据相关系数矩阵求特征值?i及正交化单位特征向量ai
求解相关系数矩阵R的特征方程?E?R?0,得到特征值?i?i?1,?,p?,由于R是一个正定矩阵,故其特征值均为正数,将其按从大到小的数序排列得
?1??2????p?0。
将特征值?i带入方程?R??iE?ai?0,求得对应的特征向量ai??aji?p?1,由于ai正交化单位特征向量,故a1j2?a2j2???apj2?1 (4)选择重要的主成分,并写出主成分表达式
主成分分析可以得到p个主成分,但是由于各个主成分的方差是递减的,包含的信息量也是递减的,所以实际分析时,一般不是选取p个主成分,而是根据各个主成分累计贡献率的大小选取前k个主成分,这里贡献率就是指某个主成分的方差占全部方差的比重,实际也就是某个特征值占全部特征值合计的比重。 即得到贡献率
wi??i??k?1m?i?1,?,m?
k若贡献率越大,说明该主成分所包含的原始变量的信息越强。主成分个数k的选取,主要根据主成分的累积贡献率来决定,即一般要求累计贡献率达到85%以上,这样才能保证综合变量能包括原始变量的绝大多数信息。 (5)计算主成分得分
计算n个样品在m个主成分上的得分如下:
?F1?a11X1*?a21X2*???ap1XP*?综合评价函数F??
?F?aX*?aX*???aX*1m12m2pmP?m(6)综合评价函数F??wiFii?1m
每个主成分的贡献率为
wi??i??k?1m?i?1,?,m?
k综上所述,我们得到模型如下:?wiaji?j?1,?,p?
i?1m7.3模型的求解
(1)数据KMO检验和巴特利球体检验
我们依然采用附录二中的数据,即剔除了35个缺失值的居民的全部属性信息,用SPSS软件求解,因为SPSS做主成分分析数据时首先进行KMO检验和巴特利球体检验,KMO检验系数>0.5,P值(最后一行Sig为球星检验的P值)<0.05时,数据才有结构效度,才能进行主成分分析。我们对居民收入信息中所给的信息得到的KMO检验系数为0.542(结果见附录十)>0.5,P值=0.000,所以数据具有结构效度,可以做主成分分析。 (2)主成分个数m的确定
数据具备做因子分析的前提条件,运用SPSS做得的相关系数矩阵的特征值及所有主成分的贡献率情况,如下表所示:
表7-1:特征值及贡献率 主成分 特征值 贡献率 累计贡献率 2.105 15.037 15.037 1 1.829 13.065 28.102 2 1.344 9.598 37.7 3 1.252 8.942 46.642 4 1.074 7.67 54.312 5 1.069 7.637 61.949 6 1.037 7.409 69.358 7 0.909 6.49 75.848 8 0.843 6.023 81.87 9 0.797 5.69 87.56 10 0.672 4.8 92.36 11 0.626 4.47 96.831 12 0.444 3.169 100 13 2.31E-15 1.65E-14 100 14 由表可知,主成分F1.。。。。。F7特征值均大于1,故可以确定主成分的个数m=7 (3)主成分的系数分析
确定主成分后,我们在SPSS里得到主成分对每个原指标的相关系数,如下表:
表7-2:主成分矩阵系数
属性 age workclass fnlwgt education education-num marital-status occupation relationship race sex capital-gain capital-loss hours-per-week native-country 1 .273 .039 .011 .070 .267 -.350 -.068 -.073 -.035 -.208 .926 .002 .923 .257 2 -.128 -.115 .253 .139 -.376 .667 .055 .517 .279 .578 .324 -.353 .341 -.318 成份 3 .187 .666 -.285 -.160 .468 .246 .376 .344 .081 .231 -.055 -.038 -.053 .391 4 .573 -.010 -.035 .649 -.327 -.077 -.218 .428 -.154 -.070 -.118 .084 -.122 .304 5 -.189 .119 .128 .340 -.314 -.143 .710 -.229 .044 -.205 -.010 -.373 .009 .184 6 -.165 .238 .522 .187 .073 .001 -.059 .038 .610 -.161 -.006 .512 -.033 .078 7 -.295 -.307 .342 -.186 .114 .252 .119 .390 -.446 -.325 .011 .107 .005 .382 根据表7-2,通过比较每个主成分关于原指标的系数绝对值,我们得到以下结论:
第一主成分与caption-gain、hours-per-week等属性强相关,
第二主成分与marital婚姻状态、relationship关系、sex性别等属性强相关, 第三主成分与workclass属性相关,
第四主成分与age年龄、education教育等属性强相关, 第五主成分与职业强相关,
第六主成分与fnlwgt、种族、资产损失等属性强相关, 第七主成分与race种族属性相关。
(4)根据表达式?wiaji?j?1,?,p?计算个主成分对原指标的相关系数
i?1m为保证原来数据的信息最大程度的保留,故将特征值大于1的前面几个指标定为关键指标,如下表:
表7-3:对应特征值的特征向量 age workclass fnlwgt 1 0.188 0.027 0.076 2 -0.095 -0.085 0.187 3 0.161 0.574 -0.246 4 0.512 -0.009 0.031 5 -0.182 0.115 0.124 6 -0.16 0.23 0.505 7 -0.29 -0.301 0.336
相关推荐: