1.介绍
说起PCA,还真一时说不上来它的定义,遂百度了一下,看看度娘如何说?主成分分析 ( Principal Component Analysis , PCA )或者主元分析,是一种掌握事物主要矛盾的统计分析方法,它可以从多元事物中解析出主要影响因素,揭示事物的本质,简化复杂的问题,计算主成分的目的是将高维数据投影到较低维空间。这几句话其实已经把PCA的主要思想讲到了,就是抽取出数据的主要因素,从多个变量中提取出少数几个可以代替所有变量的综合变量,目的当然就是减少变两个数,简化计算。
最简单的一个例子就是,量体裁衣,古时候做衣服都会拿卷尺量一下胸围、腰围、臀围等等,会有好几个指标,现在我们去买衣服会发现,我们只要说一个180或者175就基本可以买到一件符合自己的衣服,这是如何做到的呢?这就是一个很简单的PCA的例子,我们买衣服不再需要那么多的身体指标,那是因为这些指标都已经化作一个综合指标也就是上面所说的180或者175,这个180可能既不是你的身高也不是你的体重,也不是你的胸围,也不是你的腰围,但是它却可以来衡量你穿衣服的大小,而且一个指标足矣。
说到这里,要进一步说一下PCA,PCA就是把几个相关的变量,转化成少数几个不相关的变量来对原始数据进行表示。再拿上面所说的例子进行解释,就是身高、体重,腰围、胸围、臀围这几个指标中,一般情况下,身高越高、体重越重,体重越重当然一般情况下这个人越胖,当然腰围、胸围、臀围就越大,这满足基本规律,也就是说上面几个变量是存在相关关系的,那么对于大多数人来说,是成正相关的,那么我们综合成一个指标就可以啦,180号的就代表身高**,体重**,腰围**,胸围**,臀围**等等,当然这个事满足大多数人的要求的,对于少部分人来说可能是不满足的,这时候我们就会发现,在一些特别胖的人买裤子的时候,会要特别大的号,然后裤子就会特别长,不合适。这当然也是PCA对于少数奇异点的不合适。
主成分分析方法是K.Pearson在一个多世纪前提出的一种数据分析方法,其出发点是从一组特征中计算出一组按重要性从小到大排列的新特征,他们是原有特征的线性组合并且互不相关。
2.数学描述
记x1,...,xp为p个原始特征,设新特征?i,i?1,...,p是这些原始特征的线性组合:
?i???ijxj??iTx
j?1p为了统一?i的尺度,不妨要求线性组合系数的模为1,则
?iT?i?1
上式写成矩阵形式为
??ATx
其中,?是由新特征?i组成的向量,A是特征变换矩阵。要求解的是最优化的正交变换A,他使新特征?i的方差达到极值。正交变换保证了新特征之间不相关,而新特征的方差越大,则样本在该维特征上的差异越大,因而这一特征也就越重要。
考虑第一个个新特征?1
?1???1jxj??1Tx
j?1p他的方差是
var(?1)?E[?12]?E[?1]2?E[?1TxxT?1]?E[?1Tx]E[xT?1]??1T??1
其中,?是x的协方差矩阵,可以用样本来估计;E是数学期望。要在约束?iT?i?1下最大化?1的方差,这等价于求下列拉格朗日函数的极值的值
TTf(?1)??1??1?v(?1?1?1)
V是拉格朗日乘子。对上式中?1求导得
??1?v?1
对于求解上述的方程的问题转化为求解协方差矩阵特征值特征向量的问题。
var(?1)??1T??1?v?1T?1?v
因此,最有的?1应该是?的最大特征值对应的特征向量。?1乘坐第一主成分,他在原始特征的所有线性组合里是方差最大的。
至此,第一主成分就可以求得,同理第二主成分与第一主成分正交,可以求得。协方差矩阵?共有p个特征值,把他们从小到大排序为?1??2?...??p,按照上面的方法,可以求出对应特征值得特征向量。全部主成分的方差之和是
?var(?)???
iii?1i?1pp他等于各个原始特征的方差之和。
3.应用
主成分分析(PCA)主要应用与数据的降维操作,基于的思想就是在最大化保留数据原
始信息的前提下,进行降维操作。
重新强调一下,主成分?i???j?1pijxj??iTx,由于本人,之前曾误以为最后求得的特征
向量就是主成分,在此给大家提醒一下。
相关推荐: