第一范文网 - 专业文章范例文档资料分享平台

几种降维方法PCALDALPP

来源:用户分享 时间:2025/7/12 4:41:54 本文由loading 分享 下载这篇文档手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:xxxxxxx或QQ:xxxxxx 处理(尽可能给您提供完整文档),感谢您的支持与谅解。

几种降维方法PCA、LDA、LPP http://www.cnblogs.com/oimz/archive/2011/08/24/PCA.html

初识PCA-主成分分析

PCA,Principal Component Analysis。是一种掌握事物主要矛盾的统计分析方法,它可以从多元事物中解析出主要影响因素,揭示事物的本质,简化复杂的问题。这是百度百科的一句话。个人对其的理解,这是一种减少干扰信息并用来区分数据的方法。

比如小A和小B是一对双胞胎,小A的额头上有颗痣,而小B没有。此时,我们分辨这两个人只需要根据谁的额头上有痣即可,而无需关注两个人在其他方面的微小差别。

人脸中长了痣,这是很形象的,且根据经验,人们会把这颗痣当做区分这对双胞胎的要素。而在现实生活的数据处理中,如向量,向量之间的区分点不是那么明显,而且机器也不会根据经验来判断哪些数据可以当做区分与其他向量的要素。针对这一问题,PCA被提了出来,PCA算法是一种无监督学习(unsupervised learning),无须事先训练则可以找到区分于其他数据的“痣”。

关于PCA算法的步骤,网上到处都是而且很详细,而那些公式也大多是一样了。本文中便不再赘述,在这里只是做一下简单的介绍。首先我们有N个P维的向量要区分,X1,X2...Xn。P比较大,则处理所有向量的数据量较大,我们将其降至d维(d

S=[X1,X2...Xn],算出协方差矩阵C(P维方阵),求出C的特征值T和特征向量V。将特征值按从大到小排列取出前d个特征值,并将这些特征值对应的特征向量构成一个投影矩阵L。使用S*L则得到降维后的提出主成分的矩阵。下面附上自己做的小实验。 X1 = [1,2,4] X2 = [10,4,5] X3 = [100,8,4]

根据经验上述3维向量中,第一维和第二维是区分的要素且第一维比第二维区分度更大。于是我们构造矩阵S,

S = [1,2,4;10,4,5;100,8,5] 计算出S的协方差矩阵C = COV(S), C =

1.0e+003 *

2.9970 0.1620 0.0180 0.1620 0.0093 0.0013 0.0180 0.0013 0.0003

求出协方差矩阵C的特征值T和特征向量V,[T,V] = eig(C) T =

-0.0235 0.0489 -0.9985 0.5299 -0.8464 -0.0540 -0.8478 -0.5303 -0.0060 V =

1.0e+003 *

-0.0000 0 0 0 0.0008 0 0 0 3.0059

取出第3个和第2个特征值以及相对应的特征向量构成投影矩阵L(实际上可以只取第三维)

L =

-0.9985 0.0489 -0.0540 -0.8464 -0.0060 -0.5303

使用S*L则得到新的降维后的矩阵N N =

-1.1305 -3.7651 -10.2310 -5.5481 -100.3120 -4.5327

则提取出了可以用于区分的二维。

http://blog.csdn.net/warmyellow/article/details/5454943

线性判别分析(Linear Discriminant Analysis, LDA)算法分析

LDA算法入门

一. LDA算法概述:

线性判别式分析(Linear Discriminant Analysis, LDA),也叫做Fisher线性判别(Fisher Linear Discriminant ,FLD),是模式识别的经典算法,它是在1996年由Belhumeur引入模式识别和人工智能领域的。性鉴别分析的基本思想是将高维的模式样本投影到最佳鉴别矢量空间,以达到抽取分类信息和压缩特征空间维数的效果,投影后保证模式样本在新的子空间有最大的类间距离和最小的类内距离,即模式在该空间中有最佳的可分离性。因此,它是一种有效的特征抽取方法。使用这种方法能够使投影后模式样本的类间散布矩阵最大,并且同时类内散布矩阵最小。就是说,它能够保证投影后模式样本在新的空间中有最小的类内距离和最大的类间距离,即模式在该空间中有最佳的可分离性。

二. LDA假设以及符号说明:

假设对于一个

空间有m个样本分别为x1,x2,……xm 即 每个x是一个n行的矩阵,其中

表示属于i类的样本个数,假设有一个有c个类,则

………………………………………………………………………… 类间离散度矩阵 ………………………………………………………………………… 类内离散度矩阵 ………………………………………………………………………… 属于i类的样本个数 …………………………………………………………………………… 第i个样本

…………………………………………………………………………… 所有样本的均值 …………………………………………………………………………… 类i的样本均值

三. 公式推导,算法形式化描述

根据符号说明可得类i的样本均值为:

…………………………………………………………………… (1)

同理我们也可以得到总体样本均值:

………………………………………………………………………… (2)

根据类间离散度矩阵和类内离散度矩阵定义,可以得到如下式子:

……………………………………………… (3)

…………………………………… (4)

当然还有另一种类间类内的离散度矩阵表达方式:

其中是指i类样本的先验概率,即样本中属于i类的概率(),把代入

第二组式子中,我们可以发现第一组式子只是比第二组式子都少乘了1/m,我们将在稍后进行讨论,其实对于乘不乘该1/m,对于算法本身并没有影响,现在我们分析一下算法的思想,

我们可以知道矩阵的实际意义是一个协方差矩阵,这个矩阵所刻画的是该

类与样本总体之间的关系,其中该矩阵对角线上的函数所代表的是该类相对样本总体的方差(即分散度),而非对角线上的元素所代表是该类样本总体均值的协方差(即该类和总体样本的相关联度或称冗余度),所以根据公式(3)可知(3)式即把所有样本中各个样本根据自己所属的类计算出样本与总体的协方差矩阵的总和,这从宏观上描述了所有类和总体之间的离散冗余程度。同理可以的得出(4)式中为分类内各个样本和所属类之间的协方差矩阵之和,它所刻画的是从总体来看类内各个样本与类之间(这里所刻画的类特性是由是类内各个样本的平均值矩阵构成)离散度,其实从中可以看出不管是类内的样本期望矩阵还是总体样本期望矩阵,它们都只是充当一个媒介作用,不管是类内还是类间离散度矩阵都是从宏观上刻画出类与类之间的样本的离散度和类内样本和样本之间的离散度。

LDA做为一个分类的算法,我们当然希望它所分的类之间耦合度低,类内的聚合度高,即类内离散度矩阵的中的数值要小,而类间离散度矩阵中的数值要大,这样的分类的效果才好。 这里我们引入Fisher鉴别准则表达式:

…………………………………………………………… (5)

其中

为任一n维列矢量。Fisher线性鉴别分析就是选取使得

达到最大值的矢量

作为投影方向,其物理意义就是投影后的样本具有最大的类间离散度和最小的类内离散度。

我们把公式(4)和公式(3)代入公式(5)得到:

我们可以设矩阵

其中

可以看成是一个空间,也就是说

也可表示为

是,而当

构成的低维空间(超平面)的投影。

样本为列向量时,

即表示

空间的几何距离的平方。所以可以推出fisher空间下的类间几何距离的平方和,同理也可

线性鉴别分析表达式的分子即为样本在投影

搜索更多关于: 几种降维方法PCALDALPP 的文档
几种降维方法PCALDALPP.doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
本文链接:https://www.diyifanwen.net/c9rbas2xc93207lq1babz_1.html(转载请注明文章来源)
热门推荐
Copyright © 2012-2023 第一范文网 版权所有 免责声明 | 联系我们
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:xxxxxx 邮箱:xxxxxx@qq.com
渝ICP备2023013149号
Top