判别分析的基本原理和模型
一、判别分析概述 (一)什么是判别分析
判别分析是多元统计中用于判别样品所属类型的一种统计分析方法,是一种在已知研究对象用某种方法已经分成若干类的情况下,确定新的样品属于哪一类的多元统计分析方法。
判别分析方法处理问题时,通常要给出用来衡量新样品与各已知组别的接近程度的指标,即判别函数,同时也指定一种判别准则,借以判定新样品的归属。所谓判别准则是用于衡量新样品与各已知组别接近程度的理论依据和方法准则。常用的有,距离准则、Fisher准则、贝叶斯准则等。判别准则可以是统计性的,如决定新样品所属类别时用到数理统计的显著性检验,也可以是确定性的,如决定样品归属时,只考虑判别函数值的大小。判别函数是指基于一定的判别准则计算出的用于衡量新样品与各已知组别接近程度的函数式或描述指标。
(二)判别分析的种类
按照判别组数划分有两组判别分析和多组判别分析;按照区分不同总体的所用数学模型来分有线性判别分析和非线性判别分析;按照处理变量的方法不同有逐步判别、序贯判别等;按照判别准则来分有距离准则、费舍准则与贝叶斯判别准则。
二、判别分析方法 (一)距离判别法
1.基本思想:首先根据已知分类的数据,分别计算各类的重心,即分组(类)均值,距离判别准则是对于任给一新样品的观测值,若它与第i类的重心距离最近,就认为它来自第i类。因此,距离判别法又称为最邻近方法(nearest neighbor method)。距离判别法对各类总体的分布没有特定的要求,适用于任意分布的资料。
2.两组距离判别
两组距离判别的基本原理。设有两组总体GA和GB,相应抽出样品个数为n1,n2,
(n1?n2)?n,每个样品观测p个指标得观测数据如下,
x11?A?x12?A??x1p?A?x21?A?x22?A??x2p?A? 总体GA的样本数据为:
????xn11?A?xn12?A??xn1p?A? 该总体的样本指标平均值为:x1?A?,x2?A??xp?A?
x11?B?x12?B??x1p?B?x21?B?x22?B??x2p?B? 总体GB的样本数据为:
????xn21?B?xn22?B??xn2p?B? 该总体的样本指标平均值为:x1?B?,x2?B??xp?B?
现任取一个新样品X,实测指标数值为X=(x1,x2,?,xp),要求判断X属于哪一类?
首先计算样品X与GA、GB两类的距离,分别记为D?X,GA?、D?X,GB?,然后按照距离最近准则判别归类,即样品距离哪一类最近就判为哪一类;如果样品距离两类的距离相同,则暂不归类。判别准则写为:
X?GA,如果D?X,GA??D?X,GB?, X?GB,如果D?X,GA??D?X,GB?,
X待判,如果D?X,GA??D?X,GB?。
其中,距离D的定义很多,根据不同情况区别选用。如果样品的各个变量之间互不相关或相关很小时,可选用欧氏距离。采用欧氏距离时,
D?X,GA?=
(x??x?(A))???1p2
D?X,GB?=
(x??x?(B))???1p2
然后比较D?X,GA?和D?X,GB?的大小,按照距离最近准则判别归类。
但实际应用中,考虑到判别分析常涉及到多个变量,且变量之间可能相关,故多用马氏距离。马氏距离公式为:
??1?X?X?A?? d2?X,GA???X?X?A??SA??1?X?X?B?? d2?X,GB???X?X?B??SB其中X?A?、X?B?、SA、SB分别是GA、GB的均值和协方差阵。 这时的判别准则分两种情况给出: (1)当SA=SB=S时
d2?X,GB??d2?X,GA?
=
?X?X????S?X?X?????X?X????S?X?X???
B?1BBA?1AA?1???1=2?X??X?A??X?B???S?X?A??X?B??
2??令X?1?X?A??X?B??,同时记W?X??(d2(X,GB)?d2(X,GA))2 2则W?X??X?XS???X???X???
?1AB所以判别准则写成:
X?GA,如果W?X??0, X?GB,如果W?X??0,
X待判,如果W?X??0。
该规则取决于W?X?的值,因此W?X?被称为判别函数,也可以写成:
W?X????X?X?,其中??S?1?X?A??X?B??。W?X?被称为线性判别函数。
作为特例,当p?1时,两个总体的分布分别是N??,??和N??,??,判别函数为
2212???2?1?W?X???X?1?2??1??2?
2???或
x?x2?1?W?X???X?1?2?x1?x2?(使用样本资料代替总体参数时)
2?s?不妨设?1??2,这时W?X?的符号取决于X??或X??。X??时,判X?GA;
X??时,判X?GB。
两组距离判别法,简单容易理解,判别准则也是合理的,但是有时也会出现错判。如下
图6.1,如果X来自GA,但却落入D2,被错判为GB组,错判的概率为图中阴影的面积,记为P(2/1),类似有P(1/2),显然P(2/1)=P(1/2)=1??(?1??2)。 2?
图6.1
当两总体靠的比较近时,即两总体的均值差异较小的时候,无论用何种判别方法,错判的概率都比较大,这时的判别分析也是没有意义的。因此只有当两总体的均值有显著差异时,进行判别分析才有意义,为此,要对两总体的均值差异性进行检验,对此在下文中叙述。 (2)当SA?SB时
按照距离最近准则,类似地有:
X?GA,如果D?X,GA??D?X,GB?, X?GB,如果D?X,GA??D?X,GB?,
X 待判,如果D?X,GA??D?X,GB?。
仍然用W(X)?d2?X,GB??d2?X,GA?
??1?1?X?X?B????X?X?A???SA??X?X?B??SB?X?X?A??
作为判别函数,此时的判别函数是X的二次函数。 (3)关于两组判别分析的检验
由于判别分析是假设两组样品是取自不同总体,如果两个总体的均值向量在统计上差异不显著,则进行判别分析意义不大。所以,两组判别分析的检验,实际就是要经验两个正态总体的均值向量是否相等,为此,检验的统计量为:
F??n1?n2?2??p?1T2~F?p,n?n?p?1?
12?n1?n2?2?p????n1n2?nn12?S?1?? 其中:T2??n1?n2?2??????X(A)?X(B)X(A)?X(B)?n?n??n?n?22?1??1? S?SA?SB
给定检验水平,查F分布表使?F?F????,可得出F?,再由样本值计算F,若
F?F?,则否定原假设,认为两个总体的均值向量在统计上差异显著,否则两个总体的均
值向量在统计上差异不显著。
3、多个总体的距离判别法
类似两个总体的讨论推广到多个总体。
设有k个总体G1?Gk,相应抽出样品个数为n1?nk(n1???nk)?n,每个样品观测p个指标得观测数据如下,
x11?1?x12?1??x1p?1?x21?1?x22?1??x2p?1?总体G1的样本数据为:
????xn11?1?xn12?1??xn1p?1?该总体的样本指标平均值为: x1?1?,x2?1??xp?1?
?
x11?k?x12?k??x1p?k?x21?k?x22?k??x2p?k?总体Gk的样本数据为:
????xn21?k?xn22?k??xn2p?k?该总体的样本指标平均值为: x1?k?,x2?k??xp?k?
它们的样本均值和协方差阵分别为: X?1??X?k?、S1?Sk。一般的,记总体的样本指标平均值为:X(i)?(x1?i?,x2?i??xp?i?),i?1,2?k。
(1)当S1???Sk?S时 此时d2?X,Gi???X?X?i???Si?1?X?X?i??,i?1,2?k
12[d(X,Gj)?d2(X,Gi)] 2判别函数为Wij?X??
搜索“diyifanwen.net”或“第一范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,第一范文网,提供最新幼儿教育判别分析的基本原理 全文阅读和word下载服务。
相关推荐: