类合并,即可得?1=1水平上的等价分类。
(2)取?2为次大值,从R中直接找出相似程度为?2的元素对(xi,xj)(即
rij??2),相应的将对应于?1=1
的等价分类中xi所在类与xj所在类合并,将所
有这些情况合并后,即得对应?2的等价分类。
(3)取?3为第三大值,从R中直接找出相似程度为?3的元素对(xi,xj)(即
rij??3),类似的将对应于?2的等价分类中xi所在类与xj所在类合并,将所有这
些情况合并后,即得对应?3的等价分类。 (4)依次类推,直到合并到U成为一类为止。
直接聚类法与传递闭包法所得的结果是一致的,直接聚类法要明显简单一些,下面再介绍直接聚类法的图形化方法,即最大树法。
所谓最大树法,就是画出以被分类元素为顶点,以相似矩阵R的元素rij为权重的一棵最大的树,取定??[0,1],去掉权重低于?的枝,得到一个不连通的图,各个连通的分支便构成了在?水平上的分类。 下面介绍求最大树的Kruskal法
设U?{x1,x2,...,xn},先画出所有顶点xi(i?1,2,...,n),从模糊相似矩阵R中按
rij从大到小的顺序依次画枝,并标上权重,要求不产生圈,直到所有顶点连通为
止,这就得到一棵最大树(最大树可以不唯一)。
上述两个聚类方法各有优劣,使用传递闭包法分类,当矩阵阶数较高时,手工计算量大,但在计算机上还是容易实现的,因此,人们还是乐于使用它。当矩阵阶数不高时,直接聚类法比较直观,也便于操作,适合推广使用。
最佳阙值?的确定
在模糊聚类分析中,对于各个不同的??[0,1],可得到不同的分类,从而形成一种动态聚类图,这对全面了解样本的分类情况是比较形象和直观的。但许多实际问题需要选择某个阙值?的问题。现介绍下面两种方法。
1. 按照实际需要,在动态聚类图中,调整?的值以得到适当的分类,而不需
要事先准确地估计好样本应分为几类。当然,也可由具有丰富经验的专家结合专业知识来确定阙值?,从而得出在?水平上的等价分类。 2. 用F?统计量确定?最佳值
设论域U?{x1,x2,...,xn}为样本空间(样本总数为n),而每个样本xi有m个特征(即由试验或观察得到的m个数据);xi=(xi1,xi2,...,xim)(i?1,.,.2.,是,得到原始数据矩阵,如下表所示
样本 指 标 1 2 ? k ? m 。于n)
x1 x2 · x11 x12 ? x1k ? x1m x21 x22 ? x2k ? x2m · · ? · ? · xi xi1 xi2 ? xik ? xim · · · ? · ? · xn x xn1 xn2 ? xnk ? xnm x1 x2 ? xk ? xm 1nik 其中,xk?x(k?ni?1?1,2,...,m),x称为总体样本的中心向量。
设对应于?值的分类数为r,第j类的样本数为nj,第j类的样本记为:
x1,x2,...,xnj,第j类的聚类中心为向量x(j)(j)(j)(j)=(x1,x2,?, xn),其中xk,
(j)(j)(j)(j)为第k个特征向量的平均值:
xk(j)=
1njnj?xi?1(j)ik (k?1,2,...,m)
作F?统一量
r?nF?j?1rnjj||x(j)?x||(j)2(r?1)||2)
??||xi(j)?xj?1i?1(n?r)其中||xxi(j)(j)m?x||?(j)?k?1(xk(j)?xk)2为x(j)与x的距离,||xi(j)?x(j)||为第j类样本
与中心x的距离,称式(*)为F?统一量。它的分子表征类与类之间的距
离,分母表征类样本间的距离。因此,F值越大,说明分类越合理,对应F?统一值最大的阙值?为最佳值。
(二).模型实例分析
例: 设某地区设置有11个雨量站,其分布图见图5-1,10年来各雨量站所测得的年降雨量列入表5-1中。现因经费问题,希望撤销几个雨量站,问撤销那些雨量站,而不会太多的减少降雨信息?
xx77x2x1x1x4x4x5x5xx66x8x8x11x11x3x3x9x9x10x10
图1
表1
年序号 x1 276 251 192 246 291 x2 324 287 433 232 311 x3 159 349 290 243 502 x4 413 344 563 281 388 x5 292 310 479 267 330 x6 258 454 502 310 410 x7 311 285 221 273 352 x8 303 451 220 315 267 x9 175 402 320 285 603 x10 243 307 411 327 290 x11 320 470 232 352 292 1 2 3 4 5 6 7 8 9 10 466 258 453 158 324 158 327 365 271 406 224 432 357 410 235 178 401 452 308 520 164 361 384 283 442 203 381 420 410 520 502 301 482 201 358 320 413 228 179 343 240 402 360 430 251 278 199 316 342 282 350 421 252 185 371 应该撤销那些雨量站,涉及雨量站的分布,地形,地貌,人员,设备等众多因素。我们仅考虑尽可能地减少降雨信息问题。一个自然的想法是就10年来各雨量站所获得的降雨信息之间的相似性,对全部雨量站进行分类,撤去“同类”(所获降雨信息十分相似)的雨量站中“多余”的站。 问题求解 假设为使问题简化,特作如下假设 (1) 每个观测站具有同等规模及仪器设备; (2) 每个观测站的经费开支均等; 具有相同的被裁可能性。
分析:对上述撤销观测站的问题用基于模糊等价矩阵的模糊聚类方法进行分析,原始数据如上。 求解步骤:
1.利用相关系数法,构造模糊相似关系矩阵(r??)11?11,其中
n?|(x rij=
k?1nk?1ik?xi)||(xjk?xj)|n221
[?(xik?xi)??(xjk?xj)]2k?1其中xi=
1x,i=1,2,?,11。 ?10ikk?1njk110 xj=
x,j=1,2,?,11。 ?nk?1用C语言编程计算出模糊相似关系矩阵(r??)11?11,具体程序如下 #include
相关推荐: