中国科学院大学人工智能学院硕士课《模式识别》
2017.11.22, 国科大, 北京怀柔
注:决定将第8章提前到本次课来讲,将第7章放到后面讲
第8章第1讲
数据聚类
Data Clustering
向 世 明
smxiang@nlpr.ia.ac.cn
中科院自动化研究所 模式识别国家重点实验室 助教: 何文浩 (wenhao.he@nlpr.ia.ac.cn)
杨红明 (hongming.yang@nlpr.ia.ac.cn)
8.1 引言
?聚类
–物以类聚,人以群分。
–将数据分成多个类别,在同一个类内,对象(实体)之间具有较高的相似性,不同类对象间差异性较大。 –对一批没有类别标签的样本集,按照样本之间的相似程度分类,相似的归为一类,不相似的归为其它类。这种分类称为聚类分析,也称为无监督分类。 –聚类的质量(或结果)取决于对度量标准的选择。
–聚类结果因不同任务而不同。
身份识别 vs 姿态估计
8.1 引言
?聚类任务
–给定一个样本集合 X,给定一种度量样本间相似度或者相异度(距离)的标准。聚类系统的输出是关于样本集 X 的一个划分,即 D = {D1 ? D2 ? ? ? Dk }。其中, Di (i=1,2,…,k)是 X 的一个子集,且满足: ?D1 ? D2 ? ? ? Dk= X ?Di ? Dj =?, i ? j
–D 中成员 D1 , D2 ,…, Dk 叫做类或者簇(cluster),每个类均通过一些特征来描述:
?通过类中心或者类的边界点来表示; ?使用聚类树采用图形化方式来表示。
8.1 引言
?聚类方法分类
–按照聚类标准
?统计聚类方法:基于全局数据的聚类,即从全体样本中通过距离比较,获得聚类中心。主要采用欧氏距离度量、马氏距离度量等。
?概念聚类方法:将数据按按一定的方式和准则进行分组,得到的分组代表着不同的概念。 –按聚类所处理的数据类型
?数值型数据聚类、离散型数据聚类、混合型数据聚类。
相关推荐: