图3-4
C.20棵树的情况
图3-5
【结果分析】 结果对照表: 分类器 Bagging J48 Random Forests(5) 误分率 运行时间(s)
3.33% 0.40 4.90% 0.13 2.55% 0.22 Random Forests(10) 1.57% 0.42 Random Forests(20) 1.57% 0.8 实验八 基于SimpleKMeans聚类分析的信息获取
一、实验名称:
基于SimpleKMeans聚类分析的信息获取 二、实验目的:
通过一个已有的训练数据集,观察训练集中的实例,进行聚类信息获取,更好地理解和掌握聚类分析算法基本原理,建立相应的预测模型,然后对新的未知实例进行预测,预测的准确程度来衡量所建立模型的好坏。 三、实验要求
1、熟悉Weka平台 2、掌握聚类分析算法
3、对数据进行预处理,利用Weka和不同参数设置进行聚类分析,对比结果,得出结论,对问题进行总结。 四、实验平台
新西兰怀卡托大学研制的Weka系统 五、实验数据
1、使用银行对资产进行评估的数据bank-data.arf,数据里有12个属性,分别是id,age,sex,region,income,married,children, car, save_act, current_act, mortgage,pep.共600个实例。
2、本测试集中将pep属性作为分类的目标类别,因此将其设为缺失值.缺失值用?表示。 六、实验方法和步骤
1、首先对于原始数据做预处理。把“bank-data.xls”格式数据转换为“bank-data.csv”,并删去属性“id”,保存为ARFF格式后,修改属性“children”为分类型。这样得到的数据文件为“bank-data.arff”,含600条实例。 具体操作如下。
(1)将xls格式文件转化为csv格式文件。打开bank-data.xls,另存为csv格式的文件,并命名为bank-data,接着将CSV文件,转换为ARFF格式文件bank-data. arff。
(2)删去属性“id”,保存为ARFF格式;用UltraEdit打开bank-data. arff
文件, 修改属性“children”为分类型. 把@attribute children numeric改为@attribute children {0,1,2,3},然后保存即可 2、用Weka打开bank-data.arff文件,进行相应设置后开始分析。
(1)用“Explorer”打开刚才得到的“bank-data.arff”,并切换到“Cluster”。点“Choose”按钮选择“SimpleKMeans”,这是WEKA中实现K均值的算法。点击旁边的文本框,修改“numClusters”为6,说明把这600条实例聚成6类,即K=6。下面的“seed”参数是要设置一个随机种子,依此产生一个随机数,用来得到K均值算法中第一次给出的K个簇中心的位置。设它的值为10
(2)选中“Cluster Mode”的“Use training set”,点击“Start”按钮,观察右边“Clusterer output”给出的聚类结果。也可以在左下角“Result list”中这次产生的结果上点右键,“View in separate window”在新窗口中浏览结果。 3、实验分析
(1)首先我们注意到结果中有这么一行:Within cluster sum of squared errors: 1604.7416693522332
这是评价聚类好坏的标准,数值越小说明同一簇实例之间的距离越小。也许你得到的数值会不一样;实际上如果把“seed”参数改一下,得到的这个数值就可能会不一样。我们应该多尝试几个seed,并采纳这个数值最小的那个结果。例如我们让“seed”取100,就得到 Within cluster sum of squared errors: 1555.6241507629218 , 这样就选择后面这个。当然再尝试几个seed,这个数值可能会更小。
(2)接下来“Cluster centroids:”之后列出了各个簇中心的位置。对于数值型的属性,簇中心就是它的均值(Mean);分类型的就是它的众数(Mode), 也就是说这个属性上取值为众数值的实例最多。对于数值型的属性,还给出了它在各个簇里的标准差(Std Devs)
(3)最后的“Clustered Instances”是各个簇中实例的数目及百分比。 (4)观察可视化的聚类结果,我们在左下方“Result list”列出的结果上右击,点“Visualize cluster assignments”。弹出的窗口给出了各实例的散点图。最上方的两个框是选择横坐标和纵坐标,它们分别代表实例的位置和年龄属性.第二行的“color”是散点图着色的依据,默认是根据不同的
相关推荐: