数据仓库与数据挖掘实验指导书王浩畅资料

来源：用户分享时间：2025/10/26 2:13:24 本文由

loading 分享下载这篇文档手机版

说明：文章内容仅供预览，部分内容可能不全，需要完整文档或者需要复制内容，请下载word后使用。下载word有问题请添加微信号:xxxxxxx或QQ：xxxxxx 处理（尽可能给您提供完整文档），感谢您的支持与谅解。

图3-4

C.20棵树的情况

图3-5

【结果分析】结果对照表：分类器 Bagging J48 Random Forests(5) 误分率运行时间（s）

3.33% 0.40 4.90% 0.13 2.55% 0.22 Random Forests(10) 1.57% 0.42 Random Forests(20) 1.57% 0.8 实验八基于SimpleKMeans聚类分析的信息获取

一、实验名称：

基于SimpleKMeans聚类分析的信息获取二、实验目的：

通过一个已有的训练数据集，观察训练集中的实例，进行聚类信息获取，更好地理解和掌握聚类分析算法基本原理，建立相应的预测模型，然后对新的未知实例进行预测，预测的准确程度来衡量所建立模型的好坏。三、实验要求

1、熟悉Weka平台 2、掌握聚类分析算法

3、对数据进行预处理，利用Weka和不同参数设置进行聚类分析，对比结果，得出结论，对问题进行总结。四、实验平台

新西兰怀卡托大学研制的Weka系统五、实验数据

1、使用银行对资产进行评估的数据bank-data.arf，数据里有12个属性，分别是id,age,sex,region,income,married,children, car, save_act, current_act, mortgage,pep.共600个实例。

2、本测试集中将pep属性作为分类的目标类别，因此将其设为缺失值．缺失值用？表示。六、实验方法和步骤

1、首先对于原始数据做预处理。把“bank-data.xls”格式数据转换为“bank-data.csv”，并删去属性“id”，保存为ARFF格式后，修改属性“children”为分类型。这样得到的数据文件为“bank-data.arff”，含600条实例。具体操作如下。

（1）将xls格式文件转化为csv格式文件。打开bank-data.xls，另存为csv格式的文件，并命名为bank-data，接着将CSV文件，转换为ARFF格式文件bank-data. arff。

（2）删去属性“id”，保存为ARFF格式；用UltraEdit打开bank-data. arff

文件, 修改属性“children”为分类型. 把@attribute children numeric改为@attribute children {0,1,2,3},然后保存即可 2、用Weka打开bank-data.arff文件，进行相应设置后开始分析。

（1）用“Explorer”打开刚才得到的“bank-data.arff”，并切换到“Cluster”。点“Choose”按钮选择“SimpleKMeans”，这是WEKA中实现K均值的算法。点击旁边的文本框，修改“numClusters”为6，说明把这600条实例聚成6类，即K=6。下面的“seed”参数是要设置一个随机种子，依此产生一个随机数，用来得到K均值算法中第一次给出的K个簇中心的位置。设它的值为10

（2）选中“Cluster Mode”的“Use training set”，点击“Start”按钮，观察右边“Clusterer output”给出的聚类结果。也可以在左下角“Result list”中这次产生的结果上点右键，“View in separate window”在新窗口中浏览结果。 3、实验分析

（1）首先我们注意到结果中有这么一行：Within cluster sum of squared errors: 1604.7416693522332

这是评价聚类好坏的标准，数值越小说明同一簇实例之间的距离越小。也许你得到的数值会不一样；实际上如果把“seed”参数改一下，得到的这个数值就可能会不一样。我们应该多尝试几个seed，并采纳这个数值最小的那个结果。例如我们让“seed”取100，就得到 Within cluster sum of squared errors: 1555.6241507629218 , 这样就选择后面这个。当然再尝试几个seed，这个数值可能会更小。

（2）接下来“Cluster centroids:”之后列出了各个簇中心的位置。对于数值型的属性，簇中心就是它的均值（Mean）；分类型的就是它的众数（Mode），也就是说这个属性上取值为众数值的实例最多。对于数值型的属性，还给出了它在各个簇里的标准差（Std Devs）

（3）最后的“Clustered Instances”是各个簇中实例的数目及百分比。（4）观察可视化的聚类结果，我们在左下方“Result list”列出的结果上右击，点“Visualize cluster assignments”。弹出的窗口给出了各实例的散点图。最上方的两个框是选择横坐标和纵坐标，它们分别代表实例的位置和年龄属性.第二行的“color”是散点图着色的依据，默认是根据不同的

搜索更多关于：数据仓库与数据挖掘实验指导书王浩畅资料的文档

数据仓库与数据挖掘实验指导书王浩畅资料.doc 将本文的Word文档下载到电脑，方便复制、编辑、收藏和打印

下载这篇word文档

本文链接：https://www.diyifanwen.net/c0iyze7w0o84x67j2pwjr92i2p9mf5d01dl9_7.html（转载请注明文章来源）