第一范文网 - 专业文章范例文档资料分享平台

数据仓库与数据挖掘实验指导书王浩畅资料

来源:用户分享 时间:2025/5/19 8:28:07 本文由loading 分享 下载这篇文档手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:xxxxxxx或QQ:xxxxxx 处理(尽可能给您提供完整文档),感谢您的支持与谅解。

图3-4

C.20棵树的情况

图3-5

【结果分析】 结果对照表: 分类器 Bagging J48 Random Forests(5) 误分率 运行时间(s)

3.33% 0.40 4.90% 0.13 2.55% 0.22 Random Forests(10) 1.57% 0.42 Random Forests(20) 1.57% 0.8 实验八 基于SimpleKMeans聚类分析的信息获取

一、实验名称:

基于SimpleKMeans聚类分析的信息获取 二、实验目的:

通过一个已有的训练数据集,观察训练集中的实例,进行聚类信息获取,更好地理解和掌握聚类分析算法基本原理,建立相应的预测模型,然后对新的未知实例进行预测,预测的准确程度来衡量所建立模型的好坏。 三、实验要求

1、熟悉Weka平台 2、掌握聚类分析算法

3、对数据进行预处理,利用Weka和不同参数设置进行聚类分析,对比结果,得出结论,对问题进行总结。 四、实验平台

新西兰怀卡托大学研制的Weka系统 五、实验数据

1、使用银行对资产进行评估的数据bank-data.arf,数据里有12个属性,分别是id,age,sex,region,income,married,children, car, save_act, current_act, mortgage,pep.共600个实例。

2、本测试集中将pep属性作为分类的目标类别,因此将其设为缺失值.缺失值用?表示。 六、实验方法和步骤

1、首先对于原始数据做预处理。把“bank-data.xls”格式数据转换为“bank-data.csv”,并删去属性“id”,保存为ARFF格式后,修改属性“children”为分类型。这样得到的数据文件为“bank-data.arff”,含600条实例。 具体操作如下。

(1)将xls格式文件转化为csv格式文件。打开bank-data.xls,另存为csv格式的文件,并命名为bank-data,接着将CSV文件,转换为ARFF格式文件bank-data. arff。

(2)删去属性“id”,保存为ARFF格式;用UltraEdit打开bank-data. arff

文件, 修改属性“children”为分类型. 把@attribute children numeric改为@attribute children {0,1,2,3},然后保存即可 2、用Weka打开bank-data.arff文件,进行相应设置后开始分析。

(1)用“Explorer”打开刚才得到的“bank-data.arff”,并切换到“Cluster”。点“Choose”按钮选择“SimpleKMeans”,这是WEKA中实现K均值的算法。点击旁边的文本框,修改“numClusters”为6,说明把这600条实例聚成6类,即K=6。下面的“seed”参数是要设置一个随机种子,依此产生一个随机数,用来得到K均值算法中第一次给出的K个簇中心的位置。设它的值为10

(2)选中“Cluster Mode”的“Use training set”,点击“Start”按钮,观察右边“Clusterer output”给出的聚类结果。也可以在左下角“Result list”中这次产生的结果上点右键,“View in separate window”在新窗口中浏览结果。 3、实验分析

(1)首先我们注意到结果中有这么一行:Within cluster sum of squared errors: 1604.7416693522332

这是评价聚类好坏的标准,数值越小说明同一簇实例之间的距离越小。也许你得到的数值会不一样;实际上如果把“seed”参数改一下,得到的这个数值就可能会不一样。我们应该多尝试几个seed,并采纳这个数值最小的那个结果。例如我们让“seed”取100,就得到 Within cluster sum of squared errors: 1555.6241507629218 , 这样就选择后面这个。当然再尝试几个seed,这个数值可能会更小。

(2)接下来“Cluster centroids:”之后列出了各个簇中心的位置。对于数值型的属性,簇中心就是它的均值(Mean);分类型的就是它的众数(Mode), 也就是说这个属性上取值为众数值的实例最多。对于数值型的属性,还给出了它在各个簇里的标准差(Std Devs)

(3)最后的“Clustered Instances”是各个簇中实例的数目及百分比。 (4)观察可视化的聚类结果,我们在左下方“Result list”列出的结果上右击,点“Visualize cluster assignments”。弹出的窗口给出了各实例的散点图。最上方的两个框是选择横坐标和纵坐标,它们分别代表实例的位置和年龄属性.第二行的“color”是散点图着色的依据,默认是根据不同的

数据仓库与数据挖掘实验指导书王浩畅资料.doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
本文链接:https://www.diyifanwen.net/c0iyze7w0o84x67j2pwjr92i2p9mf5d01dl9_7.html(转载请注明文章来源)
热门推荐
Copyright © 2012-2023 第一范文网 版权所有 免责声明 | 联系我们
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:xxxxxx 邮箱:xxxxxx@qq.com
渝ICP备2023013149号
Top