第一范文网 - 专业文章范例文档资料分享平台

数据仓库与数据挖掘实验指导书王浩畅资料

来源:用户分享 时间:2025/5/19 5:20:46 本文由loading 分享 下载这篇文档手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:xxxxxxx或QQ:xxxxxx 处理(尽可能给您提供完整文档),感谢您的支持与谅解。

实验七 基于集成学习的信息获取

一、实验名称:

基于集成学习的信息获取 二、实验目的:

熟悉Random Forest算法原理、框架及应用。通过weka工具包的仿真并与bagging方法和决策树J48的结果进行比较,分析Random Forest的性能。 三、实验要求

1、熟悉Weka平台

2、掌握Random Forest算法算法

3、对数据进行预处理,利用Weka和不同参数设置进行集成学习,对比结果,得出结论,对问题进行总结。 四、实验平台

新西兰怀卡托大学研制的Weka系统 五、实验数据

工具包自带的segment-challenge.arff数据集(1500条数据,20个特征变量,7分类问题) 六、实验方法和步骤

Random Forest( RF) 是利用bootsrap重抽样方法从原始样本中抽取多个样本,对每个bootsrap样本进行决策树建模, 然后组合多棵决策树的预测, 通过投票得出最终预测结果。RF通过构造不同的训练集增加分类模型间的差异, 从而提高组合分类模型的外推预测能力。

1、用weka工具进行分析,选择工具包自带的segment-challenge.arff数据集(1500条数据,20个特征变量,7分类问题)。

2、进行Random Forest实验

3、通过与bagging方法和决策树J48进行比较分析。在仿真过程中选择数据集中的66%作为训练集,即其中的510个数据作为测试集。

七、通过实验,要求同学在聚类分析信息获取实验中解决以下问题,并递交完整的实验报告

1.基于segment-challenge.arff数据集,比较Random Forests算法、Bagging模型和决策树J48模型的分类性能。

2.当Random Forests树的数量由5增加到10时,继续增加到20棵树时,比较误差率及运行时间,并对实验结果进行说明 结果参考

(1)bagging分类的结果

图3-1

(2)决策树J48的分类结果

图3-2

(3)Random Forests的分类结果 A.5棵树的情况

图3-3

B.10棵树的情况

数据仓库与数据挖掘实验指导书王浩畅资料.doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
本文链接:https://www.diyifanwen.net/c0iyze7w0o84x67j2pwjr92i2p9mf5d01dl9_6.html(转载请注明文章来源)
热门推荐
Copyright © 2012-2023 第一范文网 版权所有 免责声明 | 联系我们
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:xxxxxx 邮箱:xxxxxx@qq.com
渝ICP备2023013149号
Top