实验七 基于集成学习的信息获取
一、实验名称:
基于集成学习的信息获取 二、实验目的:
熟悉Random Forest算法原理、框架及应用。通过weka工具包的仿真并与bagging方法和决策树J48的结果进行比较,分析Random Forest的性能。 三、实验要求
1、熟悉Weka平台
2、掌握Random Forest算法算法
3、对数据进行预处理,利用Weka和不同参数设置进行集成学习,对比结果,得出结论,对问题进行总结。 四、实验平台
新西兰怀卡托大学研制的Weka系统 五、实验数据
工具包自带的segment-challenge.arff数据集(1500条数据,20个特征变量,7分类问题) 六、实验方法和步骤
Random Forest( RF) 是利用bootsrap重抽样方法从原始样本中抽取多个样本,对每个bootsrap样本进行决策树建模, 然后组合多棵决策树的预测, 通过投票得出最终预测结果。RF通过构造不同的训练集增加分类模型间的差异, 从而提高组合分类模型的外推预测能力。
1、用weka工具进行分析,选择工具包自带的segment-challenge.arff数据集(1500条数据,20个特征变量,7分类问题)。
2、进行Random Forest实验
3、通过与bagging方法和决策树J48进行比较分析。在仿真过程中选择数据集中的66%作为训练集,即其中的510个数据作为测试集。
七、通过实验,要求同学在聚类分析信息获取实验中解决以下问题,并递交完整的实验报告
1.基于segment-challenge.arff数据集,比较Random Forests算法、Bagging模型和决策树J48模型的分类性能。
2.当Random Forests树的数量由5增加到10时,继续增加到20棵树时,比较误差率及运行时间,并对实验结果进行说明 结果参考
(1)bagging分类的结果
图3-1
(2)决策树J48的分类结果
图3-2
(3)Random Forests的分类结果 A.5棵树的情况
图3-3
B.10棵树的情况
相关推荐: