第一范文网 - 专业文章范例文档资料分享平台

随机森林

来源:用户分享 时间:2020-06-08 本文由草莓红唇 分享 下载这篇文档 手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:xxxxxx或QQ:xxxxxx 处理(尽可能给您提供完整文档),感谢您的支持与谅解。

随机森林 维基百科,自由的百科全书 在机器学习中,随机森林是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。 而 \是他们的商标。 这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随机决策森林(random decision forests)而来的。这个方法则是结合 Breimans 的 \Bootstrap aggregating\想法和 Ho 的\以建造决策树的集合。 学习算法 根据下列算法而建造每棵树: 1. 用 N 来表示训练用例(样本)的个数,M表示特征数目。

2. 输入特征数目 m ,用于确定决策树上一个节点的决策结果;其中m应远小于M。

3. 从N个训练用例(样本)中以有放回抽样的方式,取样N次,形成一个

训练集(即bootstrap取样),并用未抽到的用例(样本)作预测,评估其误差。

4. 对于每一个节点,随机选择m个特征,决策树上每个节点的决定都是基于这些特征确定的。根据这 m 个特征,计算其最佳的分裂方式。

5. 每棵树都会完整成长而不会剪枝(Pruning)(这有可能在建完一棵正常树状分类器后会被采用)。

优点

随机森林的优点有:

? ? ? ? ? ? ? ?

对于很多种资料,它可以产生高准确度的分类器。 它可以处理大量的输入变量。

它可以在决定类别时,评估变量的重要性。

在建造森林时,它可以在内部对于一般化后的误差产生不偏差的估计。 它包含一个好方法可以估计遗失的资料,并且,如果有很大一部分的资料遗失,仍可以维持准确度。

它提供一个实验方法,可以去侦测 variable interactions 。 对于不平衡的分类资料集来说,它可以平衡误差。

它计算各例中的亲近度,对于数据挖掘、侦测偏离者(outlier)和将资料视觉化非常有用。

使用上述。它可被延伸应用在未标记的资料上,这类资料通常是使用非监督式聚类。也可侦测偏离者和观看资料。 ? 学习过程是很快速的。 ? 缺点

1. 随机森林已经被证明在某些噪音较大的分类或回归问题上会过拟

2. 对于有不同级别的属性的数据,级别划分较多的属性会对随机森林产生更大的影响,所以随机森林在这种数据上产出的属性权值是不可信的。

随机森林的副产品

除了能用于回归分类之外,它还可以提供一些其它很有价值的功能。R语言中的randomForest包中就包括了这些函数。

副产品之一,判断变量的重要程度。 由于决策树是根据不同变量来分割数据,所以一棵树中能进行正确划分的变量就是最重要的变量。随机森林可以根据置换划分变量对分类误差的影响,来判断哪些变量是比较重要的。这个功能非常实用,特别在处理变量极多的数据集,可以用它来作为变量选择的过滤器,然后再使用其它分类方法。randomForest包中的importance函数能返回各变量的重要程度,varImpplot函数可以用图形方式加以展现。partialPlot函数则能呈现变量的偏效应。rfcv函数用来得到最优的的变量数目。

副产品之二,度量样本间的相似程度。 决策树的理念是将数据归入不同的组中,那么同一组中的样本可以认为是比较相似的。根据这个思路可以建立起各样本间的相似矩阵。用1-相似矩阵则可以认为是一种“距离”,利用距离就可以进行异常值检验或聚类分析。outlier函数可以返回各样本的离群值,值越大表示越有可能是异常点。cluster包中的pam函数和kmeans函数相近,但它可以接受距离矩阵作为参数。

副产品之三,缺失数据的插补。 处理缺失数据有一种初级方法,即对数值变量,用中位数来代替,对于分类变量,用频数最高的类来代替缺失值。rfImpute函数首先使用初级方法来插补,然后计算近似矩阵,再用近似度为权重再次加权计算缺失值。然后再次计算近似矩阵,这样反复迭代。rfImpute函数能实现这一功能。

最后还值得提到的是处理不平衡数据,可以在主函数randomForest中加入classwt参数设置,将数据较多的类设置为较大的权数,这样可以在一定程度上修正数据不平衡的影响,使占少数类别的预测准确率提高。当然这样做的代价是总误差水平上升了。

搜索“diyifanwen.net”或“第一范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,第一范文网,提供最新IT计算机随机森林 全文阅读和word下载服务。

随机森林 .doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
本文链接:https://www.diyifanwen.net/wenku/1076928.html(转载请注明文章来源)
热门推荐
Copyright © 2018-2022 第一范文网 版权所有 免责声明 | 联系我们
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:xxxxxx 邮箱:xxxxxx@qq.com
渝ICP备2023013149号
Top