第一范文网 - 专业文章范例文档资料分享平台

基于分类规则的C4_5决策树改进算法_李孝伟

来源:用户分享 时间:2021-06-03 本文由挽风听你 分享 下载这篇文档 手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:xxxxxx或QQ:xxxxxx 处理(尽可能给您提供完整文档),感谢您的支持与谅解。

2013年12月第34卷 第12期

计算机工程与设计

COMPUTERENGINEERING ANDDESIGN  

Dec.2013

Vol.34 No.12

??????????????????????????????????????????????????

基于分类规则的C4.5决策树改进算法

李孝伟,陈福才,李邵梅

()国家数字交换系统工程技术研究中心,河南郑州450002

摘 要:为解决大样本数据条件下C4.5决策树算法需要训练集常驻内存、分类精度达不到需求以及如何选取最优分类规则等问题,提出了一种基于分类规则选取的C4.5决策树改进算法。通过数次有放回的随机抽取训练集形成多个分类规则,在多次分类规则内寻找特征的最优取值以建立最优分类规则,以划分相似度为标准进行C4.5决策树最优特征选取,在此基础上利用选定的最优分类规则和最优特征对C4.5决策树算法进行改进。实验结果表明,改进后的算法可有效解决C4.5决策树与初始训练集相关性较大的问题,对大样本数据集的分类识别在识别率上有显著提高,训练时间明显减少。关键词:C4.5决策树;分类规则;属性度量;划分相似度;特征选取

)1中图法分类号:TP391.4 文献标识号:A 文章编号:10007024(20132432105---

ImrovedC4.5decisiontreealorithmbasedonclassificationrules       pg

,,LIXiaoeiCHENFucaiLIShaoei -w - -m

(,)ChinaNationalDiitalSwitchinSstemEnineerinandTechnoloicalRandDCenterZhenzhou450002,China          ggygggg  :U,,Abstractndertheconditionoflaresamledatasetofmemorresidentclassificationaccuracneedtomeetthedemandand         -     gpyy,toselecttheotimalclassificationrulestheimrovedC4.5decisiontreealorithmbasedonclassificationrulesselectinishow               ppgg forward.Thealorithmformsaluralitofclassificationrulesthrouhseveraltimesbackintherandomtraininset.But               pgpyggy  ,,severalartitionclassificationrulestheotimalvalueisfoundinordertoestablishtheotimalclassificationrulesandusesimi                 -ppplaritasstandardtoselectC4.5decisiontreeotimalfeature.Basedontheuseofotimalclassificationrulesandselectedotimal                 yppp ,featureC4.5decisiontreealorithmisimroved.Theexerimentsshowthattheimrovedalorithmcaneffectivelsolvethe             gpppgy ,roblemthatC4.5decisiontreeislarecorrelatedwithinitialtraininsetclassificationrateoflaresamledatasetsissinifi                 -pgggpg cantlincreased.Thetrainintimeissinificantlreduced.   yggy   

:C;;;;artitionKewords4.5decisiontreeclassificationrulesattributemeasuressimilaritfeatureselection     pyy 

0 引 言

[1]

)决策树(是数据挖掘中一个关于分类和decisiontree 

它在以往决策树算法的基础上,增加了对特征为连续值的处理;利用信息增益率来选择特征解决了信息增益偏向于选择特征取值较多的缺点,同时也可以处理缺少特征值的训练样本;通过使用不同的剪枝技术以避免树的不平衡;以及K次迭代交叉验证来选取尽可能优的局部最优解。但是C4.5关于决策树的局部最优解问题、大数据处理的依赖主存问题和效率问题并没有过多的改进。

提高算法运算效率的一个有效途径就是利用尽可能少的训练样本,提取出尽可能优的分类规则。但是盲目的减少训练样本不可能提高运算效率。在不影响分类算法泛化性能的前提下减少训练样本,实现算法的存储需求和时间消耗的减少。为此,针对不同的分类器可以有不同的缩减

预测的快速、有效的算法。它首先选取最优特征作为根节点,然后根据不同特征判断从根节点向下的分支,在决策树的叶节点得到结论。传统的决策树算法大都要求训练集

2]

,这使得算法在可伸缩性、精度和效率方面受常驻内存[

到很大的制约。在面对数据量超过运行主存的情况时,构造决策树需要将数据在主存和缓存中导人或者导出,大大降低了运算效率。

[]

C4.5算法3是决策树中一个经典的算法。Quinlan针

对以往决策树算法的不足,在1993年提出了C4.5算法。

;修订日期:2收稿日期:201304220130625----

)基金项目:国家863高技术研究发展计划基金项目(2011AA010603、2011AA010605

,男,安徽阜阳人,硕士研究生,研究方向为通信与信息系统;陈福才(,男,江西高安人,硕士生导作者简介:李孝伟(19871974-)-),女,湖北钟祥人,博士,讲师,研究方向为通信与信息系统。师,研究方向为通信与信息系统;李邵梅(1982-):E-maillxwei_1987@126.com

搜索“diyifanwen.net”或“第一范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,第一范文网,提供最新经管营销基于分类规则的C4_5决策树改进算法_李孝伟全文阅读和word下载服务。

基于分类规则的C4_5决策树改进算法_李孝伟.doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
本文链接:https://www.diyifanwen.net/wenku/1210186.html(转载请注明文章来源)
热门推荐
Copyright © 2018-2022 第一范文网 版权所有 免责声明 | 联系我们
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:xxxxxx 邮箱:xxxxxx@qq.com
渝ICP备2023013149号
Top