。
imN)=p(
w)P(w)=1-∑P∑P(
i
j
ij≠
j
2
)(12wj)(
其中P(是节点N处属于wwj)j类样本数占总样本数的比例。显然如果所有样本都属于一类,则不纯度为0,否则就是一个大于0的正值。
2.4 基于分类规则选取的C4.5决策树改进算法
本文提出的基于分类规则选取的C4.5决策树改进算法(imrovedC4.5decisiontreealorithmbasedonclassifica -pg,),在训练阶段以第一节提出分tionrulesselectionCRC4.5 类规则选取策略,在构建决策树选取最优特征上以第二节提出的划分相似度为基础建立C4.5决策树。具体算法流程如下:
()运用划分相似度对训练样本各特征进行排序,选1
择有最大划分相似度的特征作为根节点,以后节点以此类推;
()选定训练样本数目,并对对样本进行有放回的多2
次抽样,运用划分相似度训练分类规则,取多次抽样下分类规则中最优的特征值回溯作为最终分类规则;
)根据最优的分类规则建立最优的决策树,并对测(3
试集进行测试,最后输出分类模型。
3 实验及分析
3.1 实验平台和数据集介绍
图2 不同抽样次数下算法性能比较
经过实验,各数据集下训练集样本迭代次数见表2。C4.5算法和本文算法的模型建立时间和分类正确率对比如图3、图4所示。其中,C4.5采用多次次迭代交叉验证的方法。
本文采用Weka平台对改进的算法和C4.5算法进行对比测试。Weka是由新西兰大学Witten教授等人基于Java编程开发的开源工作平台,它集合了包括对数据进行分类、
搜索“diyifanwen.net”或“第一范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,第一范文网,提供最新经管营销基于分类规则的C4_5决策树改进算法_李孝伟(7)全文阅读和word下载服务。
相关推荐: