《数据挖掘技术与应用》实验指导书
1.按顺序拖动并设置以下节点。
(1)设置数据来源(source中的excel来源)。
(2)将320.xls指向table,运行table。结果如下。
点击此处选择数据源。 3
《数据挖掘技术与应用》实验指导书
Table节点运行后,我们可以看到数据源的具体内容,其包含320个上市公司的财务指标以及在该财务指标下第二年是否被ST的数据,ST=1表示次年被ST,ST=0则表示未被ST,其中X1至X18表示净利润率、资产收益率等18边续性的财务变量,最后一个变量为Flag类型ST变量。
(3)将320.xls指向type节点,编辑type,只有最后一项为输出且类型为flag,其他项为输入,类型为连续型变量(range)。
4
《数据挖掘技术与应用》实验指导书
(4)将type指向partiton,设置训练集与测试集比例,对话框上部的generate处可分出训练集与测试集,下部的generate实现随机抽样分区,在大样本的情况下,这将使得每位同学的实验得到的结果会有所不同。然后将partition指向testing和training。
(5)选择逻辑模型和决策树模型,并将partition分别指向这两个模型。 1)编辑决策树模型的model,可选择专家模型与普通模型。
5
《数据挖掘技术与应用》实验指导书
2)编辑决策树模型的costs,可确定误判的代价。
(6)运行逻辑模型,将新生成的数据拖到training与testing后并由它们指向数据。 设置不同的决策树模型,生成不同的数据,由逻辑模型数据指向不同的决策树模型数据。
6
相关推荐: