《数据挖掘技术与应用》实验指导书
在每条数据流末端增加analysis,并指向它们。 (7)不同决策树设置下的数据及分析。
7
《数据挖掘技术与应用》实验指导书
1)决策树设置:1误判为0代价为10,0误判为1代价为1。非专家模型。该代价矩阵设置应该根据具体业务进行设置,其意指:误将ST公司当成正常公司投资将会造成10单位的损失,而误将正常公司判断成为ST公司的非投资行为将造成1单位的经济损失。这样设置的目的是让决策树模型尽可能的找出ST公司,其会导致模型的整体精确度下降,但在有预算的投资资金的情况下,投资者总能选择出最佳的正常公司进行投资,现实意义显著。这个设置也是决策树与其它模型有所区别的地方。
8
《数据挖掘技术与应用》实验指导书
2)决策树设置:1误判为0代价为100,0误判为1代价为1。非专家模型。
9
《数据挖掘技术与应用》实验指导书
3)决策树设置:1误判为0代价为10,0误判为1代价为1。专家模型。
实验2:连续型变量与离散型变量的模型建立 1. 打开320.xls,另存为320.csv
2.运用R软件编程,对数据进行离散化处理,删除无效属性(属性为单一值),并保存。由于离散数据占用计算机空间小,运算速度快,因此在数据挖掘过程中把连续性的数据分区离散化可以使得在不损失有用信息的情况下提升模型的计算速度,简化计算,并使得模型数据匹配各种模型(如:贝叶斯模型,对离散化的数据处理更为精确)。在本例中,除目标变量,其余财务指标均为连续性变量,我们将用成熟的离散化算法将其转化为离散化数据,并重复上述的各模型,并把结果进行对比。
10
相关推荐: