4 数据库的设计与数据的来源
本实验的数据均存储于数据库中。数据库yuzm中共产生6张表。表test为测试用表,用于程序的正确性验证。还有5张表存储随机产生的实验数据。其中数据库的结构如下图所示。
图4.1 数据库结构
4.1正确性验证数据
表test为PPT上的实例,用于正确性验证。数据的item个数为5,其中的九行数据均由SQL语句产生,表的每一行都是一个“0”“1”的字符串,字符串长度等于商品种类,其中“0”表示该商品不存在,“1”表示该商品存在。表的全部数据如图4.2。
图4.2 表test
4.2 实验数据
5张表是通过算法随机产生的具有不同数据量的数据集,假设商品种类为10种,表的每一行都是一个“0”“1”的字符串,字符串长度等于商品种类,其中“0”表示该商品不存在,“1”表示该商品存在。其中表data1共随机产生1万行数据,表data2产生
7
5万行数据,表data3产生25万行数据,表data4产生50万行数据,表data5产生75万行数据。部分数据如图4.3。
图4.3 实验用表(部分)
4.3 本章小结
本章主要对数据库的设计与数据来源做出了说明。
8
5 实验结果与性能分析
5.1 Apriori实验界面
其中可信度可自由设置,默认为0.7。而支持度记为最小支持度与数据量的比例。实验数据可以下拉选择6张表中的任意一张。如下图所示:
图5.1 实验界面
5.2 实验的正确性验证
运行程序,我们选择表test,即可进行正确性验证,实验结果如下图:
9
图5.2 正确性验证
最终实验结果与ppt的结果相吻合,表明程序编写正确。
5.3 实验性能分析
为了对本程序的实验进行性能分析,我们分别采用固定数据量改变最小支持数以及固定最小支持数改变数据量两种情况进行时间分析,其中最小置信度设为0.7不变。 5.3.1固定最小支持度改变数据量
设支持度为0.2,最小可信度为0.7。具体实验数据量与执行时间如下:
表5.1 数据量对性能的影响 数据量(万行) 时间(秒) 1 48.2 5 128.2 25 366.9 50 623.4 75 1032.3 10
相关推荐: