数据挖掘 期末试题(2014学年)
一、(20分)假定用于分析的数据包含属性age。数据元组的age值(以递增序)是:
5, 15, 25, 35, 45, 55, 60。
(a) 该数据的均值是______, 中位数是_____(4分) (b) 数据的中列数是______(2分)
(c) 第一个四分位数(Q1)是_____和第三个四分位数(Q3)是_____(4分) (d) 给出数据的五数概括:______________________(4分)
(e) 使用min-max规范化将age值35变换到[0.1,1.0]区间的值是:_____(2分) (f) 使用z-score规范化变换age值35的值是______(2分) (g) 使用小数定标规范化变换age值35的值是______(2分) 二、(20分)下面的相依表汇总了超级市场的事务数据,其中hot dogs表示包含热狗的事务,
~hot dogs 表示不包含热狗的事务,hamburgers表示包含汉堡包的事务,~hamburgers表示不包含汉堡包的事务。
(a) 假定挖掘出了关联规则 “hot dogs=>humburgers”。给定最小支持度阈值60%,
最小置信度阈值50%,该关联规则是强规则吗?(10分)
(b) 根据给定的数据,买hot dogs独立于买humburgers?如果不是,二者之间存在
何种关联关系?(10分)
表 1 超级市场的事务数据相依表
三、(20分)假定BigUniverstiy的数据仓库包含如下4个维:student, course,semester和instructor;和2个度量:count和avg_grade。在最低的概念层(例如,对于给定的学生、课程、学期和教师的组合),度量avg_grade存放学生的实际课程成绩。在较高的概念层,avg_grade存放给定组合的平均成绩。
(a) 列出三种流行的数据仓库建模模式。(6分)
(b) 由基本方体[student, course, semester, instructor]开始,为列出BigUniverstiy每个学生
的IS课程的平均成绩,应当执行哪些OLAP操作?(10分) (c) 如果每维在上述基本方体恰有q个不同值,则该数据立方体BigUniverstiy的单元的
最小个数是多少?(4分)
四、(20分)数据库有5个事务(如表 2)。设min_sup = 60% ,min_conf = 80%。 表 2
TID T100 T200 T300 T400 T500
购买的商品 { K, M, C , O, E, Y } { K, O, E } { M, K, N, Y, U } { O, Y, E, K, D, Y } { E, C, O, Y }
(a) 使用FP增长算法找出所有频繁项集。(14分)
(b) 列举所有与下面的元规则匹配的强关联规则(给出支持度s 和置信度 c),其中,X是
代表顾客的变量,itemi 是表示项的变量(如“A”,“B”等):(6分) ?x?transanc,tbiuoy(sX,ite1m)?buy(sX,item(sX,item2)?buy3)[s,c]
五、(20分)表3给出了一个类标记的元组的训练集D,随机地从AllElectronics顾客数据库中选取。
(a) 利用决策树算法画出决策树,预测元组X = (age = youth, income = high, student = yes,
credit_rating = excellent)的类标号?(10分) (b) 利用朴素贝叶斯分类算法,预测元组X = (age = senior, income = medium, student = no,
credit_rating = fair)的类标号?(10分)
相关推荐: