提示:务必写上学号和姓名
数据仓库与数据挖掘
I. 选择题,为每个问题选择最合适的答案(10×2%=20%)
1. 数据仓库上的业务处理称作__。
A. 联机事务处理 B. 联机分析处理 C. 联机输入处理 D. 联机查询处理
2. 在自然演化体系结构中,关于导致数据缺乏可信性的原因的说法哪个不正确?
A. 数据无时基
B. 抽取程序的算法有差异 C. 抽取的层次不同 D. 缺乏集成性
3. 下面哪项关于OLTP与OLAP访问特点的说法是不正确的。
A. OLTP和OLAP对于响应时间的要求都高 B. OLTP访问频率高,OLAP访问频率低
C. OLAP访问大量的历史,执行大量统计操作 D. OLTP数据处理具有并发性
4. 下面关于数据仓库中数据的说法错误的是?
A. 数据越详细,粒度越小,层次级别就越高。
B. 在估计直接存储设备数时,如数据超过1000万行必须强制采取双重粒度级。 C. 数据仓库大部分分析是针对被压缩的、存取效率高的轻度级数据进行的。
D. 数据分割便于数据的重构、重组和恢复,以提高创建索引和顺序扫描的效率。 5. 下面关于数据仓库的数据存储方式的说法哪个是不正确的?
E. 虚拟存储方式中,数据仓库的数据仍然在源数据中。
F. 星型模式下的维表规范化的,而雪花模式下的不需要规范化 G. 在查询效率方面,星型模式效率更高
H. 在事实星座模式中有多个事实表,且它们共享相同的维表 6. 下面关于星型模型的说法哪个是不正确的?
I. 有一个包含大量数据的事实表
J. 有一组小的附属表,称为维表,每维一个。 K. 事实表的每个字段都是事实度量字段
L. 事实中每条元组都含有指向各个维表的外键和一些相应的度量数据。 7. 下面关于数据仓库的数据追加的说法哪个是不正确的?
A. 时标法需要为记录数据增加一个时间标志。
B. 前后映像文件方法需要扫描整个数据库,占用较多资源,对性能有较大影响 C. DELTA不需要扫描整个数据库,效率较高,应用普遍 D. 日志文件法也不需要扫描整个数据库,是固有机制。
8. 假设收入属性的最小与最大分别是10000和90000,现在想把当前值30000映射到区间
[0,1],若采用最大-最小数据规范方法,计算结果是多少?
A. 0.25 B. 0.375 C. 0.125 D. 0.5
9. 下面关于维的概念哪个是不正确的?
A. 维是人们观察数据的特定角度。
B. 维的层次性是由观察数据细致程度不同造成的。 C. “某年某月某日”是时间维的层次。 D. “月、季、年”是时间维的层次。
10. 数据仓库开发应用周期可分为三个阶段,下列哪项不是其中某个阶段?
A. 规划分析阶段 B. 体系结构设计阶段 C. 设计实施阶段 D. 使用维护阶段
II. 简答题 (4×5%=20%) 1. 在现实世界的数据中,元组在某些属性上缺少值是常有的,描述处理该问题的方法?(至
少给出5种不同的方法)
2. 简述数据仓库的四个基本特征?
3. 简述轮转综合数据存储的过程?
4. 简述数据库数据与数据仓库数据的异同?
II. 设计题 (5×12%=60%)
1、 假定大学的数据仓库包含4个维{student学生、course课程、semester学期、instructor
教师},2个度量count和avg_grade。在最低的概念层(例如对于给定的学生、课程、学期和教师组合),度量avg_grade存放学生的实际成绩。在较高概念层,avg_grade存放给定组合的平均成绩。
a)为数据仓库画出雪花模式图8%
b)由基本立方体{学生、课程、学期、教师}开始,列出大学每个学生的“计算机导论”课程的平均成绩,应当使用哪些OLAP操作(如由学期上卷到年)?4%
2、 假定数据仓库包含4个维date时间, spectator观众, location地区和game节目,2个度量
count和charge。其中,charge是观众在给定的日期观看节目的付费。观众可以是学生、成年人或老人,每类观众有不同的收费标准。 a)画出该数据仓库的星形模式图8%
b)由基本立方体[date,spectator,location,game]开始,为列出2011年观众在GM-Place的总付费,应当执行哪些OLAP操作?4% 3、 假定下面的表从面向属性的归纳导出。
类 出生地 人数 程序员 江苏 180 其它 120
销售员 江苏 20 其它 80 a)将该表转换成显示相关t-权和d-权的交叉表6%
b)将类“程序员”转换成(双向的)量化描述规则。例如
?X,Programmer(X)?(birth_place(X)?\江苏\?...)[t:x%,d:y%]...?(...)([t:w%,d:z%]4、数据库有4个 事物。设min_sup=60%,min_conf=80% TID 日期 购买的物品 T100 99/10/15 {K,A,D,B} T200 99/10/15 {D,A,C,E,B} T300 99/10/19 {C,A,B,E} T400 99/10/22 {B,A,D} a)使用Apriori算法找出频繁项集6%
b)列出所有强关联规则(带支持度s和置信度c),它们与下面的元规则匹配,其中,X是代表顾客的变量,item是表示项的变量(例如,”A”,”B”等)6%
?x?transaction,buys(X,item1)?buys(X,item2)?buys(X,item3)[s,c]
5、 假设数据集D含有9个数据对象(用2维空间的点表示):
A1(3,2), A2(3,9), A3(8,6), B1(9,5), B2(2,4), B3(3,10), C1(2,6), C2(9,6), C3(2,2) 采用k-均值方法进行聚类,距离函数采用欧几里德距离,取k=3,假设初始的三个簇质心为A1,B1,和C1,求:
(1) 第一次循环结束时的三个簇的质心。4% (2) 最后求得的三个簇。4%
(3) 如果采用曼哈坦距离或q=3时的闵可夫斯基距离情况如何?4%
请于2011年12月31日之前,把试卷答案发至dolphin.xu@mail.njust.edu.cn
相关推荐: