第一范文网 - 专业文章范例文档资料分享平台

数据仓库与数据挖掘考试试题 

来源:用户分享 时间:2025/5/17 4:49:17 本文由loading 分享 下载这篇文档手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:xxxxxxx或QQ:xxxxxx 处理(尽可能给您提供完整文档),感谢您的支持与谅解。

一、 填空题(15分)

1.数据仓库的特点分别是 面向主题 、 集成 、 相对稳定 、反映历史变化。 2.元数据是描述数据仓库内数据的结构和建立方法的数据。根据元数据用途的不同可将元数据分为 技术 元数据和 业务 元数据两类。

3.OLAP技术多维分析过程中,多维分析操作包括 切片 、 切块 、 钻取 、 旋转 等。

4.基于依赖型数据集市和操作型数据存储的数据仓库体系结构常常被称为“ 中心和辐射 ”架构,其中 企业级数据仓库 是中心,源数据系统和数据集市在输入和输出范围的两端。

5.ODS实际上是一个集成的、 面向主题的 、 可更新的 、 当前值的 、 企业级的 、详细的数据库,也叫运营数据存储。 二、

多项选择题(10分)

6.在数据挖掘的分析方法中,直接数据挖掘包括( ACD ) A 分类 B 关联 C 估值 D 预言 7.数据仓库的数据ETL过程中,ETL软件的主要功能包括(ABC) A 数据抽取 B 数据转换 C 数据加载 D 数据稽核 8.数据分类的评价准则包括( ABCD )

A 精确度 B 查全率和查准率 C F-Measure D 几何均值

9.层次聚类方法包括( BC )

A 划分聚类方法 B 凝聚型层次聚类方法 C 分解型层次聚类方法 D 基于密度聚类方法

10.贝叶斯网络由两部分组成,分别是( A D )

A 网络结构 B 先验概率 C 后验概率 D 条件概率表 三、

计算题(30分)

11.一个食品连锁店每周的事务记录如下表所示,其中每一条事务表示在一项收款机业务中卖出的项目,假定supmin=40%,confmin=40%,使用Apriori算法计算生成的关联规则,标明每趟数据库扫描时的候选集和大项目集。(15分)

事务 项目 事务 T4 T5 项目 啤酒、面包 啤酒、牛奶 T1 面包、果冻、花生酱 T2 面包、花生酱 T3 面包、牛奶、花生酱 解:(1)由I={面包、果冻、花生酱、牛奶、啤酒}的所有项目直接产生1-候选C1,计算其支持度,取出支持度小于supmin的项集,形成1-频繁集L1,如下表所示:

项集C1 {面包} {花生酱} {牛奶} {啤酒} 支持度 4/5 3/5 2/5 2/5 项集L1 支持度 {面包} 4/5 {花生酱} 3/5 {牛奶} 2/5 {啤酒} 2/5

(2)组合连接L1中的各项目,产生2-候选集C2,计算其支持度,取出支持度小于supmin的项集,形成2-频繁集L2,如下表所示:

项集C2 支持度 项集L2 支持度 {面包、花生酱} 3/5 {面包、花生酱} 3/5 至此,所有频繁集都被找到,算法结束,

所以,confidence({面包}→{花生酱})=(4/5)/(3/5)=4/3> confmin confidence({ 花生酱}→{面包})=(3/5)/(4/5)=3/4> confmin 所以,关联规则{面包}→{花生酱}、{ 花生酱}→{面包}均是强关联规则。 12.给定以下数据集(2 ,4,10,12,15,3,21),进行K-Means聚类,设定聚类数为2个,相似度按照欧式距离计算。(15分)

解:(1)从数据集X中随机地选择k个数据样本作为聚类的出示代表点,每一个代表点表示一个类别,由题可知k=2,则可设m1=2,m2=4:

(2)对于X中的任意数据样本xm(1

当m2=4时,样本(2 ,4,10,12,15,3,21)距离该代表点的距离分别为-2,6,8,11,-1,17。

最小距离是1或者-1将该元素放入m1=2的聚类中,则该聚类为(2,3),另一个

聚类m2=4为(4,10,12,15,21)。

(3)完成数据样本的划分之后,对于每一个聚类,计算其中所有数据样本的均值,并且将其作为该聚类的新的代表点,由此得到k个均值代表点:m1=2.5,m2=12: (4)对于X中的任意数据样本xm(1

当m2=12时,样本(2 ,4,10,12,15,3,21)距离该代表点的距离分别为-10,-9,-8,2,3,9。

最小距离是1.5将该元素放入m1=2.5的聚类中,则该聚类为(2,3,4),另一个聚类m2=12为(10,12,15,21)。

(5)完成数据样本的划分之后,对于每一个聚类,计算其中所有数据样本的均值,并且将其作为该聚类的新的代表点,由此得到k个均值代表点:m1=3, m2=14.5:

(6)对于X中的任意数据样本xm(1

当m2=14.5时,样本(2 ,4,10,12,15,3,21)距离该代表点的距离分别为-12.58,-11.5,-10.5,-4.5,-2.5,0.5,6.5。

最小距离是0.5将该元素放入m1=3的聚类中,则该聚类为(2,3,4),另一个聚类m2=14.5为(10,12,15,21)。

至此,各个聚类不再发生变化为止,即误差平方和准则函数的值达到最优。

四.设计题(45分)

13.按照题目给定的3个数据文件,任选一个建立数据流图,要求至少包括记录选项、字段选项、图形结点各一个。任选关联规则Apriori算法、贝叶斯网络、K-Means聚类、决策树C5.0(C4.5)算法、神经网络中的一个进行挖掘,并给出数据流图。(10分)

14.对以上数据流图中使用的每个结点做一简短说明。(10分) 选择:age>25.

搜索更多关于: 数据仓库与数据挖掘考试试题  的文档
数据仓库与数据挖掘考试试题 .doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
本文链接:https://www.diyifanwen.net/c9p1r52avwi0a6ri16zrm_1.html(转载请注明文章来源)
热门推荐
Copyright © 2012-2023 第一范文网 版权所有 免责声明 | 联系我们
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:xxxxxx 邮箱:xxxxxx@qq.com
渝ICP备2023013149号
Top