第一范文网 - 专业文章范例文档资料分享平台

数据仓库与挖掘复习资料

来源:用户分享 时间:2025/8/15 22:54:01 本文由loading 分享 下载这篇文档手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:xxxxxxx或QQ:xxxxxx 处理(尽可能给您提供完整文档),感谢您的支持与谅解。

答:L={(I2:4),(I3:3),(I6:3),(I5:2),(I7:2)}

交易号 100 200 300 400 项 I2,I3,I5,I7 I2,I6,I7 I2,I3,I6,I5 I2,I3,I6 图见P97 十九、如表1 所示数据,所示是交易数据库,最小支持数为2(也就是),试利用Apriori 算法挖掘频繁模式,并写出挖掘的步骤、过程及得出的频繁项集。 答:第四次作业

二十、表 2 是打高尔夫天气形势的训练集。请使用ID3 算法构建决策树。 答:第五次作业

二十一、如下表所示,使用ID3 算法,请决定决策树的根节点使用哪个属性? 答:参考P114 基本一致

二十二、说明分类的基本过程。P108

答:获取数据、预处理、分类器设计、分类决策

二十三、分类的评价准则包括内几个方面,如何计算?

答:精确度、查全率和查准率、F-measure、几何均值(公式见P110) 二十四、利用决策树进行分类有哪些优点?

答:(1)速度快:计算量相对较小,且容易转化成分类规则。只要沿着树根向下一直走到叶,沿途的分裂条件就能够唯一确定一条分类的谓词。 (2) 准确性高:挖掘出的分类规则准确性高,便于理解,决策树可以清晰的显示哪些字段比较重要。

二十五、说明使用决策树进行分类的基本步骤。 答:P113 小框框里 二十六、聚类和分类有何区别?

答:分类是事先定义好类别 ,类别数不变 .分类器需要由人工标注的分类训练语料训练得到,属于有指导学习范畴.聚类则没有事先预定的类别,类别数不确定. 聚类不需要人工标注和预先训练分类器,类别在聚类过程中自动生成 .分类适合

类别或分类体系已经确定的场合,比如按照国图分类法分类图书;聚类则适合不存在分类体系、类别数不确定的场合,一般作为某些应用的前端,比如多文档文摘、搜索引擎结果后聚类(元搜索)等.

二十七、常用的聚类算法有哪些(至少写出4 种)?

基于划分的聚类算法,基于层次的聚类算法,基于密度的聚类算法,基于网格的聚类算法,基于模型的聚类算法 等。 二十八、常用的相似度(距离)计算公式有哪几个?

二十九、说明K-means 聚类的基本思想。

答:P137 第一段倒数第四行开始

三十、为了研究5 省1991 年城镇居民生活消费情况的分布规律,根据调查资料做类型分类,用最短距离做类间分类。数据如下:

补充思考和练习题

1、数据仓库是面向主题的、集成的、相对稳定的、反应历史变化的数据集合,用于支持经营管理中决策制定过程。

2、元数据描述了数据仓库的数据和环境,遍及数据仓库的所有方面,是整个数据仓库的核心。

3、数据立方体是在所有可能组合的维上进行分组聚集运算的总和。 4、数据质量是数据仓库的成败关键。

5、数据仓库的物理模型设计是对逻辑模型设计的数据模型确定物理存储结构和存取方法。

6、预测是利用历史数据找出变化规律,建立模型,并用此模型来预测未来数据的种类、特征等。

7、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。 8、数据仓库的概念模型通常采用信息包图法来进行设计。 9、分类器设计阶段包含划分数据集、分类器构造、分类器测试。

10、雪花模型是对星型模式维表的进一步层次化和规范化来消除冗余的数据。 11、数据处理通常分成两大类:联机事务处理和联机分析处理(英文缩写)。 12、数据抽取的两个常见类型是静态抽取和增量抽取。 13、维度表一般由主键、分类层次和描述属性组成。

14、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。

15、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储、数据管理和数据表现等到。 16、数据集市

数据集市是指具有特定应用的数据仓库主针对某个具有应用战略意义的应用或者具体部门级的应用,支持用户利用已有的数据获得重要竞争优势或者找到进入市场的具体解决方案。 17、切片

选定多维数组的一个二维子集的操作叫作切片。 18、数据仓库有哪些特点?

从数据仓库的定义可以看出数据仓库具有如下特点: (1) 数据仓库是面向主题的 主题是数据归类的标准,每一个主题基本对应一个宏观的分析领域。(2) 数据仓库是集成的 数据进入数据仓库之前,必须经过加工与集成。对不同的数据来源进行统一数据结构和编码。(3) 数据仓库是稳定的 数据仓库中包括了大量的历史数据。数据经集成进入数据仓库后是极少或根本不更新的。 (4) 数据仓库是随时间变化的 数据仓库内的数据时限在5~10 年,故数据的键码包含时间项,标明数据的历史时期, 这适合决策分析时进行时间趋势分析。 (5) 数据仓库中的数据量很大 通常的数据仓库的数据量为10GB 级,相当于

搜索更多关于: 数据仓库与挖掘复习资料 的文档
数据仓库与挖掘复习资料.doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
本文链接:https://www.diyifanwen.net/c953cs5tuku38gut0yjrk_2.html(转载请注明文章来源)
热门推荐
Copyright © 2012-2023 第一范文网 版权所有 免责声明 | 联系我们
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:xxxxxx 邮箱:xxxxxx@qq.com
渝ICP备2023013149号
Top