一、第一章
1、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据元数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。
2、数据处理通常分成两大类:联机事务处理和联机分析处理。
3、多维分析是指对以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使用户能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。
5.ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。
12、简述数据仓库4种体系结构的异同点及其适用性。 (1)两层架构。
(2)独立型的数据集市。采用这种体系结构的优点是其方便性,可快速启动,这个数据仓库架构可通过一系列的小项目来实现。
(3)依赖型数据集市和操作型数据存储。优势是它们可以处理各个用户群的需求,甚至是探索性数据仓库的需求。
(4)逻辑型数据集市和实时数据仓库。是建立数据仓库的一种较佳方法,特别是在硬件性能不断提高,成本不断下降的条件下。 14、请列出3种数据仓库产品,并说明其优缺点。
答:1、IBM公司提供了一套基于可视化数据仓库的商业智能BI解决方案。
2、Oracle数据仓库解决方案主要包括Oracle Express和Oracle Discover两个部分。
3、Microsoft 将OLAP功能集成到SQL Server数据库中,其解决方案包括BI平台、BI终端工具、BI门户和BI应用四个部分。
二、什么是数据挖掘?(p4)
数据挖掘就是从从大量数据数据中提取或“挖掘”知识,又被称为数据库中的知识发现。
三、数据仓库与传统的数据库有何区别?
(1)数据库是面向事务的设计,数据仓库是面向主题设计的。 (2)数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。 (3)数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计时有意引入冗余,采用反范式的方式来设计。
(4)数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的。
(5)数据库是一种逻辑概念,用来存放数据的仓库。数据仓库是数据库概念的升级。数据仓库要比数据库更庞大得多。数据仓库主要用于数据挖掘和数据分析。
四、举例说明数据挖掘的应用。
1、分类问题:商业案例中,给你一个客户的相关信息,预测一下他未来是否会成为你的高/中/低价值的客户?
2、聚类问题:在商业案例中,例如需要选择若干指标(如价值、成本、使用的产品等)对已有的用户群进行划分:特征相似的用户聚为一类,特征不同的用户分属于不同的类。
3、关联问题:一群用户购买了很多产品之后,哪些产品同时购买的几率比较高?买
了A产品的同时买哪个产品的几率比较高?可能是由于最初关联分析主要是在超市应用比较广泛,所以又叫“购物篮分析”,
4、预测问题:例如天气预报预测明天的气温、国家预测一年度的GDP增长率、
电信运营商预测下一年的收入、用户数等。 五、构建数据仓库的目的和意义何在?
答:目的:为了方便数据的存储与检索,从大量的数据中找出对现实有指导意义的规律,处理并分析大量数据。
意义:(1)使企业高层领导能够从全局角度出发,推动企业数据的统一规划,便于业务人员对企业数据的分析与理解。(2)可以形成企业的概念模型,帮助企业人员更好地理解业务的核心概念和业务之间的关系。(3)帮助设计人员制定出更加合理的数据架构和统一的数据分布图。(4)可以明确各个业务部门之间的关系和在分析应用工作中的主要职责,有利于实现统一的报表体系规范,便于实现企业的运营指标分析和统一的口径。(5)形成有效的数据管理体系,保证企业在业务部门众多,内部数据和外部数据复杂的情况下,数据只有唯一事实的特点。(6)为业务人员提供各种报表查询功能,为应用系统提供强大的数据分析功能。
六、数据挖掘的基本过程包括哪几个步骤?
1、定义问题 2、准备数据 3、浏览数据 4、生成模型
5、浏览和验证模型 6、部署和更新模型
七、说明数据挖掘与数据仓库的关系。
数据仓库把所有数据都集中到了一起, 数据挖掘是在数据仓库当中找到有用的信息。
八、数据库中的历史数据通常有哪几种处理方式?
十、数据仓库通常包括哪些部分组成?(p2)
1、数据仓库数据库 2、数据抽取工具 3、元数据 4、访问工具 5、数据集市 6、数据仓库管理 7、信息发布系统
十一、什么是OLTP?什么是OLAP?说明两者的区别。
OLTP(联机事务处理):是传统的操作型数据库系统的主要应用,主要是一些基本的日常事务处理。
OLAP(联机分析处理):是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。 OLTP OLAP 用户 操作人员、低层管理人决策人员、高级管理人员 员 功能 日常操作型事务处理 分析决策 数据库设计目标 面向应用 面向主题 数据特点 当前的、最新的、细节的、历史的、聚集的、多维的、二维的与分立的 集成的、统一的 存取规模 通常一次读或写数十条可能读取百万条以上记记录 录 工作单元 一个事务 一个复杂查询 用户数 通常是成千上万个用户 可能只有几十个或上百个用户 数据库大小 通常在GB级(100MB~1GB) 通常在TB级(100GB~1TB及以上) 十二、 9、什么是数据仓库的3层数据结构?
答:简单来说,数据是从企业内外部的各业务处理系统(操作型数据)流向企业级数据仓库(EDW)或操作型数据存储区(ODS)。在这个过程中,要根据企业(或其他组织)的数据模型和元数据库对数据进行调和处理,形成一个中间数据层,然后再根据分析需求,从调和数据层(EDW、ODS)将数据引入导出数据层,如形成满足各类分析需求的数据集市。 10、什么是数据仓库的数据ETL过程?
答:ETL是数据抽取(Extract)、清洗(Cleaning)、转换(Transform)、装载(Load)的过程。是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。
11、什么是星型模型?它的特征是什么?
答:星形模式是一种多维的数据关系,它由一个事实表(Fact Table)和一组维表(Dimension Table)组成。 特征:维表可能是非规范化的;在一定程度上提高查询效率;产生多种衍生模式。 十三、数据仓库的管理器包括那几个部分?每一部分的具体功能有哪些?
答:加载管理器:抽取并加载数据、在加载数据之前与进行中执行简单的转换;
仓库管理器:转换并管理数据仓库数据、备份与备存数据; 查询管理器:引导并管理数据仓库的查询。
十四、什么是数据粒度?举例说明数据粒度对于数据仓库的使用的影响。 答:数据粒度是对数据仓库中数据的综合程度高低的一个衡量。粒度越小,细节程度越高,综合程度越低,回答查询的种类越多;反之,粒度越大,细节程度越低,综合程度越低,回答查询的种类越少。 十五、创建一个数据仓库,主要是分析某电器连锁店在国内各大城市的销售情况(商品、时
间、区域、售价、金额、平均售价),构建数据仓库的目的在于分析商品的销售情况。绘制
星型结构的数据仓库。P44
十六、常见数据仓库的数据模型有哪几种?
答:层次模型、网状模型、关系模型、面向对象模型
十七、如下表所示交易数据,设 supmin = 40%, confmin = 40% ,求关联规则及其支持度和置信度。 交易号 10 20 30 40 50
项集 项集 A B C D E 支持度 3/5 2/5 2/5 4/5 3/5 {A,B} {A,C} {A,D} {A,E} {B,C} {B,D} {B,E} {C,D} {C,E} {D,E} 购买项 B,D A,C A,C,D,E B,D,E A,D,E 支持度 0 2/5 2/5 2/5 0 2/5 1/5 1/5 1/5 3/5 项集 {A,C} {A,D} {A,E} {B,D} {D,E} 支持度 2/5 2/5 2/5 2/5 3/5
十八、如下表所示数据,所示是交易数据库及其频繁项投影,最小支持数为2(也就是),试用图说明FP-树的构建过程,并绘制最终可用于频繁模式挖掘的FP-树(包括树、头表和
节点链)
交易号 100 200 300 400 项 I2,I3,I5,I7 I1,I2,I6,I7 I2,I3,I4,I6,I9 项繁项投影 I2,I3,I5,I7 I2,I6,I7 I2,I3,I6 I2,I3,I5,I6,I8 I2,I3,I5,I6
相关推荐: