孤单的微积分编辑
数据库应用技术(数据仓库与数据挖掘复习提纲)
说明:
考试形式:闭卷
考试题型:填空、选择、判断、名词解释、简答题、综合题。(由于试题是随机从试题库中抽取,有可能抽取的试题中不会全部包含上述的所有题型)
另外:本提纲仅针对试题中的名词解释、简答题和综合题提供复习参考,不包括填空、选择、判断等其它题型的参考。
一、名词解释:
1、 数据仓库:是面向主题的、综合的、不同时间的、稳定的数据的集合,用以支持经营管
理中的决策制定过程;
2、 数据挖掘:就是从大量数据中获取有效的、新颖的、潜在有用的、最终可以理解的模式
的过程;简单的说是从大量数据中提取或挖掘知识,又被称为数据库中的知识发现。 3、 操作数据存储:是一种DW的混合形式,它面向主题的、及时的、最近的和集成的信息,
用于支持企业的日常的全局应用和决策制定,其中数据可以作为DW的通用数据源。 4、 OLAP:是数据库系统主要应用,支持复杂的分析操作,侧重决策支持,且提供直观易
懂的结果。
5、 商业智能:是数据仓库(DW)、联机分析处理(OLAP)、数据挖掘等技术与资源管理系
统ERP结合起来应用于商业活动实际过程中,实现了技术服务于决策的目的。 二、简答题:
1、 试叙述数据仓库系统与传统数据库系统的区别: (1)、操作型数据库中的数据针对事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的; (2)、操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是并构的,而数据仓库中的数据在对原有分期的数据库数据做抽取、清理的基础上经过系统的加工、汇总和整理得到的; (3)、操作型数据库中的数据通常实时更新,数据根据需要及时发生变化,数据仓库的数据主要用于决策分析,对涉及的数据操作主要是数据查询和定期更细,一旦某个数据加载到数据仓库以后,一般情况下将作为数据档案长期保存; (4)、操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含较久远的历史单位,因此总是包括一个时间维,以便可以研究趋势和变化。 2、试叙述数据仓库设计的步骤及每一步完成的工作: (1)、概念模型:界定系统的边界;确定主要的主题域; (2)、技术准备工作:技术评估;技术环境准备; (3)、逻辑模型设计:分析主题域;粒度层次的划分;确定数据分割策略;关系模式定义;定义记录系统; (4)、物理模型设计:确定数据存储结构;确定索引策略;确定数据存放位置;确定存储分配; (5)、数据仓库生成:设计接口和数据装入; (6)、数据仓库的使用和维护:建立DSS;不断理解需求和完善系统;维护DW;
'.
孤单的微积分编辑
3、OLAP与OLTP的区别有哪些?它们适合于运行在同一个服务器上吗?为什么?
OLTP OLAP
用户 功能 DB 设计 数据 存取 工作单位 用户数 DB 大小 时间要求 主要应用
操作人员,低层管理人员
日常操作处理 面向应用
当前的, 最新的细节的,
二维的分立的 读/写数十条记录 简单的事务 上千个 100MB-GB 具有实时性 数据库
决策人员,高级管理人员
分析决策 面向主题 历史的, 聚集的, 多维的集成的, 统一的 读上百万条记录 复杂的查询 上百万个 100GB-TB
对时间的要求不严格
数据仓库
4、为什么要进行数据的预处理及其方法:(适当举例即可) (1)、在现实社会中,存在着大量的“脏”数据 1)、不完整性 :
缺少感兴趣的属性;感兴趣的属性缺少部分属性值;仅仅包含聚合数据,没有详细数据; 2)、噪音数据:
数据中包含错误的信息;存在着部分偏离期望值的孤立点; 3)、不一致性
数据结构的不一致性;Label的不一致性;数据值的不一致性; (2)、数据挖掘的数据源可能是多个互相独立的数据源 关系数据库;多维数据库(Data Cube);文件、文档数据库 (3)、数据转换
为了数据挖掘的方便 (4)、海量数据的处理
数据归约(在获得相同或者相似结果的前提下)
数据预处理的方法: (1)、数据清理
填入缺失数据;平滑噪音数据;确认和去除孤立点;解决不一致性; (2)、数据集成
多个数据库、Data Cube和文件系统的集成; (3)、数据转换 规范化、聚集等; (4)、数据归约
在可能获得相同或相似结果的前提下,对数据的容量进行有效的缩减; (5)、数据离散化
对于一个特定的连续属性,尤其是连续的数字属性,可以把属性值划分成若干区间,以区间值来代替实际数据值,以减少属性值的个数。 5、在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各种方法。 6、对于类特征化,基于数据立方体的实现与诸如面向属性归纳的关系实现之间的主要不同是什么?讨论哪种方法最有效,在什么条件下最有效。
'.
孤单的微积分编辑
7、数据仓库和数据集市的区别是什么?数据仓库的体系环境具有什么特点?有哪些建立数据仓库体系化环境的方法?它们各有何优劣? 8、 为了提高数据仓库的性能,可以在哪些方面作一些努力?在各个方面分别采用什么样的技术?这些技术易于实现吗?
9、 数据仓库中的数据是数据库中数据的简单堆积吗?它有哪些常用的数据组织方式? (1)、简单堆积文件(2)、轮转综合文件(3)、简单直接文件(4)、连续文件
10、一般来说,数据仓库采用什么样的数据模型?与OLTP的数据库模型相比,这些模型有什么特点?
11、数据仓库的设计包括哪些内容?
收集、分析和确认业务分析需求,分析和理解主题和元数据,事实及其量度,粒度和维度的选择与设计,数据仓库的物理存储方式的设计等。
12、在内容和使用者方面,数据仓库环境中的元数据与操作型环境中的元数据有何异同? 内容: (1)、DW的主题描述:主题名,公共码键,描述信息等; (2)、外部数据和非结构化数据的描述:外部数据源名,存储地点,存储内容描述; (3)、记录系统定义:主题名,属性名,数据源系统,源表名,源属性名; (4)、逻辑模型的定义:关系名,属性1,…,属性n; (5)、数据进入DW的转换规则; (6)、数据的抽取历史; (7)、粒度的定义; (8)、数据分割的定义; (9)、广义索引:广义索引名,属性1,…,属性n; (10)、有关存储路径和结构的描述。
定义:元数据是关于数据的数据,它描述了数据的结构、内容、码、索引等项内容。 功能: (1)、元数据为决策人员访问DW提供直接或辅助信息; (2)、元数据描述和管理从DBS到DW的数据转换; (3)、元数据要管理DW中的数据。
13、什么是维、维层次、维成员?举例说明: 维:观察数据的特定角度,比如时间维;
维层次:数据的维可以存在细节程度不同的多个描述方面,比如时间维可以由日期、月份、季度、年等不同的层次来描述;
维成员:维的一个取值称为该维的一个维成员。若一个维是多层次的,则该维的维成员是在不同维层次的取值的组合,比如2014年夏季6月22日; 14、OLAP提供哪些基本操作? (1)、切片:选定二维数组的一个二维子集的动作; (2)、切块:选定二维数组的一个三维子集的动作; (3)、旋转:改变一个页面显示的维方向的操作; (4)、上卷:通过一个维的概念分层向上攀升或者通过维归约,在数据立方体上进行聚集。 (5)、下钻:下钻是上卷的逆操作,它由不太详细的数据到更详细的数据。下钻可以通过沿维的概念分层向下或引入新的维来实现。 (6)、查询多维数据库的星型网查询模型:多维数据库查询也可以基于星型网模型。星型网由从中点发出的射线组成,其中每一条射线代表一个维概念分层。
'.
孤单的微积分编辑
15、OLAP服务器有哪些实现方法?它们的优劣是什么? (1)、关系OLAP(ROLAP)服务器
优势:没有大小限制;现有的关系数据库技术可以沿用;可以通过SQL实现详细数据与概要数据的存储;现有数据库已经对OLAP做了很多优化,包括并行存储,并行查询,并行数据管理,基于成本的查询优化,位图索引、SQL的OLAP扩展等大大提高了OLAP的速度。 缺点:一般比MDD相应的速度慢;不支持有关预计算的读写操作;SQL无法完成部分计算:无法完成多行的计算;无法完成维之间的计算。 (2)、多维OLAP(MOLAP)服务器
优势:性能好,相应速度快;专为OLAP所设计支持高性能的决策支持计算,如:复杂的跨维的计算;多用户的读写操作;行级的计算。
缺点:增加系统复杂度,增加系统培训及维护费用;受操作系统平台中文件大小的限制,难以达到TB级(10-20G)需要进行预计算,可能导致数据爆炸;无法支持维的动态变化,缺乏数据模型和数据访问的标准。 (3)、混合OLAP(HOLAP)服务器
16、为什么不能依靠传统的业务处理系统决策分析? (1)、所有联机事务处理强调的是密集的数据更新处理性能和系统的可靠性,并不太关心数据查询的方便与快捷。 (2)、业务数据往往被存放于分散的衣钩环境中,不易统一查询问题,而且还有大量的历史数据处于脱机状态,形同虚设。 (3)、业务数据的数据库模式针对事务处理系统而设计,数据的格式和描述方式并不太适合非计算机专业人员进行业务上的分析和统计。 17、自然演化体系结构中存在的问题 (1)、 “蜘蛛网”问题; (2)、数据缺乏可信性:a、数据无时机;b、数据算法上的差异;c、抽取的多层;d、外部数据问题; (3)、生产问题:生产率低; (4)、从信息到数据的转换不可行性:a、集成化问题;b、没有足够的历史数据 18、试述建立多维数据库的过程 (1)、选择主题域及其主题域的商业过程; (2)、确定事实表的粒度; (3)、区分每一个事实表的维层次; (4)、区分事实表的度量; (5)、确定每一个维表的属性; (6)、让用户验证数据类型。 19、数据挖掘的主要方法
统计分析方法、决策树、人工神经网络、基因算法、粗糙集、联机分析处理技术 20、数据挖掘中的数据分类是个两步过程,简述每步过程 (1)、学习:建立一个模型,描述预定的数据类集或概念集,该模型是通过分析由属性描述的DB元组而构造的。假定每个元组属于一个预定义的类,由类标号属性确定。为建立模型所使用的元组形成训练数据集。其中的单个元组称作训练样本,并随机地由样本群选取。由于提供了每个训练样本的类标号,该步也称作有指导的学习。 (2)、分类:首先评估模型(分类法)的预测准确率。保持方法是一种使用类标号样本测试集的简单方法。这些样本随机选取,并独立于训练样本。模型在给定测试集上的准确率是正
'.
相关推荐: