第14章 数据仓库与数据挖掘
14.1 决策支持系统的发展 操作型数据:由企业的基本业务系统所产生的数据,操作型数据及相应数据处理所处的环境,即用于支持企业的基本业务应用的环境。联机事务处理(OLTP):
14.1.1 决策支持系统(DSS)及其演化14.1.2 基于数据仓库的决策支持系统:原始数据和导出数据。原始数据一般来自于企业操作型系统,因此,也可以称之为操作型数据。 导出数据则是为了提高数据查询和管理效率,根据操作型数据计算得到的数据常用于支持分析型应用。14.2 数据仓库技术概述14.2.1 数据仓库的概念与特性:数据仓库是一个面向主题的、集成的、非易失的,且随时间变化的数据集合,用来支持管理人员的决策。这个概念指出了数据仓库的几个重要的特性,即面向主题性、集成性、不可更新性和时间特性等。 1.主题与面向主题:主题是一个抽象的概念,主题也可以称为分析主题领域,用于表示某一宏观的分析领域所涉及的对象,以及与对象有关的数据的集合。2.数据仓库的其他特征@集成是数据仓库数据的第二个特性, 也是最为重要的特性@数据仓库的第三个重要特性是数据仓库是不可更新的。@数据仓库的最后一个显著特性是它随时间变化。 14.2.2 数据仓库的体系结构与环境:数据仓库的体系结构主要包括操作型数据、操作型数据存储、数据仓库和数据集市,也可以包括个体数据。
14.2.3 数据仓库的数据组织1.数据组织结构:早期细节级、当前细节级、轻度综合级、高度综合级2.粒度:一般将综合级别称为粒度。粒度越大,表示综合程度越高;粒度越小,表示综合程度越低。粒度越小,细节程度越高,能回答的查询就越多。3.数据分区:系统层分区和应用层分区。14.2.4 元数据:是数据仓库中的重要数据,是关于数据的数据,或者叫做描述数据的数据。技术型元数据:描述关于数据仓库技术细节的数据,这些元数据应用于开发、管理和维护。业务元数据:从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层。 14.2.5 操作型数据存储(ODS):即时(up-to-second)OLTP(OnLine Analytical Processing)和全局型OLTP应用。人们对保存在ODS中的数据归纳出四个基本特点:面向主题的、集成的、可变的、数据是当前或接近当前的。
14.3 设计与建造数据仓库14.3.1 数据仓库设计的需求与方法1.数据仓库设计需求2.设计方法14.3.2 数据仓库的数据模型1.概念模型:是用于描述客观世界中的对象及其属性的一种概念性工具。2.逻辑模型:既可以采用关系型模型,也可以采用多维数据模型,也可以通过关系型模型来表示多维模型。3.物理模型:逻辑模型在具体的数据存储平台上的物理定义,主要包括物理存取方式、数据存储结构、数据存放位置和存储分配。
14.3.3 数据仓库设计步骤:数据集成是将源自不同数据源的数据经过抽取、转换、清理、装载等操作载入数据仓库的过程,是实施数据仓库的重要步骤。
数据清洗:是一个减少错误和不一致性的过程,过滤掉那些不符合要求的数据。 14.4 数据仓库的运行与维护14.4.1 数据仓库数据的更新维护 1.维护策略:分为三种,实时维护、延时维护、快照维护 实时维护在数据源发生变化时,立即更新数据仓库中数据。延时维护是在数据仓库中的视图被查询时完成更新。快照维护定期对数据仓库进行维护,维护操作的触发条件是时间。 2.捕捉数据源的变化:方法 1)触发器 2)修改数据源应用程序 3)通过日志文件 4)快照比较法。3.导出数据的刷新。方法:一是根据维护对象的数据源对其进行重新计算;二是根据数据源的变化量在维护对象原有数据和基础上进行数据添加和修改,即增量式维护。 14.4.2 数据仓库监控与元数据管理1.数据仓库监控2.元数据管理
14.5 联机分析处理与多维数据模型14.5.1 OLAP 简介:联机分析处理(OLAP)主要用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持。
14.5.2 多维分析的基本概念:多维分析是每日针对数据仓库中以多维形式组织起来的数据,从多个角度、不同层次,采用各种数据分析技术,对数据进行剖析。
14.5.3 多维分析的基本操作①钻取(Drill-Down)与卷起(Roll-Up).OLAP分析的两个最基本操作。所谓钻取是指对应于某一维逐步向更细节层方向观察数据,而卷起为OLAP用户提供了足够灵活、多角度的观察数据的方法。②切片(Slice)和切块(Dice)。实现局部数据的显示。③旋转。改变一个报告或页面显示的维方向
14.5.4 OLAP的实现方式1.基于多维数据库的OLAP(MOLAP):核心是多维数据库技术 2.基于关系数据库的OLAP(ROLAP):所有基础事实数据及维表都采用关系表来表示和存储。3.混合型的OLAP(HOLAP)
14.6 数据挖掘技术14.6.1 数据挖掘步骤1.数据准备,分为三个子步骤①数据选取②数据预处理③数据变换2.数据挖掘:首先要确定挖掘的任务或目的。实现算法有两个因素:一是数据特点;二是用户或实际运行系统的要求。3.结果解释评估 14.6.2 关联规则挖掘:“啤酒和尿布”,支持度、置信度 14.6.3 分类挖掘14.6.4 聚类挖掘14.6.5 时间序列分析 小结
本章首先详细介绍了数据仓库的基本概念、如何设计和建造数据仓库、数据仓库的运行与维护,然后介绍了联机分析处理与多维数据模型,最后简要概述了数据挖掘技术,包括数据挖掘的步骤,数据挖掘中的关联规则挖掘、分类挖掘、聚类挖掘和时间序列分析。
数据仓库与数据挖掘是近年来计算机科学领域研究的热门话题,数据仓库技术所解决的问题是如何更合理和更有效地组织企业数据体系,以更好地满足企业信息型应用需求。对于日常的运行维护,要重点关注数据仓库的查询效率和性能优化,及早发现和分析可能引起系统瓶颈导致性能恶化的问题,提高整体数据库的吞吐量。
多维分析侧重于从多个角度、不同层次,采用各种数据分析技术,对数据仓库中的以多维形式组织起来的数据进行剖析,使用户能从不同角度和不同层次观察和分析数据,以对高层管理人员提供决策支持。
而数据挖掘技术解决的问题是如何更智能和更准确地分析企业数据,从而为企业信息应用系统提供辅助支持。
相关推荐: