第一范文网 - 专业文章范例文档资料分享平台

一种可靠的数据仓库中ETL策略与架构设计

来源:用户分享 时间:2021-06-02 本文由滸你一世諾誩 分享 下载这篇文档 手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:xxxxxx或QQ:xxxxxx 处理(尽可能给您提供完整文档),感谢您的支持与谅解。

一种可靠的数据仓库中!"#策略与架构设计

尤玉林

张宪民

(上海交通大学图像处理与模式识别研究所,上海!"""@")

&A-912:B2CB.0D;E50$730$=,

作为数据仓库系统的关键部件,清洗、转换和装载的工作,它是构建数据仓库的重要环节,&’(完成数据抽取、

同时也是构建数据仓库过程中出现问题最多的环节,所以针对这点,该文给出了一个可靠的同时易于扩展的&’(策略和架构。文章首先简单地介绍了数据仓库技术和&’(技术,包括&’(的相关概念、&’(在数据仓库中的功能和重要地位;然后重点介绍了这种&’(的具体策略和架构设计。关键词

数据仓库

&’(数据抽取数据转换数据清洗数据装载

中图分类号’I@%%$%@

文章编号%""!AF@@%A(!""#)%"A"%G!A"@文献标识码H

$%&’()*’&+,-),&./)012&3(.045$-67(,&6,8-&45

!"#(02),)9)-&7483&

:48:8’(0;7)0.<()0=(0

(+,;515057.>+-947I:.=7;;1,4JI9557:,K7=.4,151.,,L69,4691M19.5.,4N,1O7:;15B,L69,4691!"""@")

$*3,-)6,:H;567P7B=.-Q.,7,51,5673959R9:76.0;7;B;57-,&’(;0QQ.:5;567Q:.=7;;1,49S.0539597<5:9=51,4,=279,1,4,5:9,;>.:-1,49,32.931,4$+51;.,7.>567-.;51-Q.:59,5;57Q;1,S01231,45673959R9:76.0;7,95567;9-751-7,567:79:792.5.>S04;9S.05&’(1,S01231,45673959R9:76.0;7$’.9O.1356.;7Q.57,5192S04;,561;Q9Q7:Q05;>.:R9:39:7219S279,379;12B31;57,;1S27;5:9574B9,39:=6157=50:7.>&’($’61;Q9Q7:S:17>2B1,5:.30=7;56757=6,.2.4B.>3959R9:76.0;79,3&’(,1,=2031,4567=.,=7Q5;:729573R1563959R9:76.0;79,3&’(,&’(T;>0,=51.,;9,35671-Q.:U59,52.=951.,1,3959R9:76.0;7;B;57-,9,3567,157-Q69;1V7;567375912;9S.05561;;5:9574B9,337;14,.>9:=6157=50:7.>&’($

>&/?4-13:3959R9:76.0;7,&’(,39597<5:9=5,39595:9,;>.:-,3959=279,,39592.931,4

%引言

作为数据仓库系统中最基本而且极为重要的一部分———

数据的准确性和一致性是一个成功的数据仓库必须具有的特点。因为数据仓库本身依赖于各个业务系统(数据源),同时灵活性也是一个成功数据仓库的关键。所以,如何有效地从源数据中把需要的数据加载到数据仓库中是至关重要的一步。

数据仓库的数据源一般是存储在异构数据库中的业务系统数据。根据业务需求,从这些数据库中抽取相关数据,并进行转换和清洗,然后同步或者异步的方式装载到数据仓库中。这是一个工作量巨大的作业,根据已有经验,这也是日常运作中问题最多也最为繁琐的部分,&’(就是完成这部分工作的。而且数据仓库中数据的质量是数据仓库项目成功与否的最主要判断标准,所以&’(部分的设计成为整个数据仓库系统设计中最重要的部分之一。

它是数据仓库的核心技术之一,它将为数据仓库提供高&’(,

质而准确的数据。

目前,国外关于数据仓库的定义很多,业界公认的数据仓库概念的形成是以被称为“数据仓库之父”的)$*$+,-.,出版一书为标志。该书对数据仓库《/01231,45678959)9:76.0;7》

作了这样的定义:数据仓库就是面向主题的、集成的、非易失的、随时间变化的数据集合。

但就数据仓库的实质来讲,它可以被视为一个存储了依据业务需求经过转换和清洗后数据的数据库。数据类别及子目取决于业务人员及决策者对信息的要求。存储的原则是易存、易取、易用而且有效(时间和空间)。

原始数据库,报一个数据仓库系统综合了多个部分(&’(,表生成)、与多个系统接口(用于数据交换),同时生成的结果供各个部门的业务人员和决策者使用。设计数据仓库的一般步骤如图%所示。

!&’(简介

、数据转换(以及数&’(是指数据抽取(&<5:9=5)’:9,;>.:-)据加载(,是构建数据仓库中极其重要的一环,其在数(.931,4)据仓库系统中的位置如图!所示。

!$%

图%

数据仓库设计一般步骤

&’(的功能

业务系统?外部&’(首先要做的是按业务需求从源数据(

数据等)中抽取(数据仓库所需要的数据;然后对抽取&<5:9=5)

作者简介:尤玉林(,男,硕士研究生,主要研究方向:数据仓库和数据挖掘。张宪民,男,硕士生导师,主要研究方向:模式识别,人工智能,视

%WGWA)

%G!!""#$%"计算机工程与应用

搜索“diyifanwen.net”或“第一范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,第一范文网,提供最新人文社科一种可靠的数据仓库中ETL策略与架构设计全文阅读和word下载服务。

一种可靠的数据仓库中ETL策略与架构设计.doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
本文链接:https://www.diyifanwen.net/wenku/1196068.html(转载请注明文章来源)
热门推荐
Copyright © 2018-2022 第一范文网 版权所有 免责声明 | 联系我们
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:xxxxxx 邮箱:xxxxxx@qq.com
渝ICP备2023013149号
Top