第一范文网 - 专业文章范例文档资料分享平台

浙商银行数据仓库系统高层架构设计文档

来源:用户分享 时间:2025/5/19 15:13:33 本文由loading 分享 下载这篇文档手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:xxxxxxx或QQ:xxxxxx 处理(尽可能给您提供完整文档),感谢您的支持与谅解。

浙商银行企业数据仓库系统

高层架构设计

种方法:

1. Lookup合并到父实体

2. 子实体合并到父实体

3. 父实体合并到子实体

4.2.2.3 汇总数据区Summary

汇总数据区是为了方便查询和后续多维数据的更新,创建一些常用的中间汇总表,以提高性能和降低后续ETL工作的复杂性。

由于SOR是高度规范化的数据,因此要完成一个查询需要大量的关联操作;同时数据集市中的数据粒度往往要比SOR高很多,对要成生数据集市所需数据也需要大量的汇总计算,因此如果我们把常用的数据预先关联和汇总好,并让其尽量多在多个数据集市的计算中共享,就能大幅度的提高整个ETL工作和数据仓库查询的性能。

4.2.2.4 反馈数据区(Feedback Area)

反馈数据区主要记录的是数据仓库自身生成的结果。比如用户对营销活动的反馈等。

数据仓库的特性决定了用户在原则上不能直接修改数据仓库中的数据,因此用户的修改数据和其它生成数据必须单独记录,以便于追踪历史和进行比较。 CZB & IBM 机密

Page 12 of 43

浙商银行企业数据仓库系统

高层架构设计

4.2.2.5 元数据存储MDR(Meta Data Repository)

元数据存储用来保存关于数据仓库中的过程、数据的信息(日志、数据词典、配置信息等)。由于各个工具和系统都会生成自己的元数据,同时我们还利用元数据管理工具把这些元数据尽可能的集中存储到数据仓库中的MDR内,因此MDR总的来说只是一个共享元数据供用户集中访问的地方,真正元数据的维护地还是在生成这些元数据的系统或工具内。

元数据的管理和存储将会用到文件系统、建模工具、数据库等多种途径。 在数据仓库内,元数据可以被分成三种类型:业务、技术、和操作型元数据。

IBM软件服务部元数据架构过程访问供用户访问平台TENANCYMEMBERSbymaeEQUIPMENTUNIT HISTORYhashasfofoWORK REJECTION更新到元数据平台元数据存储MDRCOMPLAINTreatefofoWORK REQUESTreateVACANCYreatefoWORK PROGRESSTENANCYUNIT HISTORYMEMBERSEQUIPMENTmaehasfoTIONfoWORK REJECbyhasCOMPLAINTVACANCYfoWORK PROGRESSreatereateWORKCANCELLATIONfofofohashasfohasreatehasWORK ORDERWORK REQUESTfoWORK ORDERhasfoDETAILfohashasTEMfoWORK TASK reateIONfoMAINTENANCEfoWORK INSPECTMAINTENANCEPROJECT BUDGEThasPROJECTwithinfoWORK COMPLETIONhasMAINTENANCEPROGRAMWORKCANCELLATIONfofohahashasWORK ORDERhasWORK ORDERhasfoDETAILhasfohasTEMfoWORK TASK 项目文档获取foreateIONMAINTENANCEfoMAINTENANCEfoWORK INSPECTPROJECT BUDGEThasPROJECTnfoWORK COMPhaswithiLETIONMAINTENANCEPROGRAM需求变化设计变化概念、逻辑、物理变更MetaStageRepositoryBO报表定义项目文档ERWin应用数据存储PDM,Log数据模型的技术定义PDM的技术定义,和Job日志等操作型信息ETL的技术定义,和Job日志等操作型信息报表的业务定义数据仓库的业务定义和技术规范河北网通DW架构设计| Confidential?2006 IBM Corporation 1. 业务定义(业务元数据)

业务元数据在业务层面最终用户感兴趣的元数据,通常包括业务指标的含义、计算规则,数据概念分类,属性的业务含义等。

2. 技术规范(技术元数据)

技术元数据是指支持数据仓库运行的各种技术定义和规范。它通常是各种配置信息,较少直接被最终用户访问。比如表的定义,ETL Job的配置,调度信息等。

3. 操作状态(操作型元数据)

操作元数据是指数据仓库运行中各个组成部分的实际状态和日志。它记录了整个数据仓库运行的过程,方便对数据仓库进行跟踪和调试。这类元数据通常存储在用户定义的表内。比如数据仓库的各CZB & IBM 机密

Page 13 of 43

浙商银行企业数据仓库系统

高层架构设计

种统计信息,ETL运行日志等。

4.2.3 数据集市和多维立方体

4.2.3.1 多维数据存储

多维数据存储包含一系列多维数据模型(符合星型模式或雪花模式的关系表)。每个多维数据模型由一个数据表和几个外键表组成,一个称为事实表,英文称为”Fact Table” ,其他的表称为维度表。每个维度表含有单一的主键,这个主键和事实表里一个键相对应。这个类似于星形的结构通常被称作星形连接。

一个事实表经常包含一个或多个数字指标,或“事实,英文称为Fact”,定义每个记录的键值组合。在事实表最有用的东西是数字和可以相加的东西。相加是很重要的,因为数据仓库的应用程序不会检索单个的事实表,相反,他们会同时取回上百、上万、甚至上亿条记录,唯一有用的事情是把这些记录相加。

通过对比,维度表通常含有描述信息。维度属性被用于在数据仓库查询里大部分有用约束的来源,实际上他们是SQL查询返回结果集的行表头。

维表相对事实表来说都很小。这些小表一般都可以Cach在内存内,从而在与大的事实表关联时具有比较好的性能。

维表的可以设计为完全反范式化的,这时与一个维相关的所有层次都合并到最底层的维表内,这时的多维模型就体现为一个事实表带很多维表的“星型”结构;同样也可以选择维中不同的层次的数据在各自的表内,这时在结构上体现出来的就是,事实表与很多底层维表关联,然后维中层次结构上的各层维表有与其更高层次维表关联,展现出“雪花”结构。

为了保证对DB2内多维数据查询的性能,IBM在DB2内引入的物化查询表MQT(Materialize Query Table)的概念。MQT是基于一个查询(比如关联、汇总等)构造出来的表,表的内容就是这个查询得到的结果集,这个结果集物理的存储在数据库表内。MQT的作用相当于一个DB2查询优化器知道的一个中间表。当用户提交一个对底层细节表的查询时,如果这个查询能等价的转换成对这个MQT中间表的查询,DB2就会自动的从MQT中取得数据返回给用户。由于一般从MQT中取数的代价会比直接从细节数据取数小得多,尤其是对于含有汇总、关联等操作的查询,因此会带来整体性能上的极大提高。

MQT在设计中的一个重要考虑是MQT的更新时由系统自动进行还是手工进行。自动更新的好处是降低了MQT维护的复杂性,但由于自动更新MQT的限制比较多,并且对数据仓库应用来说基础表数据的变化完全是可以预知的,因此总的来说,在数据仓库系统内我们一般使用人工维护的MQT。

当创建数据集市时,要遵守以下的设计原则:

1. 数据将会从企业数据仓库里进入数据集市里,为了具体的分析应用,数据将会被重新转化。 CZB & IBM 机密

Page 14 of 43

浙商银行企业数据仓库系统

高层架构设计

2. 用多维建模技术创建数据模型。 3. 事实表里的键不能包含空值。 4. 数据库将会为查询进行优化。

5. 如果有可能,企业数据仓库里的关键值将会被重用。 6. ETL的应用程序用来维护参照完整性。 7. 这个环境将提供最大的可用性。

4.2.3.2 OLAP和多维立方体

OLAP即可以是关系型(Relational)OLAP,也即ROLAP,也可以是多维的(Multi-dimensional)OLAP,也即MOLAP。ROLAP通过DB2内的关系表实现,通常具有更高的灵活性和数据存储能力。MOLAP把数据存储在多维数组内,立方体中各个层次的数据都预先计算出来存储在文件内,通常具有更好的性能。

在浙商银行数据仓库的总体架构内,ROLAP和MOLAP我们都会用到。其中ROLAP用DB2 CubeView实现,主要是用来建立数据量大结构负责的立方体;MOLAP用AlphaBlox实现,用来建立结构相当简单、数据量也不是太大,但对查询性能和查询功能要求比较多的立方体。具体在实现时我们可以考察每个立方体的数据和访问情况来觉得其用何种方式实现比较好。

1. ROLAP

利用RDBMS和星型结构,及一系列的表和MQT,DB2来模拟出一个多维的立方体出来。每种维层次的查询组合,DB2都能或实时计算或从MQT中查询得到相应的结果,如果MQT设计的足够多和好,其性能也能于真正的多维立方体想媲美。

下图展示的是DB2如何用表和MQT来模拟对立方体的查询的。

CZB & IBM 机密

Page 15 of 43

浙商银行数据仓库系统高层架构设计文档.doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
本文链接:https://www.diyifanwen.net/c6ppzk97f358mqar1rxc0_5.html(转载请注明文章来源)
热门推荐
Copyright © 2012-2023 第一范文网 版权所有 免责声明 | 联系我们
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:xxxxxx 邮箱:xxxxxx@qq.com
渝ICP备2023013149号
Top