第一范文网 - 专业文章范例文档资料分享平台

基于Analyzer+SQL2005的商业智能解决方案

来源:用户分享 时间:2025/8/16 13:37:36 本文由loading 分享 下载这篇文档手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:xxxxxxx或QQ:xxxxxx 处理(尽可能给您提供完整文档),感谢您的支持与谅解。

可视化调试。在Data Viewers中,设计人员能够非常清楚地看到数据管道的工作状况,它通过图表的形式来可视化数据的传输,同时,断点、变量和调用堆栈提供了非常强大的调试功能。除传统ETL的功能之外

? 支持非传统的数据(Web Service,XML): ? SSIS可对不持续的数据进行分析 ? 在数据流中的数据挖掘和文本挖掘

? 数据流中的数据挖掘和分析可用于数据质量和数据清洗

4.2.1.数据抽取

提取(Extraction)就是从源系统中获取数据(无论是何种格式)。这个过程可能很简单,只需要从数据库或者电子表格转储文本文件(flat file);也可能很复杂,需要建立与外部系统的联系,然后控制数据到目标系统的传输。 A. 数据质量

“不要绝对的数据准确,但要知道为什么不准确。”这是对数据准确性的要求。准确的东西需要一个标准,但首先要保证这个标准对目前企业是准确的, 导致数据质量问题的原因可以分为下面几类:

? 数据格式错误:例如缺失数据、数据值超出范围或是数据格式非法等。要知道对于

同样处理大数据量的数据源系统,他们通常会舍弃一些数据库自身的检查机制,例如字段约束等。他们尽可能将数据检查在入库前保证,但是这一点是很难确保的。这类情况诸如身份证号码、手机号、非日期类型的日期字段等。

? 数据一致性:数据源系统为了性能的考虑,会在一定程度上舍弃外键约束,这通常

会导致数据不一致。例如在帐务表中会出现一个用户表中没有的用户ID,在例如有些代码在代码表中找不到等。

? 业务逻辑的合理性:通常,数据源系统的设计并不是非常严谨,例如让用户开户日

期晚于用户销户日期都是有可能发生的,一个用户表中存在多个用户ID也是有可能发生的。

B. 数据连接。

整合不同的数据源和数据目标变得非常容易。除了那些常见的数据源,例如文本文件、OLEDB和ADO.NET(包括针对.NET的ODBC),在SSIS中还简化了访问SAP target=_blank class=link_tag>SAP中数据的方式。内置的对XML和Web Services的支持使得与面向服务的架构以及其它非标准数据源的整合变得非常轻松。用于数据装载的SQL Server数据目标经过了优化,甚至SQL Server Mobile数据库也能被直接定位。由于具有整合元数据的能力和可共享的解决方案,报表服务的报表或者分析服务的多维数据集都能通过SSIS管道直接读取。

在SSIS中多源抽取整合案例图

4.2.2.数据清洗

清洗(Data Clean)就是对进入数据仓库的数据清除那些脏数据(dirty data)或噪音,以保证一定数据质量。

A. 脏数据定义

包括错误的,不一致的及没有用的数据:

? 单数据源的结构级脏数据:违反数据模式及完整性约束要求的那些数据 编号 1 2 问题 非法值域 脏数据 Bdate=30/13/70 说明 数据值越界 年龄=当前年-出生年 3 唯一性破坏 Emp1=(name=J.smith,SSN=135) 不同员工应有不同的SSN号 Emp2=(name=P.Miller.SSN=135) 4 参照完整性破坏 EMP=(name=J.Smith,dno=127) 对应部门号未定义 表 单数据源的结构级脏数据

? 单数据源的实例级脏数据:在结构上是没有任何错误,但是在数据实例级会有一些

错误和矛盾

编号 1 2 3 问题 值缺失 值对应错误属性 属性间依赖关系破坏 脏数据 Phone=9999.9999 City=“Grmany” 说明 空值或不存在 错误值 属性依赖关系破坏 Age=22,Bdat10/12/60 City=‘北京’,Zip=‘821002’ 两属性间值不对 4 重复记录 Emp1=(name=J.simth,?) Emp1=(name=J.simth,?) 同一记录两次录入 5 矛盾记录 Emp1=(name=M.smith,SSN=135) 同一记录有不同值 Emp2=(name=J.smith,SSN=135) 6 参照错误 Emp=(name=J.smith,dno=17) 对应部门号有定义但对应错误 表 单数据源的实例级脏数据

? 多数据源的结构级脏数据:由于各个数据源的结构不一致导致同名异议,异名同义

等,表示不一致

? 多数据源的实例级脏数据:比如重复数据,矛盾数据等 编号 1 问题 值域不一致 脏数据 Sex:0/1 Gender:T/M 2 表示不一致 Cid:11 Cno:492 3 表示不一致 Cid:24 Cno:24 表 多数据源的实例级脏数据

B.数据保证

针对于数据的质量,Fuzzy Lookup和Fuzzy Grouping组件提供了不精确匹配和消除重复数据的功能。为了保证数据质量,可使用预测模型来避免数据的不完整和丢失,或者使用关

同值异义 异值同义 说明 异值同义

基于Analyzer+SQL2005的商业智能解决方案.doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
本文链接:https://www.diyifanwen.net/c6mcya9di8j8jj329nacb_3.html(转载请注明文章来源)
热门推荐
Copyright © 2012-2023 第一范文网 版权所有 免责声明 | 联系我们
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:xxxxxx 邮箱:xxxxxx@qq.com
渝ICP备2023013149号
Top