第一范文网 - 专业文章范例文档资料分享平台

河北工程大学信管答辩题及答案 (5)

来源:用户分享 时间:2020-06-22 本文由回忆辉煌 分享 下载这篇文档 手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:xxxxxx或QQ:xxxxxx 处理(尽可能给您提供完整文档),感谢您的支持与谅解。

① 决策数据需要集成

在进行决策分析时,需要有全面的正确的集成数据,这些集成数据不仅包括企

业内部各部门的有关数据,而且还要包括企业外部的甚至是竞争对手的相关数据。但在传统的DB中只存储了本部门的事务处理数据,而没有与决策有关的集成数据,更没有企业外部数据,如果将数据集成问题交给决策分析程序解决,将大大增加决策分析系统的负担,使原先执行时间冗长的系统运行时间更长,用户将更加难以接受,若每次用户进行一次决策分析都需进行一次数据的集成,将极大的降低系统运行效率。

② 决策数据的集成需进行转换

企业的现行系统中的数据凌乱,究其原因主要是,有的是历史原因,例如:

在企业兼并活动完成后,被兼并的企业的信息系统与原企业系统不兼容。有的是系统开发的短视所造成的。例如:在系统开发的系统设计问题缺乏可扩充性,可移植性,有的则可能由于资金缺乏只考虑些关键系统的开发,而对其他系统未予以开发,使决策数据无法集成,因为在不同的应用系统中,可能存在同一实体的属性具有不同的数据类型,不同的字段名称,例如:客户的性别在销售系统中可能用“M”和“F”表示,在财务系统中可能用数字“0”和“1”表示,或者同名的字段在不同的应用中有不同的含义,这些同名异义或同义异名的数据在决策分析之前必须转换成相同的名称和格式。

③ 自然演化体系结构的问题

在决策分析中,系统经常需要从DB中抽取数据然后将这些数据置于文件或

数据库中供用户查询,这些被抽取出来的数据有可能被其他用户再次抽取,是企业的数据空间变成了一个错综复杂的数据“蜘蛛网”,即形成了自然演化体系结构。

在这个数据“蜘蛛网”中,有可能两个节点上的数据来自同一个原始数据库,但是

由于数据抽取的时间基准、抽取方法、抽取级别等方面的差异使这两个节点的数据不一致,这样,面对统一问题的决策分析,可能导致截然相反的答案,这就使得数据的可信度降低。

④ 与外部数据集成存在的问题

数据的集成还涉及外部数据与非结构化数据的应用问题,例如,行业的统计报告,

咨询公司的市场调查分析数据,必须经过格式、类型的转换,才能被决策系统应用,许多系统在对数据进行一次集成以后就与原数据源断绝了联系,在决策分析中所用数据是早期数据,如一年以前的,这可能导致决策失误,传统数据系统缺乏决策数据动态更新的能力。

⑤ 决策分析需要汇总数据

在决策分析过程中,决策人员往往需要一些经过汇总、概括的数据,但传统的

OLTP系统只保留一些非常详细的数据,这对决策不利。

3、 决策数据操作的问题

在对数据的操作方式上,业务处理系统远远不能满足决策人员的需要。

OLTP系统是一种典型的结构体系,操作人员只能使用系统所提供的有限参数进行数据操作,而决策分析人员则希望以专业用户的身份使用各种工具对数据进行多种形式的操作,对数据操作的结果以商业智能的方式表达出来,现有系统很难达到此要求。

由于系统响应问题,决策数据问题和决策数据操作问题的存在,导致企业无法使用现有的业务处理来满足决策分析的需要,因此决策分析需要一个能够不受传统事务处理的约束,高效率处理决策分析数据的支持环境,数据仓库则应运而生。 9. 原始数据中存在的问题是什么? 答:1,杂乱性 原始数据是从各个实际应用系统中获取的(多种数据库、多种文件系统),由于各应用系统的数据缺乏统一标准和定义,数据结构也有较大的差异,因此各系统间的数据存在较大的不一致性,往往不能直接拿来使用。 2.重复性 重复性是指对于同一个客观事物在数据库中存在其两个或两个以上完全相同的物理描述。由于应用系统实际使用中存在的一些问题,几乎所有应用系统中都存在数据的重复和信息的冗余现象。 3.不完整性 由于实际系统设计时存在的缺陷以及一些使用过程中人为因素所造成的影响,数据记录中

可能会出现数据属性的值丢失或不确定的情况,还可能缺少必须的数据而造成数据不完整。实际使用的系统中,存在大量的模糊信息,有些数据设置还具有一定的随机性质。

10、什么是聚类,聚类与分类的区别

答:将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。 区别:和分类学习相比,聚类的样本没有标记,需要由聚类学习算法来自动确定。 聚类分析是研究如何在没有训练的条件下把样本划分为若干类。

在分类中,对于目标数据库中存在哪些类是知道的,要做的就是将每一条记录分别属于哪一类标记出来。

聚类需要解决的问题是将已给定的若干无标记的模式聚集起来使之成为有意义的聚类,聚类是在预先不知道目标数据库到底有多少类的情况下,希望将所有的记录组成不同的类或者说聚类,并且使得在这种分类情况下,以某种度量为标准的相似性,在同一聚类之间最小化,而在不同聚类之间最大化。

与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据样本有类别标记。 聚类学习是观察式学习,而不是示例式学习。

11. 什么是主题

答:确定与任务相关的数据,即想要挖掘什么数据集,确定数据挖掘研究的范围,即想挖掘什么类型的知识,什么背景知识在这里可能有用,哪些度量可以用来评估模式的兴趣度。保持力控制、风险预测、收益率分析、数据趋势分析、雇员分析、区域分析、分类、聚类、可视化研究都可作为主题的类型

12. 什么是粒度

答:粒度是对数据仓库中的数据的综合程度高低的一个度量,它既能影响数据仓库中的数据量的多少,也影响数据仓库所能回答询问的种类。另一种粒度形式,即样本数据库。

13、在数据预处理种主要有5种数据规约的方法,请列举其中的3种

答:数据立方体聚集、属性子集选择、维度归约、数值归约、离散化和概念分层产生

14、相对于传统的数据库,数据仓库有四个基本特征是什么?

答:1、数据仓库特点之面向主题。

操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。

2、数据仓库特点集成。

面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。

3、数据仓库特点相对稳定。

操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。

4、数据仓库特点反映历史变化。

操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。

15、数据挖掘的六种常用算法和技术分别是什么?

答:(1)分类:处理结果是离散的(2)估计:处理的是连续的结果(3)预测:任何的预测都可以被认为是分类或估计。不同之处在于你强调的是什么:可以对分类后的结果加以检验:但在预测中,检验只能等待事物发生后才能确定。(4)组合或关联分析(5)聚类:其与分类的区别是聚类不依赖于事先确定好的组别。(6)描述与可视化:“女性比男性更支持民主党”。

16、什么叫OLAP?用途是什么?

答:联机分析处理(On-Line Analysis Processing,简写为OLAP)的概念最早是由关系数据库之父爱德华·库德(E·F·Codd)博士于1993年提出的,是一种用于组织大型商务数据库和支持商务智能的技术。OLAP数据库分为一个或多个多维数据集,每个多维数据集都由多维数据集管理员组织和设计以适应用户检索和分析数据的方式,从而更易于创建和使用所需的数据透视表和数据透视图。

17、数据挖掘包括哪些对象

答:关系数据库、面向对象数据库、数据仓库、文本数据源、多媒体数据库、以及环球网Web

18、关联挖掘可以发现的关联规则有哪些种类

答:1.基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型。 2.基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。 3.基于规则中涉及到的数据的维数,关联规则可以分为单维的和多维的。

19、什么是熵

答:在信息论中,熵被用来衡量一个随机变量出现的期望值。它代表了在被接收之前,信号传输过程中损失的信息量,又被称为信息熵。

20、数据分类有哪些方法

答:决策树、KNN法(K最近邻法)、SVM(支持向量机法)、VSM法(向量空间模型法)、Bayes法、神经网络

搜索“diyifanwen.net”或“第一范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,第一范文网,提供最新幼儿教育河北工程大学信管答辩题及答案 (5)全文阅读和word下载服务。

河北工程大学信管答辩题及答案 (5).doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
本文链接:https://www.diyifanwen.net/wenku/1093438.html(转载请注明文章来源)
热门推荐
Copyright © 2018-2022 第一范文网 版权所有 免责声明 | 联系我们
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:xxxxxx 邮箱:xxxxxx@qq.com
渝ICP备2023013149号
Top