7 面包,黄油,尿布 8 啤酒,尿布
9 牛奶,尿布,面包,黄油 10 啤酒,饼干
A、1 B、2 C、3 D、4
48. 以下哪些算法是分类算法,A,DBSCAN B,C4.5 C,K-Mean D,EM (B)
49. 以下哪些分类方法可以较好地避免样本的不平衡问题, A,KNN B,SVM C,Bayes D,神经网络 (A)
50. 决策树中不包含一下哪种结点,A,根结点(root node) B,内部结点(internal node) C,外部结点(external node) D,叶结点(leaf node) (C)
51. 不纯性度量中Gini计算公式为(其中c是类的个数) (A) A, B, C, D, (A)
53. 以下哪项关于决策树的说法是错误的 (C)
A. 冗余属性不会对决策树的准确率造成不利的影响 B. 子树可能在决策树中重复多次
C. 决策树算法对于噪声的干扰非常敏感 D. 寻找最佳决策树是NP完全问题
54. 在基于规则分类器的中,依据规则质量的某种度量对规则排序,保证每一个测试记录都是由覆盖它的“最好的”规格来分类,这种方案称为 (B) A. 基于类的排序方案 B. 基于规则的排序方案 C. 基于度量的排序方案 D. 基于规格的排序方案。
55. 以下哪些算法是基于规则的分类器 (A) A. C4.5 B. KNN C. Na?ve Bayes D. ANN
56. 以下关于人工神经网络(ANN)的描述错误的有 (A)
A,神经网络对训练数据中的噪声非常鲁棒 B,可以处理冗余特征 C,训练ANN是一个很耗时的过程 D,至少含有一个隐藏层的多层神经网络
57. 通过聚集多个分类器的预测来提高分类准确率的技术称为 (A)
A,组合(ensemble) B,聚集(aggregate) C,合并(combination) D,投票(voting)
58. 简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作( B )
A、层次聚类 B、划分聚类 C、非互斥聚类 D、模糊聚类
59 在基本K均值算法里,当邻近度函数采用( A )的时候,合适的质心是簇中各点的中位数。
A、曼哈顿距离 B、平方欧几里德距离 C、余弦距离 D、Bregman散度 60.( C )是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。
A、边界点 B、质心 C、离群点 D、核心点
填空题 第一章
(1)数据库中的知识挖掘(KDD)包括以下七个步骤: 、 、 、 、 、 和
(2) 数据挖掘的性能问题主要包括: 、 和
(3) 当前的数据挖掘研究中,最主要的三个研究方向是: 、 和
(4) 在万维网(WWW)上应用的数据挖掘技术常被称为:
(5) 孤立点是指: 答案:
(1)数据清理,数据集成,数据选择,数据变换,数据挖掘,模式评估,知识表示 (2)算法的效率、可扩展性和并行处理 (3)统计学、数据库技术和机器学习 (4)WEB挖掘
(5)一些与数据的一般行为或模型不一致的孤立数据
第二章
(1)进行数据预处理时所使用的主要方法包括: 、 、 和
(2)处理噪声数据的方法主要包括: 、 、 和
(3)模式集成的主要问题包括: 和 (4)数据概化是指: (5)数据压缩可分为: 和 两种类型。
(6)进行数值归约时,三种常用的有参方法是: 、 和
(7)数据离散度的最常用度量是 、 和 答案:
(1) 数据清理、数据集成、数据变换、数据规约 (2) 分箱、聚类、计算机和人工检查结合、回归 (3) 整合不同数据源中的元数据,实体识别问题 (4) 沿概念分层向上概化 (5) 有损压缩,无损压缩
(6) 线性回归方法,多元回归,对数线性模型 (7) 五数概括、中间四分位数区间、标准差
第三章
(1)概念分层有四种类型,分别是: 、 、 和
(2)常用的四种兴趣度的客观度量是: 、 、 和
(3)同时满足 和 的关联规则称为强关联规则。 答案:
(1)模式分层,集合分组分层,操作导出的分层,基于规则的分层 (2)简单性、确定性、实用性、新颖性 (3)最小置信度临界值、最小支持度临界值
第四章
(1)关联规则挖掘中,两个主要的兴趣度度量是: 和 (2)Aprior算法包括 和 两个基本步骤 (3)项集的频率是指
(4)大型数据库中的关联规则挖掘包含两个过程: 和 (5)根据规则中所处理的值类型,关联规则可分为: 和 (6)Apriori性质是指: (7)挖掘多维关联规则的技术可以根据量化属性的处理分为三种基本方法: 、 和
(8)对于频繁项集挖掘,在挖掘过程中使用的约束包括以下五种类型: 、 、 、 和 (9)在多维关联规则挖掘中,我们搜索的不是频繁项集,而是 答案:
(1)支持度和置信度 (2)连接和剪枝
(3)包含项集的事务数
(4)找出所有频繁项集、由频繁项集产生强关联规则 (5)布尔关联规则、量化关联规则
(6)频繁项集的所有非空子集也必须是频繁的
(7)量化属性的静态离散化、量化关联规则、基于距离的关联规则 (8)反单调的、单调的、简洁的、可转变的、不可转变的 (9)频繁谓词集
第五章
(1)通过对数据进行预处理,可以提高分类和预测过程的 、 和
(2)防止分类中的过分适应的两种方法分别是: 和 答案
(1)准确性、有效性和可伸缩性 (2)先剪枝、后剪枝
第六章
(1)在数据挖掘中,常用的聚类算法包括: 、 、 、基于网格的方法和基于模型的方法。
(2)聚类分析常作为一个独立的工具来获得 (3)一个好的聚类分析方法会产生高质量的聚类,具有两个特征: 和
(4)许多基于内存的聚类算法所常用的两种数据结构是 和 (5)基于网格的聚类方法的优点是:
(6)孤立点产生的主要原因包括: 和
(7)在基于统计的孤立点检测中,常用于不一致性检验的参数包括: 、 和 答案:
(1)划分方法、层次的方法、基于密度的方法 (2)数据分布的情况
(3)高类内相似度、低类间相似度 (4)数据矩阵、相异度矩阵 (5)处理数度快
(6)度量或执行错误、数据变异的结果 (7)数据分布、分布参数、预期的孤立点数
问答题
1. 何谓数据挖掘?它有哪些方面的功能?
从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程称为数据挖掘。相关的名称有知识发现、数据分析、数据融合、决策支持等。
数据挖掘的功能包括:概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤立点分析以及偏差分析等。
2. 何谓数据仓库?为什么要建立数据仓库?
数据仓库是一种新的数据处理体系结构,是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,为企业决策支持系统提供所需的集成信息。
建立数据仓库的目的有3个:
一是为了解决企业决策分析中的系统响应问题,数据仓库能提供比传统事务数据库更快的大规模决策分析的响应速度。
二是解决决策分析对数据的特殊需求问题。决策分析需要全面的、正确的集成数据,这是传统事务数据库不能直接提供的。
三是解决决策分析对数据的特殊操作要求。决策分析是面向专业用户而非一般业务员,需要使用专业的分析工具,对分析结果还要以商业智能的方式进行表现,这是事务数据库不能提供的。
3. 何谓粒度?它对数据仓库有什么影响?按粒度组织数据的方式有哪些?
粒度是指数据仓库的数据单位中保存数据细化或综合程度的级别。粒度影响存放在数据仓库中的数据量的大小,同时影响数据仓库所能回答查询问题的细节程度。按粒度组织数据的方式主要有:
① 简单堆积结构 ② 轮转综合结构 ③ 简单直接结构 ④ 连续结构
4. 何谓聚类?它与分类有什么异同?
聚类是将物理或抽象对象的集合分组成为多个类或簇(cluster)的过程,使得在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。
聚类与分类不同,聚类要划分的类是未知的,分类则可按已知规则进行;聚类是一种无指导学习,它不依赖预先定义的类和带类标号的训练实例,属于观察式学习,分类则属于有指导的学习,是示例式学习。
5. 分类知识的发现方法主要有哪些?分类过程通常包括哪两个步骤?
分类规则的挖掘方法通常有:决策树法、贝叶斯法、人工神经网络法、粗糙集
相关推荐: