第一范文网 - 专业文章范例文档资料分享平台

数据挖掘考试题目 - 聚类

来源:用户分享 时间:2025/7/1 6:29:40 本文由loading 分享 下载这篇文档手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:xxxxxxx或QQ:xxxxxx 处理(尽可能给您提供完整文档),感谢您的支持与谅解。

数据挖掘考试题目——聚类

一 、填空题

1、密度的基于中心的方法使得我们可以将点分类为:__________、________ 、_________。 2、DBSCAN算法在最坏的情况下,时间复杂度是__________、空间复杂度是__________。 3、DBSCAN算法的优点是_______、__________________________。

4、DBSCAN算法的缺点是处理_________________、_____________的数据效果不好。 5、DBSCAN算法的参数有:___________、____________。

6、簇的有效性的非监督度量常常可以分为两类:__________、__________,它常采用的指标为__________。

7、簇的有效性的监督度量通常称为___________,它度量簇标号与外部提供的标号的匹配程度主要借助____________。

8、在相似度矩阵评价的聚类中,如果有明显分离的簇,则相似度矩阵应当粗略地是__________。

9、DBSCAN算法的参数确定的基本方法是观察____________________的特性。 10、不引用附加的信息,评估聚类分析结果对数据拟合情况属于__________技术。 答案:

1、 核心点 边界点 噪声点 2、 O(n2) O(n)

3、 耐噪声 能够处理任意大小和形状的簇 4、 高维数据 变密度的 5、 EPS MinPts

6、 簇的凝聚性 簇的分离性 均方差(SSE) 7、 外部指标 监督指标的熵 8、 块对角的

9、 点到它的第K个最近邻的距离(K-距离) 10、非监督

二、选择题

1、DBSCAN算法的过程是(B)。 ① 删除噪声点。

② 每组连通的核心点形成一个簇。

③ 将所有点标记为核心点、边界点和噪声点。 ④ 将每个边界点指派到一个与之关联的核心点的簇中。 ⑤ 为距离在Eps之内的所有核心点之间赋予一条边。 A:①②④⑤③ B:③①⑤②④ C:③①②④⑤ D:①④⑤②③

2、如果有m个点,DBSCAN在最坏的情况下的时间复杂度度为(C)。

A O(m) B O(mlogm) C O(m2) D O(logm)

3、在基本DBSCAN的参数选择方法中,点到它的K个最近邻的距离中的K选作为哪一个参数(B)。

A Eps B MinPts C 质心 D 边界

4、当采用K-距离的方法选择DBSCAN的Eps和MinPts参数时,如果设置的K的值太大,则小簇(尺寸小于K的簇)可能会被标记为(A)。

A 噪声 B 核心簇 C 边界簇 D以上都不对

5、如果处理以下形状的数据时,适宜采用DBSCAN的是(B)

A 球形 B SS形 C 椭球形 D 方形

6、DBSCAN之所以难以有效处理高维数据,其主要原因是(D)

A 数据的形状太复杂 B 簇的大小未知 C 噪声点过多 D 开销过大

7、簇评估能够做到(D) ①确定数据集的聚类趋势。 ②确定正确的簇个数。

③比较两个簇集,确定那个更好。

④不引用附加信息,评估聚类分析结果对数据拟合情况

A ①② B ②③④ C ①②③ D①②③④

8、如果不考虑外部信息,聚类结构的有良性度量应当采用(A)。

A 均方差 B 方差 C 中位数 D 均值

9、比较不同的聚类或簇时,通常采用相对的簇评估度量,相对的簇评估以()来评价不同的聚类或簇。

A SSE或熵 B 簇的大小 C 簇的形状 D 簇的密度

10、对于DBSCAN,参数Eps固定,当MinPts取值较大时,会导致(B) A 能很好的区分各类簇

B 只有高密度的点的聚集区划为簇,其余划为噪声 C 低密度的点的聚集区划为簇,其余的划为噪声 D 无影响

三、判断题

1、DBSCAN的参数Eps固定时,MinPts的值越大越好。(错) 2、DBSCAN会把所有点划分到各自的簇中。(错)

3、在所有核心点的Eps半径邻域内的点数都不少于MinPts阈值。(对) 4、SSE在无监督的簇评估中能起到很好的作用。(对)

5、在通过相似度矩阵评估簇时,如果相似度矩阵是块对角的,说明具有明显分离的簇(对)。 6、DBSCAN能够很好的区分原始数据的形状,但受限于用户指定的参数。(对) 7、判断簇的个数不属于簇评估。(错)

8、在做聚类时,DBSCAN会删掉它认为是噪声点的数据点。(对) 9、DBSCAN的空间复杂度始终都是O(m)。(对)

10、K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇。(对)

四、简答题

1、描述DBSCAN的算法过程。

①将所有点标记为核心点、边界点和噪声点。 ②删除噪声点。

③为距离在Eps之内的所有核心点之间赋予一条边。 ④每组连通的核心点形成一个簇。

⑤将每个边界点指派到一个与之关联的核心点的簇中。

2、简答DBSCAN的优点与不足。

答,优点:DBSCAN是相对抗噪声的,并且能够处理任意形状和大小的簇,

缺点:当簇的密度变化过大时,DBSCAN就很难敏感的发现数据集中的簇。同时, DBSCAN在处理高维数据时,会有很大的开销。

3、简述DBSCAN算法的核心思想。

DBSCAN算法的核心思想是一个簇中除了边界点,每个点在给定的半径Eps内必须包

含不少于PinPts个数据点,这样的点称为核心点。

4、确定DBSCAN参数的基本的方法是什么。

答:观察点到它的K个最近邻的距离的特性。对于某个K,计算所有点的K距离,以递增的次序排序,绘制排序后的值。在图中找到曲线拐点,拐点处的函数值为Eps半径,K的值为Minpts。

5、 簇评估的主要任务是什么。 答 :① 确定数据集的聚类趋势。

② 确定正确的簇个数。

③ 不引用附加的信息,评估聚类分析结果对数据的拟合情况。 ④ 将聚类分析结果与已知的客观结果比较。 ⑤ 比较两个簇集,确定哪个更好。

搜索更多关于: 数据挖掘考试题目 - 聚类 的文档
数据挖掘考试题目 - 聚类.doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
本文链接:https://www.diyifanwen.net/c0i5k12ml9j6h1tw45fdl_1.html(转载请注明文章来源)
热门推荐
Copyright © 2012-2023 第一范文网 版权所有 免责声明 | 联系我们
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:xxxxxx 邮箱:xxxxxx@qq.com
渝ICP备2023013149号
Top