S({hamburgers})=2500/5000=50%
提升度lift({hot dogs}→{hamburgers})= C({hot dogs}→{hamburgers})/ S({hamburgers}) =1.334 提升度大于1,表明hot dogs和hamburgers不是互相独立的,二者之间存在正相关关系。
5.11对于表5-17所示序列数据集,设最小支持度计数为2,请找出所有的频繁模式。
表5-17 习题5.11数据集
Sequence ID 1 2 3 4 Sequence ID <(ad)c(bc)(ae)> <(e f )(ab)(d f )cb>
答:离群点是指与大部分其它对象不同的对象,在数据的散布图中,它们远离其它数据点,
6.2 讨论基于如下方法的离群点检测方法潜在的时间复杂度:使用基于聚类的、基于距离的和基于密度的方法。不需要专门技术知识,而是关注每种方法的基本计算需求,如计算每个对象的密度的时间需求。
答:如果使用 K-means算法,它的时间复杂度就是O(n),一般基于邻近度和基于密度的算
法的时间复杂度都是O(n2),但是对于低维数据,使用专门的数据结构,如树或者k-d
树,可以把基于邻近度的算法的时间复杂度降低到O(nlog而对基于密度的算法来说,n),
如果使用基于网格的算法,则可以把时间复杂度降低到O(n),但这种方法不太精确而且也是用于低维数据。
6.3 许多用于离群点检测的统计检验方法是在这样一种环境下开发的:数百个观测就是一个大数据集。我们考虑这种方法的局限性:
答:(a)如果指的是单面的点的距离超过标准差的3倍,那么概率就是0.00135,则有1350
个离群点;如果指的是两面的点的距离超过标准差的3倍,那么概率就是0.0027,则有2700个离群点。
(b)具有百万个对象的数据集中,有成千上万个离群点,我们可以接受它们作为离群点或者降低临界值用以减少离群点。
6.4 假定正常对象被分类为离群点的概率是0.01,而离群点被分类为离群点概率为0.99,
如果99%的对象都是正常的,那么假警告率或误报率和检测率各为多少?(使用下面的
检测率?检测出的离群点个数离群点的总数假离群点的个数被分类为离群点的个数
假警告率?答: 假警告率=(99%*1%)/(99%*1%+1%*99%)=50%
个概念。然而,在一些情况下, 离群点通常不会普遍发生,举一个相关例子:网络故障,
6.6 考虑一个点集,其中大部分点在低密度区域,少量点在高密度区域。如果我们定义离群点为低密度区域的点,则大部分点被划分为离群点。这是对基于密度的离群点定义的适当使用吗?是否需要用某种方式修改该定义?
答:如果密度有一个绝对意义,比如被指定到某一定义域内,那么它可能会非常合理的考虑
把大部分的点作为异常。然而,在很多情况下,为了能够准确使用异常检测技术,通常会考虑使用相对密度这一概念。
6.7 一个数据分析者使用一种离群点检测算法发现了一个离群子集。出于好奇,该分析者对
(a) 讨论本章介绍的每种离群点检测技术的行为。(如果可能,使用实际数据和算法来做); (b) 当用于离群点对象的集合时,你认为离群点检测算法将做何反应?
答:(a)在某些情况下,以统计学为基础的异常检测技术,在离群子集上使用这将是无效的
(b)一个对象是否异常取决于整个对象的集合。因此,期望一种异常检测技术能够辨别一个异常集合,就像原始集合中并不存在这样一个异常集合,这是不合理的。
相关推荐: