探索性数据分析:箱线图
?极差(range,简写为R)是一个描述数据分散性的统计量:?分位数(quantile)是另一种利用数据的位序描述数据特征的统计量。设p是介于0到1之间的一个数值,有0≤p≤1,有n个位序统计量,则p分位数定义为?[np]表示n×p的整数部分,x的下标是数据位序上的位置,x(np)表示该位序位置上的数值。最常用的分位数是p=0.75和p=0.25,记为Q3、Ql,其含义是小于Q3和Ql的数据的个数分别占数据总数的75%和25%。又分别称为上、下四分位数。探索性数据分析:箱线图
?2.异常数据、极端数据
–异常数据(outlier)是产生均值不稳健的原因,判别一个数据列中的数据是否为异常值,需要一个标准,探索性数据分析技术给出了一种简单的判别方法。记A1、A3分别为异常数据的下、上截断点,则–即非异常数据的分布区间为–数据列中的数据如果大于上截断点或小于下截断点都是异常数据。异常数据的分布区间分别为–在异常数据中还可进一步地分离出极端数据(extremedata)分布区间为探索性数据分析:箱线图
探索性数据分析:箱线图
?3.箱线图(Boxplot)
–箱线图也称箱须图(Box-whiskerPlot),用于反映一组或多组连续型定量数据分布的中心位置和散布范围;–图中,矩形表示上、下四分位数之间的数据分布,中间的横线为中位数的位置,有时中位数的位置用小的方形符号“□”来表示;–从矩形的两端各画一条直线到非异常值的最大和最小数值点,这条线称为须线(whisker),在这一点各画一条和须线垂直的短画线表示非异常的最大和最小值的位置;–在最大、最小值之外的异常值用“○”表示,极端值则用星号“*”表示。探索性数据分析:箱线图
相关推荐: