第一范文网 - 专业文章范例文档资料分享平台

数据的描述性分析

来源:用户分享 时间:2025/5/25 14:23:16 本文由loading 分享 下载这篇文档手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:xxxxxxx或QQ:xxxxxx 处理(尽可能给您提供完整文档),感谢您的支持与谅解。

三、数据的标准化

在计算了算术平均数和标准差之后,我们可以对一组数据中各个数值进行标准化处理,以测度每个数据在该组数据中的相对位置,并可以用它来判断一组数据是否有异常值。标准化数值是变量值与其平均数的离差除以标准差后的值,也称为z分数或标准分数。 设标准化数值为z,则有:

z?xi?x? (4.22)

【例4.16】如果有几个学生的考试分数是:99,85,73,60,45,16。计算其标准化数值。

【解】 假定已知算术平均数和标准差是:70.00 15.00,

然后根据公式(4.22)计算相应的标准化数值:1.93,1.00,0.20,–0.67,–1.61,–3.60。 标准分数给出了一组数据中各数值的相对位置。例如,99对应的标准分数为1.93,我们就知道该数值高于算术平均数1.93倍标准差。通常一组数据中高于或低于算术平均数三倍标准差的数值是很少的,即在算术平均数加减三个标准差的范围内几乎包含了全部数据,而在三个标准差之外的数据,统计上称为离群点。例如,16对应的标准分数为-3.60,它就是一个离群值。

标准化后数据就没有量纲了,但不会改变其在原序列中的位置。在对多个具有不同量纲的变量进行处理时,常常需要对变量数值进行标准化处理。如在第十一章中的主成分分析中就要用到数据标准化。

四、是非标志标准差

第二章我们提到过是非标志,它是按照某一个品种标志,将总体划分为具有某一特征和不具有某一特征的两组。

由于是非标志只有两种不同表现,故可用1表示具有某一特征的标志,用0表示不具有某一特征的标志。总体的个体总数用N表示,具有某一特征标志的个体数用N1表示,不具有某一特征标志的个体数用N0表示,则:N=N1+N0,这两部分个体数占总体中的个体总数的比重可表示如下:

??NN1,1???0 NNπ是一个比率,它表示具有某种特征的个体的数量占总体中个体总数的比重,我们称

之为总体成数。

是非标志的平均数为:???xf?f???1?(1??)?0????

??(1??)1标

是为:??非标

2 (4.23) 志的

?(x?x)?ff(1??)2???(0??)?(1??)???(1??)

??(1??) (4.24)

从上述计算可以看出,是非标志的标准差就是具有某一特征标志的单位数在总体中的比重和不具有某一特征标志的单位数在总体中的比重二者的乘积的平方根。

§3分布偏态与峰度的测度

集中趋势和离散程度是数据分布的两个重要特征,但要全面了解数据分布的特点,还需要掌握数据分布的形状是否对称、偏斜的程度以及扁平程度等。反映这些分布特征的测度值是偏态和峰度。

一、原点矩与中心矩

矩,又称为动差,来源于物理学中的“力矩”。物理学中力矩用以测定了的转动趋势,说明某一力点的作用力大小,它受作用力的大小和力臂的长度的影响。统计学中的“矩”是具有广泛意义的随机变量的数字特征。

1.原点矩

以标志值0点为原点或支点,以各组标志值为力臂的距离,以则构成统计的一阶原点矩,即:

f?f为作用力的大小,

Vk??(x?x)f?fkix2,x3,x4......xk(xi?x)

(4.27)

如果将作用力臂分别采用各变量值的不同次方,如,x2,x3,x4......xk则构成k阶原点矩,其一般式为:

?k2.中心矩

?fx??fk (4.28)

若我们把原点移到算术平均数处,以(xi?x)的各次方作为力臂的距离,以作用力的大小,则构成统计的k阶中心矩Vk,即:

?fifi为各

Vk??(x?x)f?fk (4.29)

在实际统计分析中,次数分布的一些统计特征值,如算术平均数和方差,可分别用一阶原点矩和二阶中心矩表示。在计算分布的特征状态—偏斜度和峰度时,需要计算三阶、四阶原点矩和中心矩。

二、分布的偏态

偏态(Skewness)是对分布偏斜方向和程度的测度。有些变量值出现的次数往往是非对称型的,如收入分配、市场占有份额、资源配置等。变量分组后,总体中各个体在不同的分组变量值下分布并不均匀对称,而呈现出偏斜的分布状况,统计上将其称为偏态分布。

利用众数、中位数和平均数之间的关系就可以判断分布是对称、左偏还是右偏,但要测度

偏斜的程度则需要计算偏态系数。统计分析中测定偏态系数的方法很多,一般采用矩的概念计算,其计算公式为三阶中心矩与标准差的三次方之比。具体公式如下:

??v3?3??(x?x)f?f?33 (4.30)

式中:为偏态系数。

从公式(4.30)可以看到,它是离差三次方的平均数再除以标准差的三次方。当分布对称时,离差三次方后正负离差可以相互抵消,因而?的分子等于0,则=0;当分布不对称时,正负离差不能抵消,就形成了正与负的偏态系数。当?为正值时,表示正偏离差值较大,可以判断为正偏或右偏;反之,?为负值时,表示负偏离差值较大,可以判断为负偏或左偏。

偏态系数的数值一般在0与±3之间,越接近0,分布的偏斜度越小;越接近±3,分布的偏斜度越大。

【例4.17】某管理局所属30个企业2005年3月份利润额统计资料如表4.9所示,要求计算该变量数列的偏斜状况。

【解】利用表4.9中有关数据计算标准差如下:

表4.9 偏斜系数计算示例表

利润额 (万元) 10—30 30—50 50—70 70—90 合 计 万元

企业数 f 2 10 13 5 30 组中值 x 20 40 60 80 — (x?x)f 2312 1960 468 3380 8120 ??2(x?x)f 3(x?x)f 2672672 384160 16848 2284880 5358560 4—78608 —27440 2808 87880 —15360 ???(x?x)?f32f?8120?16.4530

v3(x?x)???fv3f??15360??51230

???3??512??0.12 316.45计算结果表明该管理局所属企业利润额的分布状况呈轻微负偏分布。

三、分布的峰度

峰度(Kurtosis)是分布集中趋势高峰的形状。在变量数列的分布特征中,常常以正态分布为标准,观察变量数列分布曲线顶峰的尖平程度,统计上称之为峰度。如果分布的形状比正态分布更高更瘦,则称为尖峰分布;如果分布的形状比正态分布更矮更胖,则称为平峰分布。

测度峰度的方法,一般采用矩的概念计算,即运用四阶中心矩与标准差的四次方对比,以此来判断各分布曲线峰度的尖平程度。公式如下:

??v4?4?(x?x)?3??f?4f4?3 (4.31)

式中:?为峰度系数。

峰度系数是统计中描述次数分布状态的又一个重要特征值,用以测定邻近数值周围变量值分布的集中或分散程度。它以四阶中心矩为测量标准,除以?是为了消除单位量纲的影响,而得到以无名数表示的相对数形式,以便在不同的分布曲线之间进行比较。由于正态分布的峰度系数为0,当

>0时为尖峰分布,当

4

【例4.18】继续例4.17,要求计算该变量数列的峰度。 【解】根据表4.9中有关数据计算峰度系数如下:

??v4?4(x?x)??3??f?计算结果表明,上述企业间利润额的分布呈平顶峰度,各变量值分布较为均匀。

一、填空题

1、统计数据分布的特征,可以从三个方面进行测度和描述:一是分布的__________,反映所有数据向其中心值靠拢或聚集的程度;二是分布的__________,反映各数据远离其中心值的趋势;三是分布的__________,反映数据分布的形状。

2、算术平均数有两个重要数学性质:各变量值与其算术平均数的__________等于零;各变量值与其算术平均数的__________等于最小值。

3、简单算术平均是加权算术平均数的__________,事实上简单算术平均数也有权数存在,只不过各变量值出现的权数均_________。

4、几何平均数主要用于计算__________的平均。它只适合于__________数据。

5、在一组数据分布中,当算术平均数大于中位数大于众数时属于________分布;当算术平均数小于中位数小于众数时属于________分布。

6、__________是各变量值与其均值离差平方的平均数,是测度数值型数据__________最主要的方法。

7、为了比较人数不等的两个班级学生的学习成绩的优劣,需要计算__________;而为了说明哪个班级学生的学习成绩比较整齐,则需要计算________。

8、偏态是对分布__________和__________的测度;而峰度则是指分布集中趋势__________的形状。

二、判断题

1、根据组距式数列计算得到的算术平均数只能是一个近似值。( ) 2、众数的大小只取决于众数组相邻组次数的多少。( )

3、若已知甲数列的标准差小于乙数列,则可断言:甲数列算术平均数的代表性好于乙数列。( )

4、如果数据的分布没有明显的集中趋势或最高峰点,众数也可能不存在。( )

??4<0时为平顶分布。

f4?3?5358860?3?2.44?3??0.56

30?16.454习题

搜索更多关于: 数据的描述性分析 的文档
数据的描述性分析.doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
本文链接:https://www.diyifanwen.net/c0es137lz4y3h0qq03o8z_4.html(转载请注明文章来源)
热门推荐
Copyright © 2012-2023 第一范文网 版权所有 免责声明 | 联系我们
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:xxxxxx 邮箱:xxxxxx@qq.com
渝ICP备2023013149号
Top