2. 数据汇总Summarizing Data
频数分布与图形展示
本章和下一章讨论有关统计描述的问题。关于收集、组织、展示数值数据的方法。其中包括描述各种数据分布,各种统计图形的使用,描述数据的各种指标,如平均值、期望值、方差等等。
2.1 频数分布Frequency distribution
为了进行决策或推断,我们需要信息。例如,为了进行制定有关销售方面的决策需要了解员工的实际销售情况,或者说要获得有关销售的信息。获得了数据以后,就需要对数据进行组织,也就是将数据组织成容易观察的形式。然后就是展示数据,通常都是以图形的方式。最后就可以得出关于这一组数据的结论,并将这些结论用于决策。
一种常用的方式是首先获得一组原始数据。将这组数据组织成数组,即将数据从大到小或从小到大进行排序。然后将其总结成一组频数分布。也就是将这一数组按一定的间隔进行计数,清点出位于每一间隔中的数据出现的次数。这样就获得了频数表或频数分布。
频数分布就是一张显示一组数据位于每一独立区间间隔内的次数的数据表格。频数分布也称为频数表。
频数分布又可以划分为定性数据的频数分布和定量数据的频数分布。一般我们主要对定量数据进行频数分布研究。
为了建立一频数分布,我们需要确定: ? 间隔的数量,
? 间隔的长度(或宽度),
? 间隔的边界,或者说是划分间隔的位置 然后我们就可以清点落在每一间隔中的数值。 例:
PP28表2-2显示了一个频数分布。 确定间隔长度(或宽度)的公式为:
估计的间隔长度?最大值?最小值
间隔数量在此,如果间隔数量选为8,则间隔的长度应该为:
估计的间隔长度?96500?26000?8.813
8当然,这个数值看起来不太好,所以可以取整为9000或10000。
如果我们不能确定应该用多少个间隔数量,则可以通过下列估计间隔长度的公式进行计算:
间隔数长度?对于书中第27页表2-1中的例题,
最大值?最小值
1?3.322Log(样本数)间隔数值?96500?260001?3.322Log(160)
70500??84711?3.322*2.20419983
然后是确定间隔的边界,通常我们以观察值中的最小值作为下界,最大值作为上界。 最后进行清点,即可得到频数分布表。
根据频数分布表可以作出分布图形,这种图形常用直方图的形式表示。
注意,如果上述参数估计的不合适,作出的图形会有多峰现象出现,也就是说难以准确描述对象的特征。
2.2 相对频数分布
由于我们已经有了绝对频数值,因此可以计算出相对频数值出来。如PP32表2-5所示。
2.3 频数分布的图形展示
通过频数分布表,可以得到频数分布图Histogram,如PP36图2-2所示。
2.4 茎叶图(Stem and leaf display)
频数图在显示数值时有一定的局限性,如对于下列频数表,
新雇员的年龄 20-30 30-40 40-50 50-60 60-70
频数 7 21 4 2 1
相关推荐: