第一部分 基础知识
一、开篇的话
如果你现在对中央各部委的公信力进行抽样调查——样本尽可能“网罗”多一点老百姓,我们几乎可以肯定,国家统计局的公信力,一定是最差之中的前三名。相信你会大致赞同我的这一推断。理由是:每次国家统计局公布一些与老百姓的紫米油盐酱醋茶住有关的统计指标,往往是赢得举国哗然,如:2009年全国房价同比上涨1.9%(谁信?),2010年第三季度的CPI为3.51%(可能统计局的人不食人间烟火),2009年全国城镇职工的平均工资近3万元(年)(被增长)等,这一连串的与老百姓的日常生活息息相关,但与老百姓的感受感觉天壤之别的统计数据,使统计局的公信力荡然无存。所以,天津夏季达沃斯论坛上,国家统计局局长马建堂也就非常尴尬的面对中外媒体的质询,并担率地承认,统计工作有待改善。
可以毫不冤枉地说,统计局的统计数据,大多是察言观色,人工合成的结果,也算是中国特色之一吧。
但,现代生活中又离不开统计。翻开形形色色的媒体,有哪种媒体离得开统计,如菜价、米价、棉价、房价、离婚率、老龄人口比率、交通事故率等。既然官方的统计数据不令咱们民间人士相信,咱们就得放出眼光,自己来拿,用我们的智慧,来加工原始统计数据,得出为我所用的结果,至少能让自己相信吧。
但愿此次培训,能增长你的见识,开阔你的视野,有助于你的工作。 二、二个著名的案例
(1)在统计调查与分析的历史上,有号称泰坦尼克号事件的一次事故,该事故说的是,在1936年的美国总统大选前夕,由一名叫《文学摘要》的杂志组织了一次总统候选人的民意调查,发出了近1000万张问卷调查表,向调查对象调查共和党候选人兰登和民主党候选人罗斯福谁将在总统竞选中获胜,调查的结果与实际结果的吻合程度如何呢?您看下表吧!
候选人 Roosevelt Landon 预测结果% 43 57 选举结果% 62 38 反差为什么如此之大,抽取的调查对象近1000万张啊!不可谓不多了。照这样看来,谁还信统计!统计就是希望窥一斑而推全貌啊。
1
实际上,这次失败不能归罪于统计,恰能证明它未能用好统计,在调整数据的收集上,犯了统计上应避免的毛病——样本的代表性不足,该杂志社发出的问卷调查表是通过电话簿和车辆登记簿上的名单发出的,在当时,美国正处于30年代的经济衰退时期,电话和汽车只有少数富人拥有,而这个阶层的代表主要是有钱的共和党人,自然而然,共和党人当然会预测本党派的候选人兰登获胜,民意测意只能更多程度上反映了共和党人的意向,一旦大选实战展开,两位候选人面对的是全体选民,有倾向性的民意调查结果不能代表总体的分布结构,也就无足为怪了前段时间的巴西总统大选,又是一个最新版本。
启示:样本上的选择,决定了统计推断的质量。
(2)如果说上面的案例是一个海外版,下面的案例则是一个中国版。老外关注民主政治,中国人只能关注自己的温饱问题了,故事是这样的:20世纪50年代,国家想了解职工户的收入水平和支出情况,从理论上讲,该如何抽样呢?答:以全部职工户的名单为抽样框,但这样做的抽样费用太大,转而抄了个捷径,以样本城市中的样本行业和企业中的职工名单作为样本选取,这样一来,职工多的家庭被抽中的概率大于职工少的家庭,抽样的结果会使样本中多职工的家庭的比例高于总体中多职工家庭的比例(请注意样本和总体的称呼),考虑到当时的历史背景,家庭收入的主要来源是成员的工资收入,可以想象,调查得出的平均收入高于实际的平均收入,套用现在的时髦话,工资被增长了,为使您有个印象,特选个例子让您看看:
设某城市有5万户职工家庭,共有10万个职工,按每个家庭的职工人数分组及分组的人均收入如下表:
家庭职工人数 1 2 3 4 职工户 户数 20 000 15 000 10 000 5 000 占总数% 40 30 20 10 职工人数 人数 20 000 30 000 30 000 20 000 占总数% 20 30 30 20 每户人均收入 600 800 1 000 1 200 若以户为总体单元的抽样框采用等概率抽选,样本户的构成应该与该市职工户的构成基本接近,因此全市职工户的人均收入为
y户?600?0.4?800?0.3?1000?0.2?1200?0.1?800
若以职工人数的名单作抽样框,则抽中的样本户构成与职工人数的构成相接近,
2
因此全市职工户的人均收入为
y职工?600?0.2?800?0.3?1000?0.3?1200?0.2?900
两者的差别900?800?100,就是由于以职工名单为抽样框而带来的偏误。 三、案例引发的思考——如何收集统计数据 在统计上,选取样本的方法大致有 (1)简单随机抽样
一般地,设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n?N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样(simple random sampling)。
评:抓阄就是曲型的简单随机抽样,但愿我国民主有一天也能达到这个境界:人人都有同等机会被选为人大代表、国家主席。
(2)系统抽样(也称等距抽样或机械抽样)
定义:将总体单元按某种顺序排列,按照规则确定一个随机起点,然后每隔一定的间隔逐个抽取样本单元,这种抽选方法称作系统抽样。
系统抽样也有多种抽样方法,最简单与最常用的是直线等距抽样。方法是将总体
N的N个单元按直线排列,根据欲抽取的样本量n计算抽样间隔K?,在1~K中抽
n取一个随机数,设为r,以后每隔K个单元抽取一个单元。样本单元的序号分别为
r?jk(j?0,1,?,n?1)
(3)分层抽样
一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样(stratified sampling)。
分层抽样中涉及到一个分层的问题,这要求事先对总体有所了解,握有总体的各种信息,分层时才能尽可能使层的结构与总体结构保持一致性,提高样本的代表性。
(4)整群抽样
定义:在总体中由若干单元自然或人为地组成的群体称作群,抽样时以群作为抽样单位而不是以总体单元作为抽样单位,对抽中各群的所有总体单元进行观察,这种抽样称作整群抽样。
3
四、一份“于无声处听惊雷”的问卷调查
在统计调查中,问卷的设计是一门很大的学问。特别是对一些敏感性问题,例如学生在考试中有无作弊现象,社会上的偷税漏税等,更要精心设计问卷,设法消除被调查者的顾虑,使他们能够如实回答问题。否则,被调查者往往会拒绝回答,或不提供真实情况。下面我们用一个例子来说明对敏感性问题的调查方法。
问题1:你的父亲阳历生日日期是不是奇数? 问题2:你是否经常吸烟?
调查设计了一个随机化装置,这是一个装有大小、形状和质量完全一样的50个白球和50个红球的袋子。每个被调查者随机从袋中摸取1个球(摸出的球再放回袋中),摸到白球的学生如实回答第一个问题,摸到红球的学生如实回答第二个问题,回答“是”的人往一个盒子中放一个小石子,回答和“否”的人什么都不要做。由于问题的答案只有“是”和“否”,而且回答的是哪个问题也是别人不知道的,因此被调查者可以毫无顾虑地给出符合实际情况的答案。
请问:如果在200人中,共有58人回答“是”,你能估计出此地区中学生吸烟人数的百分比吗?
解:由题意可知,每个学生从口袋中摸出1个白球或红球的概率都是0.5,即我们期望大约有100人回答了第一个问题。另100人回答了第二个问题,在摸出白球的情
186况下,回答父亲阳历生日日期是奇数的概率是?0.51。因而在回答第一个问题的
365100人中,大约有51人回答了“是”。所以我们能推出,在回答第二个问题的100人中,大约有7人回答了“是”。即估计此地区大约有7%的中学生吸烟。
这种方法是不是很巧妙?这也是一种软实力的体现。国家之间的竞争,最终一定体现为软实力的竞争!
五、“首先要掌握事实,然后你可以随意歪曲它们——马克·吐温” ——如何表达统计数据
前面已介绍了如何收集统计数据。假定你已拿到了原始的统计数据,如何去根据研究、目的要求,表达数据也就成了一个随之而来的问题,下面介绍的几中方法本着“一张图胜过一本书”的精神而形成。
(1)饼形图 (3)茎叶图
(2)散点图 (4)直方图
这几种图形表达中,只有直方图稍显复杂一点(讲课时附以介绍)
4
第二部分 对统计数据的代数描述
一、数据的集中趋势测度
所谓集中趋势,即向某个中心数据集中的趋势,常用的指标有: (1)平均值
x??xi?1nin
这个指标是一种数据的“象征”值,但也是一个广受诟病的指标,有人不客气的说,这是一种苹果和梨子的混合术,毛病是显而不易见的。所以,大家也看到各种竞技比赛中,有主持人的说词:去掉一个最高分,去掉一个最低分,该选手的最终得分是??。
(2)中位数
这个指标是如此得到的:将数据按升序或降序排列观测值后,处于中间数值,直观地说,中位数将样本数据分为相等的两部分(个数)。
中位数的计算简单,但它的用处比较大。下面举例并评价。 例:样本数据:5,7,4,5,20,6,2 (a)计算样本的中位数m
(b)去掉样本的最后一个观察值(2),求新中位数m。 解:(a)将数据按升序排列,为: 2,4,5,5,6,7,20 中位数 m?5
(b)去掉“2”后,序列为: 4,5,5,6,7,20
没有严格意义上的中位数,此时,取中间两个观察值进行平均,得
m?(5?6)2?5.5
中位数的评价:当数据的被动幅度较大时,平均值易受极端值的影响,而中位数则不受极端的影响,如上例的(a),几乎任何一个值都聚集在m?5附近,但(a)若算平均,则有x?7,与“中心”的印象差远了。
5
搜索“diyifanwen.net”或“第一范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,第一范文网,提供最新医药卫生富士康统计培训 全文阅读和word下载服务。
相关推荐: