统计
随机抽样
1:简单随机抽样
(1)总体和样本
①在统计学中 , 把研究对象的全体叫做总体. ②把每个研究对象叫做个体.
③ 把总体中个体的总数叫做总体容量.
④ 为了研究总体的有关性质, 一般从总体中随机抽取一部分: , , , 研究, 我们称它为样本.其中个体的个数称为样本容量.
(2)简单随机抽样,也叫纯随机抽样。就是从总体中不加任何分组、划类、 排队等, 完全随机地抽取调查单位。 特点是: 每个样本单位被抽中的可能性相同 (概率相等),样本的每个单位完全独立,彼此间无一定的关联性和排斥性。简 单随机抽样是其它各种抽样形式的基础。 通常只是在总体单位之间差异程度较小 和数目较少时,才采用这种方法。
(3)简单随机抽样常用的方法:
①抽签法②随机数表法③计算机模拟法③使用统计软件直接抽取。
在简单随机抽样的样本容量设计中, 主要考虑:①总体变异情况;②允许误 差范围;③概率保证程度。
2:系统抽样
(1)系统抽样(等距抽样或机械抽样) :
把总体的单位进行排序, 再计算出抽样距离, 然后按照这一固定的抽样距离 抽取样本。第一个样本采用简单随机抽样的办法抽取。 体规模) /n (样本规模)
前提条件: 总体中个体的排列对于研究的变量来说,应是随机的,即不存在 某种与研究变量相关的规则分布。 可以在调查允许的条件下, 从不同的样本开始 抽样,对比几次样本的特点。 如果有明显差别, 说明样本在总体中的分布承某种 循环性规律,且这种循环和抽样距离重合。
K (抽样距离)=N (总
2)系统抽样,即等距抽样是实际中最为常用的抽样方法之一。因为它对 抽样框的要求较
低,实施也比较简单。更为重要的是,如果有某种与调查指标相 关的辅助变量可供使用,总体单元按辅助变量的大小顺序排队的话,使用系统抽 样可以大大提高估计精度。
3:分层抽样
(1) 分层抽样(类型抽样):
先将总体中的所有单位按照某种特征或标志(性别、年龄等)划分成若干类 型或层次,然后再在各个类型或层次中采用简单随机抽样或系用抽样的办法抽取 一个子样本,最后,将这些子样本合起来构成总体的样本。
两种方法:
① 先以分层变量将总体划分为若干层,再按照各层在总体中的比例从各层中 抽取。 ② 先以分层变量将总体划分为若干层,再将各层中的元素按分层的顺序整齐 排列,最后用系统抽样的方法抽取样本。
(2) 分层抽样是把异质性较强的总体分成一个个同质性较强的子总体,再 抽取不同的子总
体中的样本分别代表该子总体,所有的样本进而代表总体。
分层标准:
① 以调查所要分析和研究的主要变量或相关的变量作为分层的标准。 ② 以保证各层内部同质性强、各层之间异质性强、突出总体内在 结构的变量作为分层变量。
③ 以那些有明显分层区分的变量作为分层变量。
样本容量 各层样本容量
(3) 分层的比例问题:抽样比=个体容量 各层个体容量
① 按比例分层抽样:根据各种类型或层次中的单位数目占总体单位 数目的比重来抽取子样本的方法。
② 不按比例分层抽样:有的层次在总体中的比重太小,其样本量就会非常 少,此时采用该
方法,主要是便于对不同层次的子总体进行专门研究或进行相互 比较。如果要用样本资料推断总体时,则需要先对各层的数据资料进行加权处理, 调整样本中各层的比例,使数据恢复到总体中各层实际的比例结构。
4:用样本的数字特征估计总体的数字特征
(1) 样本均值: n-Xi X X2 Xn
s
(2) 样本标准差:
(Xi x)2 (X2 x)2
n
(Xn X)2
(3) 众数:在样本数据中,频率分布最大值所对应的样本数据(可以是多
个)。
(4) 中位数:在样本数据中,累计频率为时所对应的样本数据值(只有一
个)。
注意:
①如果把一组数据中的每一个数据都加上或减去同一个共同的常数, 不变
② 如果把一组数据中的每一个数据乘以一个共同的常数 的k倍
③ 一组数据中的最大值和最小值对标准差的影响,区间 用;
“去掉一个最高分,去掉一个最低分”中的科学道理
(X 3s
标准差
k,标准差变为原来
,X 3s)的应
5、用样本的频率分布估计总体分布
(1)频率分布表与频率分布直方图
频率分布表盒频率分布直方图,是从各个小组数据在样本容量中所占比例 大小的
角度,来表示数据分布规律,它可以使我们看到整个样本数据的频率分布 情况。
具体步骤如下:
第一步:求极差,即计算最大值与最小值的差?
第二步:决定组距和组数:组距与组数的确定没有固定标准,需要尝试、选 择,力求有合适的组数,以能把数据的规律较清楚地呈现为准
?太多或太少都不
好,不利对数据规律的发现?组数应与样本的容量有关,样本容量越大组数越多?
极差
般来说,容量不超过100的组数在5至12之间.组距应最好“取整”,它与组距 有关.
极差
极差
注意:组数的“取舍”不依据四舍五入,而是当组距不是整数时,组数=[组距] +1. ② 频率分布折线图:连接频率分布直方图中各个小长方形上端的重点,就 得到频率分布折线图。
③ 总体密度曲线:总体密度曲线反映了总体在各个范围内取值的半分比, 能给我们提供更加精细的信息。
(2)茎叶图:茎是指中间的一列数,叶是指从茎旁边生长出来的数。
它
6:变量间的相关关系:自变量取值一定时因变量的取值带有一定随机性的 两个变量
之间的关系交相关关系。对具有相关关系的两个变量进行统计分析的方 法叫做回归分析。
(1)回归直线:根据变量的数据作出散点图,如果各点大致分布在一条直 线的附近,就称这两个变量之间具有线性相关的关系, 这条直线叫做回归直线方 程。如果这些点散布在从左下角到右上角的区域, 我们就成这两个变量呈正相关; 若从左上角到右下角的区域,则称这两个变量呈负相关。
相关推荐: