案例课1
一、归纳
统计学包括两部分内容:描述统计和推断统计 本门课的研究对象:单变量和双变量统计问题
本门课的内容结构 单变量 名义变量 描述统计 描述 运算 比例 =,≠ 顺序变量 比例、 >, < 间距变量(连续变量) 平均数、方差、标准差 +,- 双变量差异或关系 两个分类变量 交叉表(百分比) Phi,Lamda, Gama 卡方检验 一个分类一个间距 两或多个平均数比较、 方差分析 两个间距变量 简单回归 相关系数, F检验 推断统理论 计(区间应用 估计、假设检验) 抽样分布、中心极限定理 标准误,置信区间 t检验,F检验
二、统计学的核心:
1、推断统计,从样本向总体的过渡 假定已知总体: N = 4,
? X1 = 1 ? X2 = 2 ? X3 = 3 ? X4 = 4
总体平均数: N XiX?X2?X3?X41?2?3?4 ??i?1??2.5N44
N?4
实际上我们是得不到总体平均数的。我们是通过抽样,并用样本平均数来推断总体平均数。如果我们从总体中随机抽取2个样本,比如得到1和3两个数。那么样本的平均值:
?x??xi?1nin?1?3?2 2n?2我们的目的是要用样本平均数来估计总体平均数。想一想,我们是怎样从样本走到总体的?
我们面前有一条鸿沟。这条沟跨不过去,我们是估计不出来总体的。因此需要搭桥。
在总体中随机抽取两个数(样本为n=2),共有42 = 16 种可能的抽法。下面列出所有可能样本的结果。 Possible Sample 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Selection 1 x(1) 1 1 1 1 2 2 2 2 3 3 3 3 4 4 4 4 Selection 2 x(2) 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 Probability of Sample ? 1/16 1/16 1/16 1/16 1/16 1/16 1/16 1/16 1/16 1/16 1/16 1/16 1/16 1/16 1/16 1/16 Total = 1
我们得到了x的一个分布。下面来考察这个分布。 计算出 x 分布的频数表: x1 1.5 2 2.5 3 3.5 4 合计 出现的频数(个数) 1 2 3 4 3 2 1 16 Sample Mean x?x(1)?x(2)1.0 1.5 2.0 2.5 1.5 2.0 2.5 3.0 2.0 2.5 3.0 3.5 2.5 3.0 3.5 4.0 ??2
所有可能样本平均数 y S 的分布为 5/16 4/16 3/16 Probability2/16 2/16? 1/16 01
234Value of x
在实际中,我们不可能把所有样本都抽出来,而只能抽一次,即其中的一组样本。比如我们抽中了上面的第二组样本(1,3)。那么我们这里共有三种分布,以及三个平均数,三个方差。
这三个分布分别是总体分布,样本分布和所有可能样本平均数的分布。 样本值(x) 所有可能各组样本总体值(X) 分布 1 2 3 4 1 3 的平均数x的值 1.0 1.5 2.0 2.5 1.5 2.0 2.5 3.0 2.0 2.5 3.0 3.5 2.5 3.0 3.5 4.0 2.5 0.625 平均数 方差
2.5 1.25 2 2 当n增大时,这个分布将接近正态分布。比如,在90个学员中抽取9名学员共有909种可能的样本,或平均数,其分布就是稳定的。
中心极限定理告诉我们:所有可能样本平均数的分布是正态分布,其中所有可能样本平均数的平均数等于总体平均数,所有可能样本平均数分布的方差等于总体平均数除以样本规模。即:
E(x)?x???(x)?2?2(X)
n即 ?2(X)2x} ~N{x,?(x)}?N{?,n所有可能样本平均数的标准差为:
?(x)??(X)n 也叫标准误(Standard Error,简称为SE)。
我们不知道什么?我们不知道抽到的样本是哪一组,即不知道抽到的样本平均数是否能比较准确地接近总体平均数。
我们知道什么?所抽中的样本平均数落在总体平均数附近的概率(可能性)有多大。比如,全班作为总体,平均年龄为24岁(方差为9),抽中的样本得到的平均年龄为27岁。我们实际上可以计算出偏离实际平均年龄(24岁)三个年龄的可能性有多大。
如果把 x 的分布化为标准正态分布,则:
Standard Normal Distribution-6-5-4-3-2-10z-value123456z?x??27?24??1
?(x)9/9对于标准正态分布来说,0±z所围城的面积(概率)是固定并已知的。尽管我们并不知
道抽中的样本平均值会落到哪里,但我们会知道它落到任何位置上的可能性有多大。
2、单样本假设检验: ? 原假设:总体的平均年龄μ = 24岁
相关推荐: