学习必备 欢迎下载
愈远,频数愈少,形成一个中间多,两侧逐渐减少的对称分布。是一种连续型分布。又称高斯分布.
正态分布用N(μ ,σ)表示,其位置与均数有关,形状与标准差有关。 标准正态分布:
为了应用方便,常将式进行变量变换,即:u变换. 所得到的新变量u的分布即为标准正态分布。
u的含义:变量到均数间的距离相当于标准差的倍数。
u变换后,μ=0,σ=1,使原来的正态分布变换为标准正态分布(standard normal distribution)亦称u分布。 正态分布的特征和分布规律:
(1)曲线在x轴的上方,与x轴不相交,当x=μ时,曲线位于最高点。 f(u=0)=0.3989 (2)曲线关于直线x=μ左右对称。
(3)正态分布有两个参数:均数,标准差;标准正态的参数分别为:0, 1。 (4)正态分布的面积分布有一定规律。 正态曲线下面积的分布规律
正态曲线下,横轴上一定区间的面积,等于该区间的频数发生的概率(即所有随机事件发生的概率)。
正态曲线下面积的分布规律的应用: 一、确定医学参考值范围
意义:是正常人指标测定值的波动范围,可用于划分正常,或异常。
步骤:1、抽样 2、控制测量误差 3、取单侧或双侧 4、选定合适的百分界限 5、资料正态性检验 6、进行参考值估计 补充:
常用方法:正态分布法(正态分布),对数正态分布法(对数正态分布或近似正态分布),百分位数法(偏态分布) 二、确定概率分布 三、质量控制
第四章 均数的抽样误差和 t分布 一、均数的抽样误差和标准误
均数的抽样误差sampling error of mean
由于总体中存在个体变异,抽样研究中所抽取的样本,只包含总体中一部分个体,因而样本均数(或率)往往不等于总体均数(或率),样本均数之间也互不相等,这种由抽样引起的差异称为均数的抽样误差。
用样本均数的标准差来估计,称标准误(standard error)。即总体标准差和样本例数的比值,通常以样本标准差作为总体标准差的估计值
标准误越大,均数的抽样误差越大,样本均数与总体均数间的差异越大。
S
是方差的平方根。
说明一组数据在其X周围的分散情况(变异程度)。 反映X对这组数值的代表性。
区别
SX
是均数的标准差。
说明一组均数在“均数的均数”(≈总体
均数)周围的分散情况。
反映用样本均数代表总体均数的可靠性。
表示抽样误差的大小。
学习必备 欢迎下载
标准误的应用
1、用来衡量抽样误差的大小:
标准误越小,样本均数与总体均数越接近,样本均数的可信度越高;
2、结合标准正态分布与 t 分布曲线下的面积规律,估计总体均数的置信区间。 3、用于假设检验。
二、t 分布(t-distribution) —— 标准化的均数的分布 t分布曲线特征:
? t分布是一簇对称于0的单峰分布曲线。 ? 自由度越小(相当于标准差大),曲线的中间越低,两边越高;随自由度增大, t
分布曲线逐渐逼近于标准正态分布曲线。
? 当自由度无穷大时, t分布就是标准正态分布曲线。 ? 每一条t分布曲线,都对应于相应的自由度。 t分布曲线下的面积规律:
与标准正态曲线下的面积规律相似:
? 在某一个自由度下,两侧外部总面积为5%的界限的t值称为t0.05/2(υ),把两侧
外部总面积为1%的界限的t值称为t0.01/2(υ)。
? 因此,中部占95%面积的t值范围:t0.05/2(υ)-- t0.05/2(υ),
中部占99%面积的t值范围:t0.01/2(υ)-- t0.01/2(υ)。
使用t值表注意:
? 同一自由度下, P越小,t值越大;P值相同时,自由度越大,t越小;当自由度无
穷大时,t值与u值相等。这也是u分布与t分布的区别。
t分布的主要应用:
? 总体均数置信区间估计; ? t检验;
三、总体均数置信区间的估计
? 统计推断:参数估计,假设检验 ? 参数估计:
? 点估计(point estimation):用样本统计量作为对总体参数的估计值(μ) 。比如
均数的估计。
? 区间估计(interval estimation):根据选定的置信度估计总体均数所在的区间(a<
μ
置信度(confidence level):
? 在估计总体均数的置信区间时,如果可能估计错误的概率为α ,那么估计正确的
概率为1-α , 即为置信度. 常用: 95%, 99%.
置信区间(confidence interval, CI) 根据置信度估计得到的区间,称为置信区间。区间两端的界限值即置信限 置信区间估计方法:
? 1、总体标准差已知参照u分布
? 2、总体标准差未知,样本例数(>50)足够大,也可参考u分布进行
? 3、总体标准差未知,样本例数较小,按t分布原理,依据自由度,查出某个概率
相应的t界值
95%置信区间的意义:
? 理论上,用一次抽样所得的样本均数估计总体均数,犯错误的概率为5%.
? 或进行100次抽样,可算得100个置信区间,平均有95个置信区间包括客观存在
学习必备 欢迎下载
的总体均数,只有5个置信区间未包括总体均数。
置信区间与正常值范围:
95%正常值范围一般是指同质总体内包括95%个体值的估计范围, 若总体为正态分布X?1.96S
95%置信区间是指按照95%置信度估计的总体参数的可能范围,
常按照下式计算X?1.96SX。
前者用标准差,后者用标准误。 第五章 假设检验,u, t-检验 假设检验基本思想:
? 先对总体的参数或分布作出某种假设,如假设总体均数(或总体率)为一定值,两
总体均数(或总体率)相等,总体服从正态分布或两总体分布相同等。
? 然后,用适当方法根据样本对总体提供的信息,推断此假设应当拒绝或不拒绝。其结果将有助于研究者作出决策,采取措施
假设检验步骤:
1、建立检验假设和设定检验水准
无效假设(null hypothesis) H0:假设差异仅由抽样误差所致,而两个总体参数
相同。是从反证法的思想提出的。
备择假设(alternative hypothesis), H1: 即差别不仅是由抽样误差所致,而且
总体参数不同。
H1是和H0相联系的,对立的假设。
确定检验水准(size of a test)
也叫显著性水准(significance level):用α表示。即:拒绝了实际上成立的H0的概率;一般取0.05,或0.01. 2、计算统计量
根据研究设计类型,资料特征,统计方法的适用条件,选择和计算统计量。 3、确定概率P值,作出统计推断结论
计算统计量后,判断在H0成立条件下,出现该统计量或更大统计量的概率。
如果P大于α,是接受H0的区间;如果大于或等于界值的范围,P小于或等于α,是拒绝H0的区间。 双侧,单侧检验:
根据专业知识, μ可能大于,也可能小于 μ 0,称双侧检验;若认为μ大于、等于不可能小于 μ 0(或相反),为单侧检验。
若不能确定单侧的情况,应采用双侧检验。
在同一t值的界限上单侧检验的概率仅相当于双侧检验概率的一半。因此,总体均
数间确有差别时,单侧检验比双侧检验更易得出差别有统计意义的结论。对同一资料进行检验,有可能双侧检验无统计意义而单侧检验有统计意义。但用单侧还是双侧检验,必须事先根据专业知识予以确定,不能等到计算完t值以后再主观选定 选择原则: ? 双侧检验永远是正确的 ? 单侧检验只有在少数情况下才是合适的 ? 即使要做单侧检验,也必须事先确定 ? 单侧检验:有某种倾向时使用; ? 双侧检验:没有任何倾向;
学习必备 欢迎下载
第一类错误与第二类错误
假阳性错误(false positive error),统计上称为第一类错误(type I error),用α表示。
即无效假设(H0:u=u0)是正确的,但被拒绝,误判为有差别(弃真错误)。 统计学上定P≤0.05为有意义,即在统计推断上允许犯假阳性错误的概率为5%。
当无效假设正确时,在100次抽样中,可以有5次推断是错误的。同样,如果定P≤0.01为有意义,即犯假阳性错误的概率为1%。
故统计学上有意义的界限实际上就是允许犯第一类错误的界限。
假阴性错误(false negative error),统计学上称为第二类错误(type II error)。
即无效假设(H0:u=u0)不正确,实际上应是H1:u≠u0,但算得的统计量t没有超过t0.05的水平从而接受了无效假设,错误地得出无差别的结论(取伪错误)。 用?表示。 I类错误:虽然无效假设为真,但由于抽到了较大(检验统计量)的样本,使得P值小
于检验水准而导致被拒绝。
II类错误:虽然无效假设为假,但由于抽到了较小(检验统计量)的样本,使得P值
大于检验水准而导致不被拒绝。
第一类错误减小,第二类错误的概率就增大了。
? 选择统计学意义水平,应考虑两类错误对所要研究事物的影响哪一个重要。 一般来说,定0.05为有统计学意义的水平是比较适宜的。其他条件不变,增大样本含
量可使第二类错误的概率减小。同时正确的实验设计能够减少抽样误差,提高检验效能。
相关推荐: