相关系数:两列变量间相关程度的数字表现形式
作为样本的统计量用r表示,作为总体参数一般用ρ表示。 正相关:两列变量变动方向相同 负相关:两列变量中有一列变量变动时,另一列变量呈现出与前一列变量方向相反的变动
零相关:两列变量之间没有关系,各自按照自己的规律或无规律变化 1.积差相关
也就是Pearson相关。
(1)前提
①数据要成对出现,即若干个体中每个个体都有两种不同的观测值,并且每队数据与其它对子相互独立
②两列变量各自总体的分布都是正态的,至少接近正态 ③两个相关的变量是连续变量,也即两列数据都是测量数据 ④两列变量之间的关系应是直线性的
(2)公式
r?SP?SSXSSY?xy?x??y22?X?Y??XY?N?X2X????N2??Y2Y????N2 r也就等于X和Y共同变化的程度除以X和Y各自变化的程度。 2.等级相关
也就是Spearman相关
(1)适用范围
①当研究考察的变量为顺序型数据时,若原始数据为等比货等距,则先转化为顺序型数据 ②当研究考察的变量为非线性数据时
(2)公式
将原始数据转化为顺序型数据,仍然用Pearson相关公式计算即可。
3.肯德尔等级相关 (1)肯德尔W系数
也叫肯德尔和谐系数,原始数据资料的获得一般采用等级评定法,即让K个被试对N件实物
进行等级评定。其原理是评价者评价的一致性除以最大变异可能性。
W??Ri2???R?i2123K?N?N?12N
Ri代表评价对象获得的K个等级之和
N代表等级评定的对象的树木 K代表等级评定者的数目
(2)肯德尔U系数#
其与肯德尔W系数所处理的问题相同,但评价者采用对偶比较法,即将N件事物两两配对分别进行比较
U?8??rij?K?rij2N(n?1)?K(K?1)??1
rij为对偶比较记录表中i>j格中的择优分数 4.点二列相关与二列相关 (1)点二列相关
适用于一列数据为等距正态变量,另一列为离散型二分变量。
rpb?Xp?Xqst?pq Xp是与二分称名变量的一个值对应的连续变量的平均数 Xq是与二分称名变量的另一个值对应的连续变量的平均数
p与q是二分称名变量两个值各自所占的比率 st是连续变量的标准差
(2)二列相关
适用于两列变量都是正态等距变量,但其中一列变量被人为地分成两类。
Xp?Xqpq rb??styy为标准正态曲线中p值对应的高度,查正态分布表能得到
5.Ф相关
适用于两个变量都是只有两个点值或只表示某些质的属性。
r??ad?bc?a?b??a?c??b?d??c?d?
其中a、b、c、d分别为四格表中左上、右上、左下、右下的数据 二、推断统计
推论统计就是指运用一系列的数学方法,将从样本数据中获得的结果推广到样本所在的总体。进行推论统计的关键在于所抽取的样本要能够尽量接近所要研究的总体。 (一)推断统计的数学基础 1.概率
概率:表明随即时间出现可能性大小的客观指标
概率的定义包含以下两种,当观测次数够多时他们是相等的。
后验概率:对随机事件进行n次观察,某一事件A出现的次数m与观测次数n的比值在n趋近无穷时所稳定在的常数p 先验概率:在满足试验可能结果数有限且每一种结果出现的可能性相等的条件下,随机事件包含的结果数除以结果总数 2.正态分布
当样本量足够大时,我们会发现生活中许多变量的分布都近似于正态曲线,因此有“上帝偏爱正态分布”一说。
(1)特点
①正态曲线的形状就像一口挂钟,呈对称分布,其均值、中数、众数实际上对应于同一个数值
②大部分的原始分数都集中分布在均值附近,极端值相对而言比较少 ③曲线两端向靠近横轴处不断延伸,但始终不会与横轴向交
④正态分布曲线转化为z分数后人以z分数与零点对应曲线下面积固定
(2)用法
①依据Z分数求概率,即已知标准分数求面积 ②从概率求Z分数,即从面积求标准分数值
③已知概率或Z值,求概率密度,即正态曲线的高 3.二项分布
二项分布:对于一个事件有两种可能A和B,但我们对这一事件观察n次,事件A发生的总次数的概率分布就是二项分布
二项分布的均值为??pn 方差公式为??npq 标准差的公式为??
4.抽样原理与抽样方法 (1)抽样原理
抽样的基本原则是随机性原则,所谓随机性原则,是指在进行抽样时,总体中每一个个体是否被抽选的概率完全均等。由于随机抽样使每个个体有同等机会被抽取,因而有相当大的可能使样本保持和总体有相同的结构,或者说,具有最大的可能使总体的某些特征在样本中得以发现,从而保证由样本推论总体。
(2)抽样方法 ①简单随机取样法 ②系统随机取样法 ③分层随机取样法 ④多段随机取样法 5.抽样分布
样本分布:样本统计量的分布,是统计推论的重要依据
(1)正态分布及渐近正态分布
样本统计量为正态分布或者接近正态分布的情况都可根据正态分布的概率进行统计推论。
总体分为正态或接近正态,方差已知,样本平均数和方差的分布为正态分布 ①样本平均数分布的平均数和方差与母体的平均数和方差有如下关系:
2npq ?X?????X?2X?2n
?n②样本的方差及标准差的分布也渐趋于正态分布,其分布的平均数与标准差和总体有如下关系:
Xs??Xs2??2?s??2n?s2??2
2n
(2)t分布
t分布是一种与方差无关而与自由度有关的分布,很类似正态分布,我们可以将正态分布看作t分布当自由度为正无穷时的特例。
总体分布为正态,方差未知时,样本平均数的分布为t分布:
?X?
SSsn?1 其中sn?1?
n?1n(3)χ2分布
χ2分布的构造是从一个服从正态分布的总体中每次抽去n个随机变量,计算其平方和之后
标准化的一个分布。分布曲线下的面积都是1,但伴随着n取值的不同,自由度改变,曲线分布形状不同,而当自由度趋近于正无穷时χ2分布即为正态分布,因此其于t分布一样都是一族分布,而正态分布都是其中的特例。
?2?
??X????22
(4)F分布
如果有两个正态分布的总体,我们从其中各自取出两个样本,各自计算出χ2,则:
?12F?2?2df1df2
更多情况下,我们所计算的F两样本取自相同总体,此时可将上式化简为:
F?2sn1?12sn2?1
(二)参数估计
当在研究中从样本获得一组数据后,如何通过这组信息,对总体特征进行估计,也就是如何从局部结果推论总体的情况,称为总体参数估计。总体参数估计问题可以分为点估计与区间估计。
1.点估计、区间估计与标准误
良好估计量的标准
①无偏性——用多个样本的统计量估计总体参数的估计值,其偏差的平均数为零 ②有效性——当总体参数的无偏估计不止一个统计量时,无偏估计变异小者有效性高,变异大者有效性低,即方差越小越好
相关推荐: