?)?(Y?Y?)?min E?E?(Y?Y
即
E?E?(Y?XB)?(Y?XB)?min
由极值原理,根据矩阵求导法则,上式对B求导,并令其等于零,则得:
?E?E?(Y?XB)?(Y?XB)?(Y?Y?2Y?XB?B?X?XB)== ?B?B?B =-2(Y?X)??2(X?X)B=0 整理得回归系数向量B的估计值为:
??(X? BX)?1X?Y
3.4.3 回归系数向量估计值的统计性质
?具有线性性质。 1.回归系数向量B的估计值B?为Y的线性组合。 由式(5.2.2)可知,回归系数向量B的估计值B?是回归系数向量B的无偏估计量。 2.估计值B?的数学期望 回归系数向量估计值B?)?E[(X?E(BX)?1X?Y]
=E[(X?X)?1X?(XB?u)] =E[(X?X)?1X?XB?(X?X)?1X?u]
=E(B)=B
?是B的无偏估计。 可见B?具有最小方差性 3.回归系数向量估计值B?的协方差 回归系数向量估计值B?,B??)?E[(B??B)(B??B)?] COV(B??B=(X?因为BX)?1X?(XB?u)-B
=(X?X)X?u
?1?,B??)=E[(X?X)X?uuX(X?X)] 故COV(B?1'?1 =(X?X)X?E(uu)X(X?X)
2 =(X?X)X??uIX(X?X)
?1?1?1'?1 =(X?X)?1?u2
?的方差,其余元素为回归系数向量估式中矩阵主对角线上的元素为回归系数向量估计值B
17
?的协方差。可以证明,回归系数向量估计值B?具有最小方差性,此处从略 计值B3.4.4 多元线性回归模型的检验
?常用的检验方法有 ?1.R检验法 ?2.F检验法 ?3. t检验法
?4.DW检验法。
在建立多元线性回归模型的过程中,为进一步分析回归模型所反映的变量之间的关系是否符合客观实际,引入的影响因素是否有效,同样需要对回归模型进行检验。
1.R检验法
R检验法是通过复相关系数检验一组自变量x1,x2,?,xm与因变量y之间的线性相关程度的方法,又称复相关系数检验法。与一元线性回归模型类似,可以通过对总变差的分解
?i)??(y?i?y)?Q1?Q2 ?(yi?y)??(yi?y222得到多元线性回归模型之R2的计算公式。上式右边的第二项Q2称为回归变差(或称回归
?i之间的变差,这一变差由自变量x1,x2,?,xm的变动平方和),回归平方和反映了yi与y而引起,是总变差中由自变量x1,x2,?,xm解释的部分,它的大小反映了自变量,它是由x1,x2,?,xm的重要程度;等式右边的第一项Q1称为剩余变差(或称残差平方和)观测或实验中产生的误差以及其他未加控制的因素引起的,反映的是总变差中未因变量
x1,x2,?,xm解释的部分。即
总变差=剩余变差+回归变差
与一元回归分析一样,也可以利用Q2在总离差中所占的比重表示多元线性回归模型的复可决系数R。
R22?(y???(yii?y)?y)22?)(y?y??1??(y?y)iii22
它可以用来衡量因变量y与自变量x1,x2,?,xm之线性相关关系的密切程度。
R?1?2?i)?(yi?y2?(yi?y)2
称为复相关系数。这里R说明在y的总变差中,由一组自变量x1,x2,?,xm变动所引起的变差所占的百分比;R则描述一组自变量x1,x2,?,xm与因变量y之间的线性相关程度。它们所体现是一组自变量对因变量的影响程度及其线性相关程度,所以,这里分别称它们
为复可决系数和复相关系数。
与相关系数检验法一样,复相关系数检验法的步骤为:(1)计算复相关系数;(2)根据回归模型的自由度n-m和给定的显著性水平?值,查相关系数临界值表;(3)判别。
在实际工作中,复相关系数的计算常用其简捷形式,如对于二元和三元的情形,其简
18
捷形式分别如式所示:
R?1??yi???y???xy???xy?yi?ny1i222ii33i22???1i22ii33ii222???i
R?1??yi???y???xy???xy???xy?yi?ny44i?i
由于R是一个随自变量个数增加而递增的增函数,所以,当我们对两个具有不同自变量个数但性质相同的回归模型进行比较时,就不能只用R作为评价回归模型优劣的标准,还必须考虑回归模型所包含的自变量个数的影响。因此,就需要定义一个经过校正的R,记为
222R2:
R?1?这里,n-m是剩余变差
222?i)(n?m)?(yi?y2?(yi?y)(n?1)22
?i)的自由度,n-1是总变差?(yi?y)的自由度。由?(yi?y22此可见,R中体现了自变量个数m的影响。根据上式可得R与R之间的关系式如下:
R2=1-(1-R2)
从式可以看出:
n?1 n?m(1)当m>1时,R (2)尽管R总是非负的,但R却可能为负。若遇到R为负数的情况,R取值为零。 2.F检验 222222222F检验是通过F统计量检验假设H0:?1??2????m?0是否成立的方法。 (1)F统计量。 F?式中的m-1是回归变差?(y?2?i?y)?(y?i)?(yi?y2(m?1)(n?m)2 的自由度,n-m i?y)是剩余变差?(y?i?yi)2的自由度。 可以证明F统计量服从第一自由度为m-1,第二自由度为n-m的F分布。故对给定的显 著性水平?,查F分布表可得临界值F?(m?1,n?m)。若 F>F?(m?1,n?m) 则否定假设H0,认为一组自变量x1,x2,?,xm与因变量y之间的回归效果显著;反之,则不显著。一般来讲,回归效果不显著的原因有以下几种: 19 ① 影响y的因素除了一组自变量x1,x2,?,xm之外,还有其他不可忽略的因素; ② y与一组自变量x1,x2,?,xm之间的关系不是线性的; ③ y与一组自变量x1,x2,?,xm之间无关。 这时,回归模型就不能用来预测,应分析其原因另选自变量或改变模型的形式。 (2)F统计量与可决系数、相关系数的关系。从式中我们可以推导出三者的关系: R2n?m? F? 21?Rm?1 R?(m?1)F (n?m)?(m?1)F同样,F分布的临界值与相关系数临界值也具有上述等式关系。 3.t检验 前述的R检验和F检验都是将所有的自变量作为一个整体来检验它们与因变量y的相关程度以及回归效果,而t检验则是通过t统计量对所求回归模型的每一个系数逐一检验假设H0:?j?0,j?1,2,?,m是否成立的方法。 (1)t统计量 tj???jS??j j?1,2,?,m ?为第j个自变量的回归系数;S?是??的样本标准差。 式中?jj?xjj(2)t检验的步骤 ①计算估计标准误差 S??i)?(yi?yn?m2 对于二元和三元情形,估计标准误差的简捷公式分别为 S??yi22?????1?y??2?x2iy??3?x3iyiii n?3S??yi??????1?y??2?x2iy??3?x3iy??4?x4iyiiiin?4 ②计算样本标准差,由式可知 S???Cjj?S j?1式中Cjj为矩阵(X?X)主对角线上的第j个元素。 20
相关推荐: