第四章 多重共线性 思考题
4.1 多重共线性的实质是什么 ? 为什么会出现多重共线性 ? 4.2 多重共线性对回归参数的估计有何影响 ?
4.3 多重共线性的典型表现是什么 ? 判断是否存在多重共线性的方法有哪些 ? 4.4 针对出现多重共线性的不同情形 , 能采取的补救措施有哪些 ?
4.5 在涉及相关的宏观经济总量指标如 GDP 、货币供应量、物价总水平、国民总收入、就业人数等时间序列的数据中一般都会怀疑有多重共线性 , 为什么 ?
4.6 多重共线性的产生与样本容量的个数n、解释变量的个数k是有无关系 ? 4.7 具有严重多重共线性的回归方程能否用来进行预测 ? 4.8 岭回归法的基本思想是什么 , 它对降低共线性有何作用 ? 4.9 以下陈述是否正确 ? 请判断并说明理由。
1) 在高度多重共线性的情形中 , 要评价一个或多个偏回归系数的单个显著性是不可能的。 2) 尽管有完全的多重共线性 ,OLS 估计量仍然是BLUE。
3) 如果有某一辅助回归显示出高的Rj值,则高度共线性的存在是肯定无疑的。 4) 变量的两两高度相关并不表示高度多重共线性。 5) 如果其他条件不变 ,VIF越高 ,OLS估计量的方差越大。
6) 如果在多元回归中,根据通常的t检验,全部偏回归系数分别都是统计上不显著的 ,你就不会得到一个高的R值。
7) 在 Y 对
22?)增大 , 在极端的情形下 , 如果全部X3值都相X2 和X3的回归中 , 假如X3的值很少变化 ,这就会使Var(?3?)将是无穷大。 同 ,Var(?3 练习题
4.1 假设在模型Yi8) 如果分析的目的仅仅是预测 , 则多重共线性是无害的。
??1??2X2i??3X3i?ui中 ,X2与X3之间的相关系数为零 , 于是有人建议你进行以下回归。
Yi??1??2X2i?u1i Yi??1??3X3i?u2i
?且??3=???为什么 ? ?2=?是否存在?23?会等于??1或??1或两者的某个线性组合吗 ? 2) ?1?)且Var(??)=Var(??3)? ?2)且Var(?3) 是否有Var(?234.2 在决定一个回归模型的 \最优 \解释变量集时人们常用逐步回归的方法,在逐步回归中既可采取每次引进一个解释变量的程序 ( 逐步向前回归 ), 也可以先把所有可能的解释变 量都放在一个多元回归中 , 然后逐一地将它们剔除 ( 逐步向后回归 ) 。加进或剔除一个变量 , 通常是根据 F 检验看其对 ESS 的贡献而做出决定的。根据你现在对多重共线性的认识 , 你赞 成任何一种逐步回归的程序吗 ? 为什么 ?
4.3 表 4.11 给出了中国商品进口额 Y 、国内生产总值 GDP 、消费价格指数 CPI 。
年份 1985 1986 表 4.11 中国商品进口额、国内生产总值、消费价格指数
商品进口额/亿元 1257.8 1498.3 国内生产总值/亿元 8964.4 10202.2 居民消费价格指数(1985年为100)/% 100 106.5 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 1614.2 2055.1 2199.9 2574.3 3398.7 4443.3 5986.2 9960.1 11048.1 11557.4 11806.5 11626.1 13736.4 18638.8 20159.2 24430.3 34195.6 11962.5 14928.3 16909.2 18547.9 21617.8 26638.1 34634.4 46759.4 58478.1 67884.6 74462.6 78345.2 82067.5 89468.1 97314.8 105172.3 117251.9 114.3 135.8 160.2 165.2 170.8 181.7 208.4 258.6 302.8 327.9 337.1 334.4 329.7 331 333.3 330.6 334.6 资料来源 : 中国统计年鉴 .2004. 中国统计出版社 ,2004 请考虑下列模型
lnYt??1??2lnGDPt??3lnCPIt?ui
1)利用表中数据估计此模型的参数。 2) 你认为数据中有多重共线性吗 ? 3) 进行以下回归
lnYt?A1?A2lnGDPt?v1i
lnYt?B1?B2lnCPIt?v2ilnGDPt?C1?C2lnCPIt?v3i根据这些回归你能对数据中多重共线性的性质说些什么 ?
?和??在5%水平上个别的显著 , 并且总的 F 检验也是显著的。对这样的情形 , 我们是否应考虑共线性4)假设数据有多重共线性 , 但?23的问题 ?
4.4 自己找一个经济问题来建立多元线性回归模型 , 怎样选择变量和构造解释变量数据矩阵 X 才可能避免多重共线性的出现 ? 4.5 克莱因与戈德伯格曾用 1921-1950 年 (1942-1944 年战争期间略去 ) 美国国内消 费 Y 和工资收入X1、非工资一非农业收入
X2、农业收入X3的时间序列资料 , 利用OISE估计得出了下列回归方程 :
?=8.133+1.059X+0.452X+0.121X Y123 (8.92)(0.17)(0.66)(1.09)
R=0.95 F=107.37
2括号中的数据为相应参数估计量的标准误差。试对上述模型进行评析 , 指出其中存在的问题。
4.6 理论上认为影响能源消费需求总量的因素主要有经济发展水平、收入水平、产业发展、人民生活水平提高、能源转换技术等因素。为此 , 收集了中国能源消费标准煤总量 Y( 万 t) 、国民总收入水 平 )( 亿元 ) 、工业增加值
X1(代表收入水平 )( 亿元 ) 、国内生产总值 GDPX2( 代表经济发展
X3( 亿元 ) 、建筑业增加值X4( 亿元 ) 、交通运输邮电业增加值 X5( 代表产业发展水平及产业结
构 )( 亿元 ) 、人均生活电力消费
X6(kW·h)( 代表人民生活水 平提高 ) 、能源加工转换效率X7 ( 代表能源转换技术 )(%) 等
1985-2002 年统计数据 , 具 体见表 4.12 。
表 4.12 1985-2002 年统计数据
能源消年份 费 y 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 76682 80850 86632 92997 96934 98703 103783 109170 115993 122737 131176 138948 137798 132214 130119 130297 134914 148222 国民 总收入 X1 8989.1 10201.4 11954.5 14922.3 16917.8 18598.4 21662.5 26651.9 34560.5 46670 57494.9 66850.5 73142.7 76967.2 80579.4 88254 95727.9 103935.3 GDP X2 8964.4 10202.2 11962.5 14928.3 16909.2 18547.9 21617.8 26638.1 34634.4 46759.4 58478.1 67884.6 74462.6 78345.2 82067.5 89468.1 97314.8 105172.3 工业 X3 3448.7 3967 4585.8 5777.2 6484 6858 8087.1 10284.5 14143.8 19359.6 24718.3 29082.6 32412.1 33387.9 35087.2 39047.3 42374.6 45975.2 建筑业 X4 417.9 525.7 665.8 810 794 859.4 1015.1 1415 2284.7 3012.6 3819.6 4530.5 4810.6 5231.4 5470.6 5888 6375.4 7005 交通运输邮电 X5 406.9 475.6 544.9 661 786 1147.5 1409.7 1681.8 2123.2 2685.9 3054.7 3494 3797.2 4121.3 4460.3 5408.6 5968.3 6420.3 人均生活 电力消费 X6 21.3 23.2 26.4 31.2 35.3 42.4 46.9 54.6 61.2 72.7 83.5 93.1 101.8 106.6 118.1 132.4 144.6 156.3 能源加工 转换效率 X7 68.29 68.32 67.48 66.54 66.51 67.2 65.9 66 67.32 65.2 71.05 71.5 69.23 69.44 70.45 70.96 70.41 69.78 资料来源:中国统计年鉴 .2004. 中国统计出版社 ,2004
要求 :
1) 建立对数线性多元回归模型。
2) 如果决定用表中全部变量作为解释变量 , 你预料会遇到多重共线性的问题吗 ? 为什么 ? 3) 如果有多重共线性 ,你准备怎样解决这个问题 ? 明确你的假设并说明全部计算。 4.7 本章引子提出“农业和建筑业的发展会减少财政收入吗 ?” 所采用的数据如表 4.13所示。
表 4.13 1978-2003 年财政收人及其影响因素数据 年份 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 财政收入(亿元)CS 1132.3 1146.4 1159.9 1175.8 1212.3 1367 1642.9 2004.8 2122 2199.4 2357.2 2664.9 2937.1 农业增加值 (亿元)NZ 1018.4 1258.9 1359.4 1545.6 1761.6 1960.8 2295.5 2541.6 2763.9 3204.3 3831 4228 5017 工业增加值 (亿元)GZ 1607 1769.7 1996.5 2048.4 2162.3 2375.6 2789 3448.7 3967 4585.8 5777.2 6484 6858 建筑业增加值(亿元)JZZ 138.2 143.8 195.5 207.1 220.7 270.6 316.7 417.9 525.7 665.8 810 794 859.4 总人口(万人)TPOP 96259 97542 98705 100072 101654 103008 104357 105851 107507 109300 111026 112704 114333 最终消费(亿元)CUM 2239.1 2619.4 2976.1 3309.1 3637.9 4020.5 4694.5 5773 6542 7451.2 9360.1 10556.5 11365.2 受灾面积(万公顷)SZM 50760 39370 44530 39790 33130 34710 31890 44370 47140 42090 50870 46991 38474 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 3149.48 3483.37 4348.95 5218.1 6242.2 7407.99 8651.14 9875.95 11444.08 13395.23 16386.04 18903.64 21715.25 5288.6 5800 6882.1 9457.2 11993 13844.2 14211.2 14552.4 14472 14628.2 15411.8 16117.3 17092.1 8087.1 10284.5 14143.8 19359.6 24718.3 29082.6 32412.1 33387.9 35087.2 39047.3 42374.6 45975.2 53092.9 1015.1 1415 2284.7 3012.6 3819.6 4530.5 4810.6 5231.4 5470.6 5888 6375.4 7005 8181.3 115823 117171 118517 119850 121121 122389 123626 124761 125786 126743 127627 128453 129227 13145.9 15952.1 20182.1 26796 33635 40003.9 43579.4 46405.9 49722.7 54600.9 58927.4 62798.5 67442.5 55472 51333 48829 55043 45821 46989 53429 50145 49981 54688 52215 47119 54506 资料来源:中国统计年鉴 2004. 中国统计出版社 ,2004
试分析 : 为什么会出现本章开始时所得到的异常结果 ? 怎样解决所出现的问题 ?
第四章
1. 什么是多重共线性?产生多重共线性的经济背景是什么?
答:Page76~77
2. 简述检验多重共线性的方法思路。Page81 3. 多重共线性的主要影响是什么?Page78~79
4. 答:(1)不完全共线性时,仍然是?的无偏估计,但是其方差会随着共线性程度的增大而增大,其t—检验可能失效。
(2)可以用简单相关系数矩阵法、变量显著性与方程显著性的综合判断、辅助回归等方法检验。。。。(简述检验步骤)
5. 答:(1)回归式1中存在有多重共线性。logK的先验符号应该是正号,因为一般应该是投入资金越多,产出应该越大,两者是同
方向变动的。但是回归式中logK的系数却是负号,可知,回归式1中存在有多重共线性。从经济意义上看,劳动和资金具有密切的相关关系,两者之间存在有共线性。
(2)回归式1中,logK的先验符号应该是正号,因为一般应该是投入资金越多,产出应该越大,两者是同方向变动的。结果与预期不一致,是受共线性的影响所致。
(3)通过变换,式2消除了共线性的影响,各个系数符号与经济意义一致,F检验显著。可决系数较高(对时间序列数据来说,0.65已经很高了)
(4)增加趋势变量的作用在于:考虑技术进步的影响。 6. 答:回归结果为:
Dependent Variable: Y
Method: Least Squares
Date: 05/02/03 Time: 20:37
Sample: 01 10
Included observations: 10
Variable Coefficient Std. Error t-Statistic Prob. X1 0.568425 0.716098 0.793781 0.4534
X2 -0.005833 0.070294 -0.082975 0.9362
C 24.55158 6.952348 3.531408 0.0096
R-squared 0.962099 Mean dependent var 111.0000
Adjusted R-squared 0.951270 S.D. dependent var 31.42893 S.E. of regression 6.937901 Akaike info criterion 6.955201
Sum squared resid 336.9413 Schwarz criterion 7.045976
Log likelihood -31.77600 F-statistic 88.84545 Durbin-Watson stat 2.708154 Prob(F-statistic) 0.000011
(1)从表中看到,回归系数符合经济意义,t检验不显著,可决系数和修正后的可决系数很大,f检验显著。可见回归式中存在多重共线性。从经济意义上分析,可支配收入和财富之间具有很强的相关关系。从以下的简单相关系数矩阵也可以看出可支配收入和财富之间具有很强的相关关系(简单相关系数达到0.99)
思考与练习
??
相关推荐: