《应用多元统计分析》
课 程 实 验 报 告
实验名称: 利用回归法分析山东省农村居民收入的消费分配
学生班级: 统计学院统计0901班
学生姓名:王冬冬、王鹏、王莉、王璐
指导老师: 张艳丽___________________________________
完成日期: 2011-12-10
一、 实验内容
本文通过分析研究更深一步了解山东省农村居民生活水平。实验中充分利用了回归分析、聚类分析等多种分析手段。先通过收入支出的时间序列模型的分析给出了从2000到2009年的农村收入支出呈现的增长趋势,以及城乡之间的对比;然后利用聚类分析说明了收入支出的地区差异。然后利用回归分析建立了山东省农村居民收入与支出之间的模型,试图寻找出农村居民收入的消费分配现状,即单位收入的支出方向问题。文档来自于网络搜索 二、 实验目的
通过本实验主要想达到三个目的:
1、利用山东省统计年鉴中有关农村居民收入支出的数据,结合多元统计方法,熟练掌握聚类分析和回归分析的原理及其基本步骤;文档来自于网络搜索 2、希望通过本次实验充分掌握和运用多元统计分析的统计方法,能够利用基本的统计软件如Eviews、Spss等软件处理分析数据,并对结果作出合理的解释。文档来自于网络搜索 3、了解近几年来山东省农村居民收入支出的基本状况,其中包括城乡差距问题和居民收入的消费分配问题,进而掌握山东省农村居民的基本生活状况,为我省经济的长远发展提供依据。文档来自于网络搜索 三、 实验方法背景和原理
Ⅰ、聚类分析的背景和原理 1.聚类分析的定义
聚类分析是统计学中研究“物以类聚”问题的多元统计分析方法。聚类分析又称群分析,它是研究对样品或指标进行分类的一种多元统计方法。所谓的“类”,通俗地说就是相似元素的集合。文档来自于网络搜索 2.聚类的方法分类
聚类分析的内容十分丰富,按其聚类的方法可分为以下几种:系统聚类法、调优法、最优分割法、模糊聚类法、图论聚类法、聚类预报法。本文中应用的是系统聚类法:开始每个对象自成一类,然后每次将最相似的两类合并,合并后重新计算新类与其他类的距离或相近性测度,这一过程一直继续直到所有对象归为一类为止。并类的过程可用一张谱系聚类图描述。文档来自于网络搜索 3.系统聚类法的基本步骤
(1)计算n个样品两两间的距离,得样品间的距离矩阵D(0)。类与类之间的距离本文应用
的是类平均法。所谓类平均法就是:两类样品两两之间平方距离的平均作为类之间的距离,
2即: Dpq?1npnqi?Gp,j?Gq?2采用这种类间距离的聚 dij类方法,称为类平均法。文档来自于网络搜索 (2).初始(第一步:i=1)n个样本各自构成一类,类的个数k=n,第t类Gt?X(t)(t=1,2···,n)。此时类间的距离就是样品间的距离(即D(3)对步骤i得到的距离矩阵D(i?1)(1)??。文档来自于网络搜索 ?D(0))
,合并类间距离最小的两类为一新类。此时类的总个数
k减少1类,即k=n-i+1.文档来自于网络搜索 (4)计算新类与其他类的距离,得新的距离矩阵D(0)。若合并后类的总个数k扔大于1,重新步骤(3)和(4);直到类的总个数为1时转到步骤(5)。文档来自于网络搜索 (5)画谱系聚类图;
(6)决定总类的个数及各类的成员。
Ⅱ、回归分析的背景和原理
1.回归分析的基本原理
回归分析是研究两个或多个变量之间关系的统计分析方法,在实际问题中,因变量 y 往往不是只与一个变量有关,而是和多个变量x1,x2,L,xp有关 ,设文档来自于网络搜索 y??0??1x1??2x2?L??pxp?? (3.1)
其中?0,?1,L,?p是p+1个未知参数,?0,称为回归常数,?1,L,?p称为回归系数,y为被解释变量(因变量),而x1,x2,Lxp是p个可以精确测量并可控制的一般变量,称为解释变量(自变量),ε 是随机误差.称文档来自于网络搜索 E(y)= ?0??1x1??2x2?L??pxp (3.2) 为理论回归方程。
对一个实际问题我们获的n组观测数据(xi1,xi2,Lxip;yi),i?1,2,L,n,则线性回归模
?y1??0??1x11??2x12?L??px1p??1??y2??0??1x21??2x22?L??px2p??2型(3.2)可表示为? (3.3)
?M?y????x??x?L??x??01n12n2pnpp?p写成矩阵形式为y?X???
(3.4)
??0???1??x1p???????1M?,????,???2?
?M??M??xnp????????p??n???μ,使得回归的残差平方和函数SSE(?)最小二乘原理就是求一个参数向量?的估计??y1??1x11??y2?其中y???,X??MO?M??1x??n1?y?n?取得最小值
SSE(?)?(Y?X?)(Y?X?)
由微分求极值法及矩阵微商有:
?SSE(?)?12XY?2X'X??0
??''得到正规方程组XX??XY
若XX非退化,则得?的最小二乘解
?=(XX)XY ?的估计?=2'?1'SSE(?)
n?p?12. 模型的基本假定及检验
为了方便进行模型的参数估计,做如下基本假定:
①.解释变量是确定性变量,不是随机变量.并且要求 rank ( X ) = p + 1< n,它表明设计矩阵是满秩的.文档来自于网络搜索 2 / 19
?E(?i)?0.i?1,2,L,n?②.对随机误差项假定 ???2,i?j(i,j?1,2,L,n)
?cov(?i,?j)??0,i?j??这个假定称为高斯-马尔科夫条件。
2???i?N(0,?),i?1,2,L,n③.正态分布的假定为?
???1,?2,L,?n相互独立对于多元线性回归的矩阵形式这个条件可以表示为
?~N(0,?2In)
2由此可以得到Y~N(X?,?In),其中In是单位阵。)
为了验证是否能做到基本假定,所以需要做回归模型的显著性检验: ①F检验
对多元回归方程的显著性检验就是要看自变量x1,x2,Lxp从整体上对随机变量y是否有明显的影响,故提出原假设
H0:?1??2?L??P?0 构成F统计量
SSR/P
SSE/(n?p?1)SSRSSE,MSE?并且称MSR?为均方回归和均方误差,他们都是误差项?i的方差pn?p?1 F??2的估计量,但两者的性质有差别。MSR总是?2得无偏有效估计量,而MSR只当原假设成2立时才会是?的有效估计量,则将趋于无穷。假设成立时统计量服从自由度(p,n-p-1)的F分布。对事先给定的显著性水平?确定临界值F??F?(p,n?p?1)或者计算F对应的相伴概率值p。若F?F?或p,就拒绝原假设,认为回归方程显著,自变量与因变量之
间存在显著的线性关系。文档来自于网络搜索 ②t检验
在多元回归中,回归方程显著并不意味着每个自变量对因变量的影响都显著,因此需 要对每个系数进行显著性检验.故提出原假设
H0:?i?0(i?1,2,L,p) 由y~Np?1(?,?(XX)),记(XX)=(cij),(i,j=0,1,2,L,p)则
2'?1'?1E(?i)??i,var(?i)?cii?2,?i~N(?i,cii?2),(i?0,1,2,L,p)
nnμ11?2i因此构造t统计量为 ti? ,其中??ei?(yi?yi)2??n?p?1i?1n?p?1i?1cii?是标准回归差。
在原假设成立时,统计量ti服从自由度为n-p-1的t分布。对于给定的显著性水平?,查处双侧检验的临界值t?/2。当t?t?/2(n?p?1),或者t值所对应的相伴概率值p??,就拒绝原假设,认为该系数对应的自变量与因变量之间存在显著的线性关系。否则,就接受原假设,认为该自变量与因变量之间不存在显著性的线性关系。文档来自于网络搜索 ③拟合优度检验
拟合优度检验用与检验回归方程对样本观测值的拟合程度,定义样本决定系数时,就需要对R加以修正,理由方差之比得调整后的R为文档来自于网络搜索
22R2?1?3 / 19
SSE/(n-p-1)
SST(/n-1)
相关推荐: