基于R对国内各省、市、区GDP与主要经济指标的回归分析
学号:107551300678 班级:地矿学院(“三矿”专业)
摘要: 基于对2012年国内生产总值的数据分析,找出我国GDP 与多个指标,尤其是对投资、消费、出口等基本指标的依赖关系,运用相关分析和回归分析方法,建立回归模型,找出我国GDP的增长受社会固定资产依赖性较强,尤其是东部的山东省,也受制于出口收入,而我国消费水平依然不高的问题并为之提出改进措施和经济发展的预测,对国家各地区经济的科学发展建言献策 关键词: R语言、相关分析、回归分析、中国GDP
1 引言
在当前复杂多变的国际经济形势下,我国国民生产总值(GDP)依然保持较快发展,国民生产总值是一个综合指标,依赖于多个指标的良性组合。世界各国都十分重视GDP结构问题的研究。本文基于对2012年国内生产总值的数据分析,找出我国GDP 与多个指标,尤其是对投资、消费、出口等基本指标的依赖关系,建立回归模型,尝试着探索出我国GDP 存在的结构性问题和不足之处,并为之提出改进措施和经济发展的预测,对国家各地区经济的科学发展建言献策!
2.数据与分析方法
姓名: 杨 治 峰
2.1.数据描述性统计
2.1.1.数据源的格式化处理
R软件在读入excel数据源的时候,必须先对数据源进行格式化处理和调整才可以达到R软件的读取标准。如表头的单行单列、文字间空格符号的消除等,调整完后,依据个人习惯将数据存入txt文本格式,命名为“ryuan.txt”。 2.1.2.数据的读取
> A=read.table(\> A
#解析变量成y,x1,x2,x3,x4,x5,x6,x7,;
X=A[,c(1,4,2,9,6,8,3)] X
y=A[,c(1)]#地区生产总值(亿元) y
y2=A[,c(4)]#人均地区生产总值(元) y2
x1=A[,c(2)]#社会固定资产投资(亿元) x1
x2=A[,c(9)]#出口总额(亿美元) x2
x3=A[,c(6)]#城镇人均消费支出(元) x3
x4=A[,c(8)]#农民人均消费支出(元) x4
x5=x3+x4#各地区人均消费总额(元) x5
x6=A[,c(3)]#各地区居民消费价格指数 x6
B=data.frame(\地区生产总值(亿元)\社会固定资产投资(亿元)\出口总额(亿美元)\各地区人均总额(元)\
2.1.3.对读入的数据进行描述性统计。
根据研究需要,先将数据进行结构性分析,找出解释变量和被解释变量,并将其按列抽取出来,做解析变量,方便之后分析统计工作对变量的调取。再通过R软件的强大功能对数据进行相关的的描述性统计,初步了解选取数据的各项指标,如数据类型、数据量纲等,可以清晰的看到数据如各行和各列的和、最大值、最小值、平均值、数据排序、数据方差、标准差、判断数据是否符合正态分布,更利于对数据的整体把握,找到自己想要了解的特定的数据属性。
2.2数据可视化
2.2.1.定量变量分析
定量变量的基本特征,最简单的展现定量数据的图形应该属于直方图hist函数 Hist(y)#国内生产总值的直方图
定量变量间的
关系,描述两个变量之间的关系的最有用的指令是散点图plot的函数,他是R中最强大的绘图函数。 plot(y,x1,plot(y,x1,cex=1.3,lwd=2,col=2,pch=15,xlab=\地区生产总值(亿元)\社会固定资产投资(亿元)\)
#地区生产总值与社会固定资产投资散点图
从上图可以看出,国民生产总值与社会固定资产投资有较强的相关关系,国民生产总值增加,社会固定资产也相应增加。
plot(x3,x4,cex=1.6,lwd=3,col=6,xlab=\城镇人均消费支出(元)\农民人均消费支出(元)\
#城镇人均消费支出与农民人均消费支出
从上图可以看出,城镇居民人均消费支出于农民人均消费支出也呈现很强的线性相关关系,城镇居民人均消费支出增加,农民人均消费支出也增加,表明全国人均消费支出各地区同步增长,当然我们也可以看到全国各地区域间消费差距较大,城乡之间消费差距较大,甚至是数倍的差距。
同理,我们依次可以做出国民生产总值与出口总额、社会人均消费、居民消费价格乃至整个的散点矩阵图。并从散点图形中判别出相关关系。
pairs(C,cex=1.5,lwd=2,pch=16,col=4)#多元线性相关散点矩阵图
cor(C)#多元线性相关系数矩阵
地区生产总值 社会固定资产投资 出口总额 各地区人均总额 地区生产总值 1.0000000 0.8838913 0.7970525 0.4771797 社会固定资产投资 0.8838913 1.0000000 0.4593596 0.1895959 出口总额 0.7970525 0.4593596 1.0000000 0.6163032 各地区人均总额 0.4771797 0.1895959 0.6163032 1.0000000 boxplot(X)#箱尾图
箱尾图可以较清晰地表示出数据的分布特征,从上图可以看出,每项指标都有异常值,在GDP总值里,广东、江苏、山东名列三甲;在人均生产总值里,天津特别突出,远高于其他省份。在人均消费支出里,北京、上海二市突出出来。新疆在消费价格指数位方面是唯一的异常值,表明其在本方面表现为全国最高!
barplot(y,main=\全国各地区GDP条形图\)#条形图
条形图是一种非常直观的数据表达形式,从本图中可以形象的看出全国各省市GDP数据大小。广东、江苏、山东条形最高,产值最大。 barplot(apply(X,2,mean))#均值条形图
相关推荐: