PROC GCHART DATA=数据集;
VBAR|HBAR|PIE|STAR|BLOCK
/*垂直柱状图/水平柱状图/圆饼图/星形图/立体柱状图*/ 分类变量名列/选项;
/*DISCRET/*指定分类方式*/MIDPOINT=列举值/*指定分组中点*/ SUMVAR=变量名/*指定分析变量*/TYPE=FREQ|SUM|MEAN|PCT /*指定统计量(无SUMVAR时缺省为FREQ,否则为SUM )*/GROUP=变量名/*指定分组作图*/SUBGROUP=变量名/*指定柱内分组*/FILL=S(SOLID)|X(CROSS)/*设定饼图的花纹*/*/ LABEL ; 变量1= ‘label(标*签)’ ……;
/*控制表头显示,可使用起始中split=定义的方式美化表格*/ TITLE C=颜色 H=高度及单位 F=字体;
/*使用该语句控制表头显示可以最多有十个标注*/ FOOTNOTE C=颜色 H=高度及单位 F=字体;
RUN;
5:使用proc univariate、means、freq语句进行定量资料的统计描述
PROC UNIVARIATE DATA= 数据集名 options;
/*NOPRINT禁止统计报告在OUTPUT视窗中输出 PLOT 绘出茎叶图、箱式图和正态概率图FREQ 给出频数表 NORMAL 对变量进行正态性检验*/ VAR 变量名列 ;
BY 变量名列; /*排序*/ FREQ 变量名; WEIGHT 变量名; ID 变量名;
OUTPUT OUT= 数据集名
关键字= 新变量名列...
/*常用关键字有:基本统计量:N MEAN STD(标准差)CV(变异系数)SUM VAR(方差)RANG 百分位数描述: MIN P1 P5 P10 Q1 MEDIAN Q3 P90 P95 P99 MAX与假设检验有关的统计量有: STDMEAN(标准误) T */ pctlpts=百分位数, ... pctlpre=新变量名列; Run;
PROC MEANS [ DATA= 数据集名 选项 统计量关键字列表;
/*选项有:NOPRINT 禁止统计在OUTPUT视窗中输出 MAXDEC=n 给出列表输出的最大小数位数,缺省值为2*/ VAR 变量名列; BY 变量名列; CLASS 变量名列; FREQ 变量名; WEIGHT 变量名; ID 变量名列;
OUTPUT OUT= 数据集名 关键字= 新变量名列... ;
/*关键字有:基本统计量有: N MEAN STD(标准差)CV(变异系数)SUM VAR(方差)RANG MIN MAX;与假设检验有关的统计量有: STDERR(标准误) T PRT(与t对应的p值) LCLM(可信区间下限) UCLM(可信区间上限)*/ Run;
PROC FREQ data+;
TABLES 请求式/ 选项;
/* 常用选项有 ORDER=FREQ 按频数递减顺序排列 ORDER=DATA 按数据集中出现的顺序排列 ORDER=INTERNAL 按内部值排列(缺省) ORDER=FORMATTED 按外部格式值排列*/ WEIGHT 变量名; BY 变量名列; Run;
6:使用proc corr过程进行相关系数计算(相关关系散点图可以参照gplot语句)
PROC CORR DATA=数据集 OPTIONS;
/*PEARSON 计算皮尔逊相关系数(缺省值);SPEARMAN 计算斯皮尔曼等级相关系数;NOSIMPLE 不打印输出各变量的描述性统计量;NOPROB 省略检验统计量p-值;COV(COVARIANCE) 打印协方差矩阵;NOCCORR 储存时省略相关系数;OUTP=指定皮尔逊相关系数存储的数据集;OUTS= 指定斯皮尔曼相关系数存储的数据集*/ VAR 变量名列;
WITH 变量名列;/*计算with指定变量与var指定变量之间的相关系数*/ PARTIAL 变量名列; RUN;
7:使用proc reg过程进行回归分析
PROC REG DATA= 数据集名 OPTIONS;
/*SIMPLE 计算并打印各变量的基本描述性统计量;SXORR 打印各变量的相关行列式;NOPRINT不打印输出;OUTEST=数据集名 指定回归值输出的数据集;COVOUT=数据集名 将所估计的协方差阵存入数据集;OUTSSCP=数据集名 指定相关矩阵输出的数据集*/ VAR 变量名列; BY 变量名列; FREQ 变量名列;
MODEL 因变量=自变量/OPTIONS;
/*model语句的作用可分为以下四个方面:1.关于报表打印的选项NOPRINT不打印MODEL语句所界定的分析结果;ALL 打印MODEL语句所有分析结果*/
/*2.界定参数估计值的选项STB 打印标准化回归系数;COVB 输出估计值的协方差阵;VIF 输出方差膨胀因子;COLLIN 进行多元共线性分析*/
/*3.关于预测值、预测误差的选项P计算每一个观测值y的期望值及其标准误;R 在P选项的基础上对预测误差做进一步分析;CLI 输出单个预测值95﹪的置信区间;
CLM 输出预测值均值95﹪的置信区间;INFLUENCE 分析观测值对参数估计和模型预测值的影响*/
/*4.关于界定回归模型的选项SELECTION=none|forward|backward|stepwise|cp |rsquare|adjrsq 指定自动进行变量选择的方法;NOINT 规定回归模型中不包含截距项.*/
OUTPUT OUT=数据集名 关键字=新变量名列; RUN;
PROC GPLOT DATA=数据集 ; /*做回归图*/ PLOT 纵轴变量名*横轴变量名;
SYMBOL V=符号 C=颜色 I=none|rl|rq|rc 其他选项; RUN;
/*不加线 线性 二次 三次*/
相关推荐: