? use 与 save是一对调用STATA系统数据文件和以STATA系统格式 存盘的命令;infile 和 outfile也是一对调用外部文本数据文件和以 文本文件格式存盘的命令。Infile 变量名 using 文件 outfile x using e:\\b.txt 与infile、outfile区别是有无变量名(如xy)outsheet using e:\\b.txt
? 如果是excel格式,则excel另存为csv格式文件 ? drop _all 清除以上所有数据
? 产生新的变量:STATA 命 令:gen 新变量名=表达式
? 修 改 数 据:STATA 命 令:replace 变量名= 表 达 式[if 逻辑表达式] 。例replace x=1 if x>=100&x<200. replace x=. if x==200。在 逻 辑 表 达 式 中:“ 等 于” 用== 表 示;“不 等 于” 用~= 表 示;“或” 用| 表 示;“ 并 且” 用& 表示。
? Summarize 变量(简写sum 变量);summarize 变量, detail(简写sum 变量,d)
? sort group(以group变量为例从小到大排序) ? by group:summarize x() Stata中常用的命令
命令关键词 缩写 describe display generate replace d di gen 执行的操作 显示当前数据集,或者指定数据集的概况 以即时方式对指定的表达式进行计算,并给出结果 产生新变量: gen 变量名=数值 替代某个值: replace 变量名=数值 drop drop in list sort clear l so 删除某个变量: drop 变量名 删除某条记录: drop in 记录号 显示数据 将记录按照指定顺序排序 清除数据库
? (分组变量)tab1 变 量 名,g( 新 变 量 名)。该 命 令 主 要 适
用 描 述 计 数 资 料( 即: 属 性 资 料)。
? 频数分布的常见错误:tab、tab1、tab2
tab 1)用于生成单个变量的频数分布,其后只能跟一个变量;
2)用于描述两个变量的交叉分布,其后只能接两个变量; 所以tab后面最多接1个变量。
tab1 可以接多个变量,扥是只能分别生成各个变量的频数分布,不能生成交叉表。
tab2 可以生成多个双变量的交叉表。
? 四分位数间距:
上四分位数与下四分位数之差,用四分位数间距可反映变异程度的大小.
1 Centile x【得中位数】。centile x, c(25, 50, 75)【四分之一,中位数。。】{sum x, detail}也可以得到所需。
2 tabstat x[fw=f], st(q) {没expand f时,用此;有expand f, 则去掉fw=f} 3 expand x
Centile x, c(25,50,75)
?
Tab x [fw=f]
? 频数分布表中要用到expand 变量名,后再计算个指标
? graph x, bin(13) norm 【bin(13)表示频数图的组数为13。norm表示画一条相应的正态曲线(可以不要)】
例如:histogram x, frequency bin(6) norm
histogram y,frequency bin(6) xlab(61(2)73) norm【histogram 为绘制直方图命令,frequency 为频数,bin 为组数,xlab(3(0.2)5.6) 为坐标轴,norm 画正态曲线】
? 对正态分布来说,偏度系数(Skewness)=0,峰度系数(Kurtosis)=3。偏度系数为0时称为对称分布, 大于0为正偏态, 小于0为负偏态;峰度系数为3时称为正态峰,大于3为尖峭峰, 小于3为平阔峰。
? ci 变量名, level(90) 数据类型
例如:ci x, level(95) normal/poisson 即计算x的95%的可信限。
例题:
1 ①正常女子血清总胆固醇在4.00mmol/L以下者占正常女子总人数的百分比;②在4.00~5.00mmol/L之间者占正常女子总人数的百分比;③在5.00mmol/L以上者各占正常女子总人数的百分比。 Sum x
Recode x(min/4=1)(4.01/5=2)(5.01/max=3), gen(group) tab group
计算95%参考值范围 Sum x
di r(mean)-1.96*r(sd) 2.58(双侧) di r(mean)+1.96*r(sd) 单侧: 1.645(95) 2.326(99) 2 t检验
ttesti 样本数 均值 标准差样本数 均值 标准差(两样本的统计值依次写入)
相关推荐: