第一范文网 - 专业文章范例文档资料分享平台

STATA实用学习笔记

来源:用户分享 时间:2025/11/2 9:16:06 本文由loading 分享 下载这篇文档手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:xxxxxxx或QQ:xxxxxx 处理(尽可能给您提供完整文档),感谢您的支持与谅解。

? sum fye

(3)利用日期天数求对应的年、月、日

? gen year=year(fye) ? gen month=month(fye) ? gen day=day(fye)

? list yearend fye year month day in 1/10 (4)将三个分别表示年、月、日的变量合并为一个日期变量

? drop fye

? gen fye=mdy(month, day, year) ? format fye %d

? list yearend fye in 1/10

(5) 将一个数值型的时间数据(20080131)转变为ST可识别的时间数据

? gen year=int(date/10000)

? gen month=int((date-year*10000)/100) ? gen day=date-year*10000-month*100 ? list date year month day in 1/10 ? gen edate=mdy(month, day, year) ? format edate %d ? list edate date in 1/10

十九、存贮统计量的内部变量R( )

? sum auditfees

? gen meanadjaf= auditfees-r(mean) ? list meanadjaf in 1/10

SUM命令后常见的几种R()值 r(N) r(sum_w) r(mean) r(var) Number of cases Sum of weights Arithmetic mean Variance r(sd) r(min) r(max) r(sum) Standard deviation Minimum Maximum Sum of variable 显示这些变量值的命令

? sum auditfees, detail ? return list

二十、recode命令(PPT61)

1、产生有多个值的变量的哑变量recode

recode year (min/1999 = 0) (2000/max = 1), gen (yeardum) min/1999表示小于等于1999的值全部赋值为0 2000/max表示大于等于2000的值全部赋为1。

2、对一个连续变量按一定值分为不同间隔的组recode

gen assets_categ=recode(totalassets, 100, 500, 1000, 5000, 20000, 100000, 1000000)。分组的值为每组的上限,包含该值。 sort assets_categ

5

by assets_categ: sum totalassets assets_categ

3、 对一个连续变量按一定值分为相同间隔的组autocode autocode(variable name, # of intervals, min value, max value)

for example: gen assets_categ=autocode(totalassets, 10, 0, 10000) 4、对一个连续变量按每组样本数相同进行分组:xtile xtile assets_categ=totalassets, nquantiles(10)

每组样本不一定完全相同

二十一、一次性计算同一变量不同组别的均值:egen命令

按公司类型先排序,再计算每一类型公司审计费用的均值并赋值给新变量: by companytype, sort: egen meanaf2=mean(auditfees)

? count() ? mean() ? median() ? sum() 二十二、_n和_N命令

1、 显示每个观测的序号并显示总观测数

sort companyid fye capture drop x gen x=_n

capture drop y gen y=_N

list companyid fye x y in 1/30

2、分组显示每个组中变量的序号和每组总的样本数

? capture drop x y ? sort companyid fye ? by companyid: gen x=_n ? by companyid: gen y=_N ? list companyid fye x y in 1/30

3、创建新变量等于每个分组中变量的第一个值或最后一个值

? sort companyid fye

? by companyid: gen auditfees_first=auditfees[1] ? by companyid: gen auditfees_last=auditfees[_N]

? list companyid fye auditfees auditfees_first auditfees_last in 1/30

4、创建新变量等于滞后一期或滞后两期的值

? sort companyid fye

? by companyid: gen auditfees_lag1= auditfees[_n-1] ? by companyid: gen auditfees_lag2= auditfees[_n-2]

? list companyid fye auditfees auditfees_lag1 auditfees_lag2 in 1/30

二十三、转变数据集结构:reshape

不同数据库的数据集结构不同:长型是指同一公司不同年度数据在不同的行。宽型数据是指同一数据不同年度数据在现一行。二者间的转换可通过reshape命令来实现。需要注意的

6

是,在转换过程中对数据集是有要求的,一个公司只能有一个年度数据,否则会出错。

1、长型转换为宽型:

reshape wide yearend incorporationyear companytype sales auditfees nonauditfees currentassets currentliabilities totalassets big6 fye, i(companyid) j(year) 2、宽型转换为长型:

reshape long yearend incorporationyear companytype sales auditfees nonauditfees currentassets currentliabilities totalassets big6 fye, i(companyid) j(year)

3、第二次转换时命令可简化:

? reshape wide ? reshape long

二十四、计算CAR的例子:

已知股票日回报率,市场回报率,事件日,计算窗口期为三天的CAR。 1、定义三天的窗口期:

? sort ticker edate

? gen window=0 if eventdate<.(事件日为0)

? replace window=-1 if window[_n+1]==0 & ticker==ticker[_n+1] ? replace window=1 if window[_n-1]==0 & ticker==ticker[_n-1]

2、计算AR和CAR

? gen ar=ret-vwretd

? gen car=ar+ar[_n-1]+ar[_n+1] if window==0 & ticker==ticker[_n+1]

ticker==ticker[_n-1]

3、检验

? list ticker edate ret vwretd ar car window if window<.

二十五、means 的T检验:

1、检验总体上big6的审计收费有无显著不同

? use \? gen lnaf=ln(auditfees) ? by big6, sort: sum lnaf ? test lnaf, by (big6)

2、分年度比较big6的审计收费有无显著不同,加入by year命令。

? gen fye=date(yearend, \? format fye %d ? gen year=year(fye) ? sort year ? by year: ttest lnaf, by(big6)

3、均值等于特定值得的T检验:

? sum lnaf ? ttest lnaf=2.1

二十六、meadian的显著性检验:

1、获取中位数的命令:

by big6, sort: sum lnaf, detail by big6, sort: centile lnaf

7

&

2、中位数检验:

? median lnaf, by(big6) ? ranksum lnaf, by(big6)

二十七、列联表检验:

1、创建列联表的命令:

? tabulate companytype big6, row

第一个变量是表的最左侧一列的项目,第二个变量是表的第一行的项目。 2、两变量之间的相关性检验:chi2

tabulate companytype big6, chi2 row

3、相关矩阵:

pwcorr lnaf big6 year listed 4、列出相关矩阵并进行符号检验 pwcorr lnaf big6 year listed, sig

5、在矩阵中列出观测数

? pwcorr lnaf big6 listed if year==2000, sig obs 二十八、创建一个不包含缺失值的数据集

1、无缺失值的变量值为1,至少有一个的为0

gen samp=1 if lnaf<. & big6<. & year<. & listed<.

2、缺失值的变量值表示同一行中缺失值的个数

egen miss=rmiss(lnaf big6 year listed) sum miss, detail 二十九、图形 1、直方图

? histogram incorporationyear, width(1) ? histogram incorporationyear, bin(147)

width表示分一小份的宽度。bin表示分成的份数。改变宽度值可以使图像看起来更合适。

? 选择起始点和间隔宽度:hist lnaf if lnaf>=0 & lnaf<=5, width (0.25)

? 选择描述横轴和纵轴的单位和数据标识:hist lnaf if lnaf>=0 & lnaf<=5, width (0.25)

xlabel(0(0.5)5)

? 是否与正态分布一致:hist lnaf if lnaf>=0 & lnaf<=5, width(0.25) normal

2、散点图(scatter)

? scatter lnaf lnta

第一个变量是纵轴,第二个变量是横轴。

? twoway (scatter lnaf lnta, msize(tiny)) (lfit lnaf lnta) 在散点图上加入最适合的一条直线。 三十、缩尾处理winsor

. winsor rev, gen(wrev) p(0.01)0.01代表去掉的百分数。 Winsor rev, gen(wrev) h(5),5代表去掉的个数

8

搜索更多关于: STATA实用学习笔记 的文档
STATA实用学习笔记.doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
本文链接:https://www.diyifanwen.net/c8e9hz55mx67tdik0366g_2.html(转载请注明文章来源)
热门推荐
Copyright © 2012-2023 第一范文网 版权所有 免责声明 | 联系我们
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:xxxxxx 邮箱:xxxxxx@qq.com
渝ICP备2023013149号
Top