❶ 谁懂stata,计量经济学,有个一个PVAR模型需要人帮忙,数据有,没有显着性效果付费。
题主的Y变量有四个类型:不付股利,支付现金,回购,和两者结合,所以可以用多项probit回归(Multinomialprobitregression)。在Stata软件里面使用mprobit命令就可以。具体就是:mprobityx1x2x3x4
❷ 如何使用STATA软件
《stata论文视频》网络网盘资源免费下载
链接:https://pan..com/s/12GRll1biLq-ZklfQ07W7QQ
❸ hansen检验 指令是什么 stata
stata命令大全
********* 面板数据计量分析与软件实现 *********
说明:以下do文件相当一部分内容来自于中山大学连玉君STATA教程,感谢他的贡献。本人做了一定的修改与筛选。
*----------面板数据模型
* 1.静态面板模型:FE 和RE
* 2.模型选择:FE vs POLS, RE vs POLS, FE vs RE (pols混合最小二乘估计)
* 3.异方差、序列相关和截面相关检验
* 4.动态面板模型(DID-GMM,SYS-GMM)
* 5.面板随机前沿模型
* 6.面板协整分析(FMOLS,DOLS)
*** 说明:1-5均用STATA软件实现, 6用GAUSS软件实现。
* 生产效率分析(尤其指TFP):数据包络分析(DEA)与随机前沿分析(SFA)
***
说明:DEA由DEAP2.1软件实现,SFA由Frontier4.1实现,尤其后者,侧重于比较C-D与Translog生产函数,一步法与两步法的区别。常应用于地区经济差异、FDI溢出效应(Spillovers
Effect)、工业行业效率状况等。
* 空间计量分析:SLM模型与SEM模型
*说明:STATA与Matlab结合使用。常应用于空间溢出效应(R&D)、财政分权、地方政府公共行为等。
* ---------------------------------
* -------- 一、常用的数据处理与作图 -----------
* ---------------------------------
* 指定面板格式
xtset id year (id为截面名称,year为时间名称)
xtdes /*数据特征*/
xtsum logy h /*数据统计特征*/
sum logy h /*数据统计特征*/
*添加标签或更改变量名
label var h "人力资本"
rename h hum
*排序
sort id year /*是以STATA面板数据格式出现*/
sort year id /*是以DEA格式出现*/
*删除个别年份或省份
drop if year<1992
drop if id==2 /*注意用==*/
*如何得到连续year或id编号(当完成上述操作时,year或id就不连续,为形成panel格式,需要用egen命令)
egen year_new=group(year)
xtset id year_new
**保留变量或保留观测值
keep inv /*删除变量*/
**或
keep if year==2000
**排序
sort id year /*是以STATA面板数据格式出现
sort year id /*是以DEA格式出现
**长数据和宽数据的转换
*长>>>宽数据
reshape wide logy,i(id) j(year)
*宽>>>长数据
reshape logy,i(id) j(year)
**追加数据(用于面板数据和时间序列)
xtset id year
*或者
xtdes
tsappend,add(5) /表示在每个省份再追加5年,用于面板数据/
tsset
*或者
tsdes
.tsappend,add(8) /表示追加8年,用于时间序列/
*方差分解,比如三个变量Y,X,Z都是面板格式的数据,且满足Y=X+Z,求方差var(Y),协方差Cov(X,Y)和Cov(Z,Y)
bysort year:corr Y X Z,cov
**生产虚拟变量
*生成年份虚拟变量
tab year,gen(yr)
*生成省份虚拟变量
tab id,gen(m)
**生成滞后项和差分项
xtset id year
gen ylag=l.y /*产生一阶滞后项),同样可产生二阶滞后项*/
gen ylag2=L2.y
gen dy=D.y /*产生差分项*/
*求出各省2000年以前的open inv的平均增长率
collapse (mean) open inv if year<2000,by(id)
变量排序,当变量太多,按规律排列。可用命令
aorder
或者
order fdi open insti
*-----------------
* 二、静态面板模型
*-----------------
*--------- 简介 -----------
* 面板数据的结构(兼具截面资料和时间序列资料的特征)
use proct.dta, clear
browse
xtset id year
xtdes
* ---------------------------------
* -------- 固定效应模型 -----------
* ---------------------------------
* 实质上就是在传统的线性回归模型中加入 N-1 个虚拟变量,
* 使得每个截面都有自己的截距项,
* 截距项的不同反映了个体的某些不随时间改变的特征
*
* 例如: lny = a_i + b1*lnK + b2*lnL + e_it
* 考虑中国29个省份的C-D生产函数
*******-------画图------*
*散点图+线性拟合直线
twoway (scatter logy h) (lfit logy h)
*散点图+二次拟合曲线
twoway (scatter logy h) (qfit logy h)
*散点图+线性拟合直线+置信区间
twoway (scatter logy h) (lfit logy h) (lfitci logy h)
*按不同个体画出散点图和拟合线,可以以做出fe vs re的初判断*
twoway (scatter logy h if id<4) (lfit logy h if id<4) (lfit logy h if
id==1) (lfit logy h if id==2) (lfit logy h if id==3)
*按不同个体画散点图,so beautiful!!!*
graph twoway scatter logy h if id==1 || scatter logy h if id==2,msymbol(Sh)
|| scatter logy h if id==3,msymbol(T) || scatter logy h if id==4,msymbol(d) || ,
legend(position(11) ring(0) label(1 "北京") label(2 "天津") label(3 "河北") label(4
"山西"))
**每个省份logy与h的散点图,并将各个图形合并
twoway scatter logy h,by(id) ylabel(,format(%3.0f))
xlabel(,format(%3.0f))
*每个个体的时间趋势图*
xtline h if id<11,overlay legend(on)
* 一个例子:中国29个省份的C-D生产函数的估计
tab id, gen(m)
list
* 回归分析
reg logy logk logl m*,
est store m_ols
xtreg logy logk logl, fe
est store m_fe
est table m_ols m_fe, b(%6.3f) star(0.1 0.05 0.01)
* Wald 检验
test logk=logl=0
test logk=logl
* stata的估计方法解析
* 目的:如果截面的个数非常多,那么采用虚拟变量的方式运算量过大
* 因此,要寻求合理的方式去除掉个体效应
* 因为,我们关注的是 x 的系数,而非每个截面的截距项
* 处理方法:
*
* y_it = u_i + x_it*b + e_it (1)
* ym_i = u_i + xm_i*b + em_i (2) 组内平均
* ym = um + xm*b + em (3) 样本平均
* (1) - (2), 可得:
* (y_it - ym_i) = (x_it - xm_i)*b + (e_it - em_i) (4) /*within estimator*/ *
(4)+(3), 可得:
* (y_it-ym_i+ym) = um + (x_it-xm_i+xm)*b + (e_it-em_i+em)
* 可重新表示为:
* Y_it = a_0 + X_it*b + E_it
* 对该模型执行 OLS 估计,即可得到 b 的无偏估计量
**stata后台操作,揭开fe估计的神秘面纱!!!
egen y_meanw = mean(logy), by(id) /*个体内部平均*/
egen y_mean = mean(logy) /*样本平均*/
egen k_meanw = mean(logk), by(id)
egen k_mean = mean(logk)
egen l_meanw = mean(logl), by(id)
egen l_mean = mean(logl)
gen dyw = logy - y_meanw
gen dkw = logk - k_meanw
gen dlw=logl-l_meanw
reg dyw dkw dlw,nocons
est store m_stata
gen dy = logy - y_meanw + y_mean
gen dk = logk - k_meanw +k_mean
gen dl=logl-l_meanw+l_mean
reg dy dk dl
est store m_stata
est table m_*, b(%6.3f) star(0.1 0.05 0.01)
* 解读 xtreg,fe 的估计结果
xtreg logy h inv gov open,fe
*-- R^2
* y_it = a_0 + x_it*b_o + e_it (1) pooled OLS
* y_it = u_i + x_it*b_w + e_it (2) within estimator
* ym_i = a_0 + xm_i*b_b + em_i (3) between estimator
*
* --> R-sq: within 模型(2)对应的R2,是一个真正意义上的R2
* --> R-sq: between corr{xm_i*b_w,ym_i}^2
* --> R-sq: overall corr{x_it*b_w,y_it}^2
*
*-- F(4,373) = 855.93检验除常数项外其他解释变量的联合显着性
*
*
*-- corr(u_i, Xb) = -0.2347
*
*-- sigma_u, sigma_e, rho
* rho = sigma_u^2 / (sigma_u^2 + sigma_e^2)
dis e(sigma_u)^2 / (e(sigma_u)^2 + e(sigma_e)^2)
*
* 个体效应是否显着?
* F(28, 373) = 338.86 H0: a1 = a2 = a3 = a4 = a29
* Prob > F = 0.0000 表明,固定效应高度显着
*---如何得到调整后的 R2,即 adj-R2 ?
ereturn list
reg logy h inv gov open m*
*---拟合值和残差
* y_it = u_i + x_it*b + e_it
* predict newvar, [option]
/*
xb xb, fitted values; the default
stdp calculate standard error of the fitted values
ue u_i + e_it, the combined resial
xbu xb + u_i, prediction including effect
u u_i, the fixed- or random-error component
e e_it, the overall error component */
xtreg logy logk logl, fe
predict y_hat
predict a , u
predict res,e
predict cres, ue
gen ares = a + res
list ares cres in 1/10
* ---------------------------------
* ---------- 随机效应模型 ---------
* ---------------------------------
* y_it = x_it*b + (a_i + u_it)
* = x_it*b + v_it
* 基本思想:将随机干扰项分成两种
* 一种是不随时间改变的,即个体效应 a_i
* 另一种是随时间改变的,即通常意义上的干扰项 u_it
* 估计方法:FGLS
* Var(v_it) = sigma_a^2 + sigma_u^2
* Cov(v_it,v_is) = sigma_a^2
* Cov(v_it,v_js) = 0
* 利用Pooled OLS,Within Estimator, Between Estimator
* 可以估计出sigma_a^2和sigma_u^2,进而采用GLS或FGLS
* Re估计量是Fe估计量和Be估计量的加权平均
* yr_it = y_it - theta*ym_i
* xr_it = x_it - theta*xm_i
* theta = 1 - sigma_u / sqrt[(T*sigma_a^2 + sigma_u^2)]
* 解读 xtreg,re 的估计结果
use proct.dta, clear
xtreg logy logk logl, re
*-- R2
* --> R-sq: within corr{(x_it-xm_i)*b_r, y_it-ym_i}^2
* --> R-sq: between corr{xm_i*b_r,ym_i}^2
* --> R-sq: overall corr{x_it*b_r,y_it}^2
* 上述R2都不是真正意义上的R2,因为Re模型采用的是GLS估计。
*
* rho = sigma_u^2 / (sigma_u^2 + sigma_e^2)
dis e(sigma_u)^2 / (e(sigma_u)^2 + e(sigma_e)^2)
*
* corr(u_i, X) = 0 (assumed)
* 这是随机效应模型的一个最重要,也限制该模型应用的一个重要假设
* 然而,采用固定效应模型,我们可以粗略估计出corr(u_i, X)
xtreg market invest stock, fe
*
* Wald chi2(2) = 10962.50 Prob> chi2 = 0.0000
*-------- 时间效应、模型的筛选和常见问题
*---------目录--------
* 7.2.1 时间效应(双向固定(随机)效应模型)
* 7.2.2 模型的筛选
* 7.2.3 面板数据常见问题
* 7.2.4 面板数据的转换
* ----------------------------------
* ------------时间效应--------------
* ----------------------------------
* 单向固定效应模型
* y_it = u_i + x_it*b + e_it
* 双向固定效应模型
* y_it = u_i + f_t + x_it*b + e_it
qui tab year, gen(yr)
drop yr1
xtreg logy logk logl yr*, fe
* 随机效应模型中的时间效应
xtreg logy logk logl yr*, fe
* ---------------------------------
* ----------- 模型的筛选 ----------
* ---------------------------------
* 固定效应模型还是Pooled OLS?
xtreg logy logk logl yr*, fe /*Wald 检验*/
qui tab id, gen(m) /*LR检验*/
reg logy logk logl /*POLS*/
est store m_ols
reg logy logk logl m*,nocons
est store m_fe
lrtest m_ols m_fe
est table m_*, b(%6.3f) star(0.1 0.05 0.01)
* RE vs Pooled OLS?
* H0: Var(u) = 0
* 方法一:B-P 检验
xtreg logy logk logl, re
xttest0
* FE vs RE?
* y_it = u_i + x_it*b + e_it
*--- Hausman 检验 ---
* 基本思想:如果 Corr(u_i,x_it) = 0, Fe 和 Re 都是一致的,但Re更有效
* 如果 Corr(u_i,x_it)!= 0, Fe 仍然有效,但Re是有偏的
* 基本步骤
***情形1:huasman为正数
xtreg logy logk logl, fe
est store m_fe
xtreg logy logk logl, re
est store m_re
hausman m_fe m_re
*** 情形2:
qui xtreg logy h inv gov open,fe
est store fe
qui xtreg logy h inv gov open,re
est store re
hausman fe re
* Hausman 检验值为负怎么办?
* 通常是因为RE模型的基本假设 Corr(x,u_i)=0 无法得到满足
* 检验过程中两个模型的方差-协方差矩阵都采用Fe模型的
hausman fe re, sigmaless
* 两个模型的方差-协方差矩阵都采用Re模型的
hausman fe re, sigmamore
*== 为何有些变量会被drop掉?
use nlswork.dta, clear
tsset idcode year
xtreg ln_wage hours tenure ttl_exp, fe /*正常执行*/
* 产生种族虚拟变量
tab race, gen(m_race)
xtreg ln_wage hours tenure ttl_exp m_race2 m_race3, fe
* 为何 m_race2 和 m_race3 会被 dropped ?
* 固定效应模型的设定:y_it = u_i + x_it*b + e_it (1)
* 由于个体效应 u_i 不随时间改变,
* 因此若 x_it 包含了任何不随时间改变的变量,
* 都会与 u_i 构成多重共线性,Stata会自动删除之。
*******异方差、序列相关和截面相关问题
* ---------------- 简 介 -------------
* y_it = x_it*b + u_i + e_it
*
* 由于面板数据同时兼顾了截面数据和时间序列的特征,
* 所以异方差和序列相关必然会存在于面板数据中;
* 同时,由于面板数据中每个截面(公司、个人、国家、地区)之间还可能存在内在的联系, * 所以,截面相关性也是一个需要考虑的问题。
*
* 此前的分析依赖三个假设条件:
* (1) Var[e_it] = sigma^2 同方差假设
* (2) Corr[e_it, e_it-s] = 0 序列无关假设
* (3) Corr[e_it, e_jt] = 0 截面不相关假设
*
* 当这三个假设无法得到满足时,便分别出现 异方差、序列相关和截面相关问题; * 我们一方面要采用各种方法来检验这些假设是否得到了满足;
* 另一方面,也要在这些假设无法满足时寻求合理的估计方法。
* ---------------- 假设检验 -------------
*== 组间异方差检验(截面数据的特征)
* Var(e_i) = sigma_i^2
* Fe 模型
xtreg logy logk logl, fe
xttest3
* Re 模型
* Re本身已经较大程度的考虑了异方差问题,主要体现在sigma_u^2上
*== 序列相关检验
* Fe 模型
* xtserial Wooldridge(2002),若无序列相关,则一阶差分后残差相关系数应为-0.5
xtserial logy logk logl
xtserial logy logk logl, output
* Re 模型
xtreg logy logk logl, re
xttest1 /*提供多个统计检验量*/
*== 截面相关检验
* xttest2命令 H0: 所有截面残差的相关系数都相等
xtreg logy logk logl, fe
xttest2
* 由于检验过程中执行了SUE估计,所以要求T>N
xtreg logy logk logl if id<6, fe
xttest2
* xtcsd 命令(提供了三种检验方法)
xtreg logy logk logl, fe
xtcsd , pesaran /*Pesaran(2004)*/
xtcsd , friedman /*Friedman(1937)*/
xtreg logy logk logl, re
xtcsd , pesaran
* ----------------- 估计方法 ---------------------
*== 异方差稳健型估计
xtreg logy h inv gov open, fe robust
est store fe_rb
xtreg logy h inv gov open, fe robust
est store fe
* 结果对比
esttab fe_rb fe, b(%6.3f) se(%6.3f) mtitle(fe_rb fe)
*== 序列相关估计
* 一阶自相关 xtregar, fe/re
* 模型: y_it = u_i + x_it*b + v_it (1)
* v_it = rho*v_it-1 + z_it (2)
xtregar logy h inv gov open, fe
est store fe_ar1
xtregar logy h inv gov open,fe lbi /*Baltagi-Wu LBI test*/
❹ stata在哪可以学
Stata 资源
. ssc install lianxh
. lianxh
一些常用链接
专题:数据分享
连享会 - 人文社科开放数据库汇总
连享会:数据在哪儿?常用数据库链接
数据分享——EPS数据库-新冠肺炎疫情实时监控平台
连享会 - 人文社科开放数据库汇总
专题:论文写作
连享会:论文重现网站大全
专题:Stata教程
Stata分享:一个在线-Stata-教程网站
Stata分享:Princeton-在线-Stata-教程
普林斯顿Stata教程(三) - Stata编程
普林斯顿Stata教程(二) - Stata绘图
普林斯顿Stata教程(一) - Stata数据处理
专题:Stata命令
连享会新命令-lxh:随时查看-Stata-资源
专题:Stata资源
分享一些Stata资源链接
Stata资源:一些不错的Stata-Blogs
Github使用方法及Stata资源
Cameron教授提供的Stata资源
Stata帮助和网络资源汇总(持续更新中)
专题:数据处理
Stata数据处理:import-fred-命令导入联邦储备经济数据库-FRED
专题:回归分析
Stata:短期事件研究法(Event_Study)教程
专题:断点回归RDD
Stata:两本断点回归分析-RDD-易懂教程
Stata:断点回归RDD简明教程
Stata: 两本断点回归分析 (RDD) 易懂教程
专题:内生性-因果推断
Abadie新作:简明IV,DID,RDD教程和综述
专题:Python-R-Matlab
Python: 如何优雅地管理微信数据库?
专题:Markdown
Markdown:五分钟Markdown教程
Markdown教程之LaTeX数学公式简介
专题:其它
Stata: 数据包络分析 (DEA) 简明教程
Note:产生上述推文列表的命令为:
lianxh 资源 教程 论文重现 数据库
安装最新版 lianxh 命令:
ssc install lianxh, replace
作者:连玉君
链接:https://www.hu.com/question/425042841/answer/1739926678
来源:知乎
着作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
❺ 为什么我的stata用不了连玉君命令
自己根据模型的要求输入相关的命令即可
❻ stata怎么让皮尔逊相关系数展示星号
stata怎么让皮尔逊相关系数展示星号?STATA 常用命令集
一、调整变量格式:
format x1 %10.3f ——将x1的列宽固定为10,小数点后取三位
format x1 %10.3g ——将x1的列宽固定为10,有效数字取三位
format x1 %10.3e ——将x1的列宽固定为10,采用科学计数法
format x1 %10.3fc ——将x1的列宽固定为10,小数点后取三位,加入千分位分隔符
format x1 %10.3gc ——将x1的列宽固定为10,有效数字取三位,加入千分位分隔符
format x1 %-10.3gc ——将x1的列宽固定为10,有效数字取三位,加入千分位分隔符,加入“-”表示左对齐。
二、合并数据:
use "C:\Documents and Settings\xks\桌面\2006.dta", clear
merge using "C:\Documents and Settings\xks\桌面\1999.dta"
——将1999和2006的数据按照样本(observation)排列的自然顺序合并起来
use "C:\Documents and Settings\xks\桌面\2006.dta", clear
merge id using "C:\Documents and Settings\xks\桌面\1999.dta" ,unique sort
——将1999和2006的数据按照唯一的(unique)变量id来合并,在合并时对id进行排序(sort)
建议采用第一种方法。
三、对样本进行随机筛选:
sample 50
在观测案例中随机选取50%的样本,其余删除
sample 50,count
在观测案例中随机选取50个样本,其余删除
四、查看与编辑数据:
browse x1 x2 if x3>3 (按所列变量与条件打开数据查看器)
edit x1 x2 if x3>3 (按所列变量与条件打开数据编辑器)
五、数据合并(merge)与扩展(append)
merge表示样本量不变,但增加了一些新变量;append表示样本总量增加了,但变量数目不变。
one-to-one merge:
数据源自stata tutorial中的exampw1和exampw2
第一步:将exampw1按v001~v003这三个编码排序,并建立临时数据库tempw1
clear
use "t:\statatut\exampw1.dta"
su ——summarize的简写
sort v001 v002 v003
save tempw1
第二步:对exampw2做同样的处理
clear
use "t:\statatut\exampw2.dta"
su
sort v001 v002 v003
save tempw2
第三步:使用tempw1数据库,将其与tempw2合并:
clear
use tempw1
merge v001 v002 v003 using tempw2
第四步:查看合并后的数据状况:
ta _merge ——tabulate _merge的简写
su
第五步:清理临时数据库,并删除_merge,以免日后合并新变量时出错
erase tempw1.dta
erase tempw2.dta
drop _merge
数据扩展append:
数据源自stata tutorial中的fac19和newfac
clear
use "t:\statatut\fac19.dta"
ta region
append using "t:\statatut\newfac"
ta region
合并后样本量增加,但变量数不变
六、做图
茎叶图:
stem x1,line(2) (做x1的茎叶图,每一个十分位的树茎都被拆分成两段来显示,前半段为0~4,后半段为5~9)
stem x1,width(2) (做x1的茎叶图,每一个十分位的树茎都被拆分成五段来显示,每个小树茎的组距为2)
stem x1,round(100) (将x1除以100后再做x1的茎叶图)
直方图
采用auto数据库
histogram mpg, discrete frequency normal xlabel(1(1)5)
(discrete表示变量不连续,frequency表示显示频数,normal加入正太分布曲线,xlabel设定x轴,1和5为极端值,(1)为单位)
histogram price, fraction norm
(fraction表示y轴显示小数,除了frequency和fraction这两个选择之外,该命令可替换为“percent”百分比,和“density”密度;未加上discrete就表示将price当作连续变量来绘图)
histogram price, percent by(foreign)
(按照变量“foreign”的分类,将不同类样本的“price”绘制出来,两个图分左右排布)
histogram mpg, discrete by(foreign, col(1))
(按照变量“foreign”的分类,将不同类样本的“mpg”绘制出来,两个图分上下排布)
❼ 如何用stata把unbalanced panel data转换成 balanced panel data
邻南学院连玉君有一条命令可用。输入以下命令选安装再使用。
h xtbalance
打开的页面中点第一个网址链接,然后安装。
命令格式:
xtbalance, range(numlist) [ miss(varlist) ]
选项:
range(numlist) specifies sample range to be transfored. numlist must be two integers and specified in ascending order.
miss(varlist) forces to drop the observations if any one of the variable in varlist has missing value.