樓主: @明明如月
202 0

[其他] 面板數據為什么好?讀了這篇你才會明白 [分享]

  • 0關注
  • 11粉絲

副教授

45%

還不是VIP/貴賓

-

威望
0
論壇幣
9813 個
通用積分
0
學術水平
41 點
熱心指數
40 點
信用等級
36 點
經驗
11227 點
帖子
404
精華
2
在線時間
121 小時
注冊時間
2019-8-28
最后登錄
2019-11-1

樓主
@明明如月 在職認證  發表于 2019-10-12 23:25:40 |只看作者 |倒序
轉自:計量經濟圈

1. 面板數據回歸為什么好?


一般而言,面板數據模型的誤差項由兩部分組成,一部分是與個體觀察單位有關的,它概括了所有影響被解釋變量,但不隨時間變化的因素(因此,面板數據模型也常常被成為非觀測效應模型);另外一部分概括了因截面因時間而變化的不可觀測因素,通常被成為特異性誤差或特異擾動項(事實上這第二部分誤差還可分成兩部分,一部分是不因截面變化但隨時間變化的非觀測因素對應的誤差項Vt。大家通過在模型中引入時間虛擬變量來加以剝離和控制這部分因素。另一部分才是因截面因時間而變化的不可觀測因素。不過一般計量經濟學的面板數據分析中都主要討論兩部分,在更高級一點的統計學或計量經濟學中會討論誤差分量模型,它一般討論三部分誤差)。

傳統上,大家都習慣這樣分類:如果把非觀測效應看做是各個截面或個體特有的可估計參數,并且不隨時間而變化,則模型為固定效應模型;如果把非觀測效應看作隨機變量,并且符合一個特定的分布,則模型為隨機效應模型。

不過,上述定義不是十分嚴謹,而且是一個非常容易讓人產生誤解的。似乎固定效應模型中的非觀測效應是隨時間不變的,因此是固定的,而隨機效應模型中的非觀測效應則不是固定的,而是隨時間變化的。

一個邏輯上比較一致和嚴謹并且越來越為大家所接受的假設是(參見Wooldridge的教材和Mundlak1978年的論文),不論固定效應還是隨機效應都是隨機的,都是概括了那些沒有觀測到的,不隨時間而變化的,但影響被解釋變量的因素(尤其當截面個體比較大的時候,這種假設是比較合理的)。非觀測效應究竟應假設為固定效應還是隨機效應,關鍵看這部分不隨時間變化的非觀測效應對應的因素是否與模型中控制的觀測到的解釋變量相關。如果這個效應與可觀測的解釋變量不相關,則這個效應稱為隨機效應,相關則稱為固定效應。這也正是HAUSMAN檢驗所需要檢驗的假說。

非觀測效應模型因為對非觀測效應假設的不同,因為使用面板數據信息的不同,可以用不同的方法來估計并且得到不同的估計量,一般有四個:

(1)組內估計量(WITHIN ESTIMATOR)(FE或FD: First Difference)
(2)組間估計量(BETWEEN ESTIMATOR)
(3)混合OLS估計量(POOLED OLS ESTIMATOR)
(4)隨機效應估計量(RE,GLS或FGLS估計量)

這四個估計量因為假設和使用信息的不同而不同,各有優劣勢,相互之間也有密切關系。(3)和(4)分別是(1)和(2)的加權平均;(4)在特定的假設下分別可以轉化成(1)和(3);如果HAUSMAN檢驗表明(4)和(1)沒有區別的時候意味著(1)和(2)沒有區別。

隨機效應模型假設未觀察因素與解釋變量是正交的,只不過在未觀察因素里有兩個部分,一是與個體單位有關的,二是完全隨機的。隨機效應模型在做估計的時候,是用這兩個部分的方差計算出一個指數λ,來做quasi-demean,也就是說在去平均的時候是用原值的y或x減去λ乘以y或x的均值,然后用GLS估計。

極端地,當λ為0時,非觀測效應是一個常數,并且所有個體都一樣,就等價于Pooled OLS,當λ為1時,說明完全隨機的部分可以忽略,所有未觀察因素都是與單位有關的,于是就等價于FE。但FE不需要假定未觀察因素與解釋變量是正交的,在做FE時,固定效應都被差分掉了,所以也可得到一致的估計結果。

PANEL數據的好處之一是,如果未觀察到的是固定效應,那么在做去均值(demean)時,未觀察因素就被差分掉了。這樣就可以減少由于未觀察的因素可能與解釋變量相關而導致的內生性問題。

2. 那么PANEL的FE或RE分析就避免了內生性問題嗎?

只能說好一些,如果內生的問題只是由于那些不隨時間變化的遺漏變量與解釋變量有關造成的,這時,數據的差分就解決了內生性問題。但是,別忘記還有一部分誤差,如果這部分誤差里包含的因素也可能影響解釋變量,那么,差分只能解決前面講的問題,而隨機項里包含的因素與解釋變量之間的相關關系所導致的內生性問題依然存在。簡單地講,面板數據只能處理掉那些不隨時間變化的不可觀測變量(與解釋變量相關或殘差項相關)所帶來的內生問題,而對于那些比如隨著時間變化但與解釋變量相關或殘差項相關的內生性問題也需要通過工具變量進行解決。

3. 如果遇到上面說的第二種內生性情形怎么辦?

找IV解決。類似于在OLS基礎上找IV,但對PANEL的工具應該具有PANEL結構,除非你基礎的估計沒有使用PANEL的方法,比如說對數據用了pooled OLS方法,但能夠用pooled OLS方法分析PANEL DATA的條件是很嚴格的。就是說,為這個內生解釋變量找一個合適的工具變量,然后通過2sls或者GMM方法進行估計。

第二節 關于工具變量選擇

1. IV應該盡量是外生的(如歷史/自然/氣候/地理之類),它應該在理論上對被解釋變量(以下稱Y)沒有直接影響,但應該通過影響被工具的變量(以下稱X)而間接影響被解釋變量Y。

2. 如果上述理論邏輯成立的話,將內生變量X作為被解釋變量,IV和其他變量(X2)作為解釋變量,我們做一個回歸,然后看IV的系數是否顯著(t-test)。如果選了多個IV,就用F TEST看其是否都不顯著,即各個IV前面系數的聯合顯著性。同時,如果在多個IV中,有一個是確定為外生的,那么,可以用Sargan test of overidentifying restrictions來檢驗其他的IV是不是確實是外生的。

3. 如果上述都沒有問題,做一下IV回歸。完成后,用HAUSMAN檢驗,這個檢驗的原假說是IV回歸與原回歸(不用IV的回歸)的變量的系數并沒有顯著的不同。看一下P值,如果P小于比如說0.1,或者0.05,那么,說明IV回歸與原來的回歸顯著不同,原來的方程的確有內生性問題而導致的估計偏誤。反之,如果P很高,超過0.1,或0.05,那說明IV回歸與原來的回歸沒有顯著不同,無法拒絕原來的回歸沒有顯著的內生問題導致的估計偏誤的原假設。

4. 如果選擇的IV本身就影響Y,那它就不能被作為IV。例如,Y在左邊,右邊是X(被工具的),X2,IV。當IV被放在方程右邊時,它最好是不顯著影響Y的。在Acemoglu(2001)里,他就檢驗了他們的IV是否直接影響被解釋變量,結果說明不直接影響,于是這個IV是好的。當然,一個好的IV在前面的回歸中也可能是顯著的(不過如果IV是通內生解釋變量間接影響被解釋變量的話,一般來說,應該是內生解釋變量使得IV不顯著,或者由于兩者相關性很高,兩者都不顯著),咱們判斷的標準依靠是t檢驗。這個變量顯著完全有可能是因為它影響了其他顯著的變量(比如這個內生變量)。如果是這樣,當包括了IV在原方程中以后,其他變量(特別需要注意的是被內生變量x)的系數可能發生明顯變化。

5. 工具變量效果驗證

工具變量: 工具變量要求與內生解釋變量相關,但又不能與被解釋變量的擾動項相關。由于這兩個要求常常是矛盾的,故在實踐上尋找合適的工具變量常常很困難,需要相當的想象力與創作性。常用滯后變量。

需要做的檢驗:檢驗工具變量的有效性。

(1) 檢驗工具變量與解釋變量的相關性
如果工具變量z與內生解釋變量完全不相關,則無法使用工具變量法;如果與內生解釋變量僅僅微弱地相關,這種工具變量被稱為“弱工具變量”(weak instruments)。使用弱工具變量的后果,與在參數估計中樣本容量過小而導致的系列問題問題類似。檢驗弱工具變量的一個經驗規則是,如果在第一階段回歸中,F統計量大于10,則可不必擔心弱工具變量問題。Stata命令:estat first(顯示第一個階段回歸中的統計量)

(2) 檢驗工具變量的外生性(接受原假設好)
在恰好識別的情況下,無法檢驗工具變量是否與擾動項相關。在過度識別(工具變量個數>內生變量個數)的情況下,則可進行過度識別檢驗(Overidentification Test),檢驗原假設所有工具變量都是外生的。如果拒絕該原假設,則認為至少某個變量不是外生的,即與擾動項相關。Sargan統計量,Stata命令:estat overid

第三節 關于HAUSMAN TSET(以下簡稱HT)的若干細節問題

1. 含義:“The null hypothesis is that the efficient estimator is a consistent and efficient estimator of the true parameters. If it is, there should be no systematic difference between the coefficients of the efficient estimator and a comparison estimator that is known to be consistent for the true parameters. If the two models display a systematic difference in the estimated coefficients, then we have reason to doubt the assumptions on which the efficient estimator is based.”參見手冊Stata corporation, 2001, STATA 7 Reference H-P, Stata Press。

該方法是Hausman (1978)的程序化。所以,Hausman Test的命令(hausman)假設使用者知道需要比較的兩個方程中哪一個是“無論原假說成立與否都是consistent”,哪一個“在原假說下不僅efficient而且consistent,但若原假說不成立,則inconsistent”。

(1) obtain an estimator that is consistent whether or not the hypothesis is true; //不管原假設成立與否都可以得到一致的結果
(2) store the estimation results under a name-consistent using estimates store;
(3) obtain an estimator that is efficient (and consistent) under the hypothesis that you are testing, but inconsistent otherwise;  //在原假設下得到的結果是有效和一致的
(4) store the estimation results under a name-efficient using estimates store;
(5) use hausman to perform the test
hausman name-consistent name-efficient [, options]

舉例:
(1)在關于是FE還是RE的檢驗中,原假說是"非觀測效應與解釋變量不相關",備擇假說是"兩者相關"。FE是無論原假說成立與否都是consistent,而RE在原假說下是consistent,并且Asymptotically efficient(樣本越大越有效),但如果原假說被拒絕,則RE不是consistent的 (Hausman, 1978)。

看一看咱們的操作步驟是怎樣展開的:
sort code year //排序
tis year  //時間變量是year
iis code  //表示單位的是code
xtreg y x x2, fe //得到固定效應下的估計
est store fixed  
xtreg y x x2, re  //得到隨機效應下的估計
hausman fixed  //比較使用固定效應還是隨機效應

(2) 比較OLS(或FE)和IV(或IVFE)
先做IV,因為,它無論如何都是consistent的,但OLS只有在原假設成立(沒有內生性情況下),即只有在沒有內生性問題存在時,OLS才是consistent的。所以,我們應該先做IV估計結果。

如果不加特殊說明,STATA就會默認為先寫的回歸命令得到的是總是一致的估計結果,后寫的得到的是備擇假設下不一致的估計結果。現在HAUSMAN命令

2. 注意事項:

(1)對以上檢驗的理解的另一種方式是,我們先做一個假設條件要求更松的估計,然后再做一個假設條件更嚴格的估計。相比之下,IV(IVFE)比OLS(FE)要求更松,畢竟OLS要求BLUE。容易搞混的是,FE比RE的假設條件更松,畢竟RE要求個體不隨時間變化的那些因素與解釋變量不相關。具體解釋如下:RE假設未觀察因素與解釋變量是正交的,只不過在未觀察因素里有兩個部分,一是與個體單位有關的,二是完全隨機的,RE在做估計的時候,是用這兩個部分的方差計算出一個指數λ,來做quasi-demean,也就是說在去平均的時候是用原值的y或x減去λ乘以y或x的均值,然后用GLS估計。當λ為0時,就等價于pooled OLS,當λ為1時,說明完全隨機的部分可以忽略,所有未觀察因素都是與單位有關的,于是就等價于FE。

但FE不需要假定未觀察因素與解釋變量是正交的,在做FE時,固定效應都被差分掉了,所以也可得到consistent的結果。當我們先做假設更嚴格的估計時,H1與一般檢驗一樣,檢驗值大,P小,則原假說拒絕,應該接受假設更松的。在FE與RE的比較里,卡方大,則接受FE估計值。在OLS(FE)與IV(或IVFE)的比較里,當卡方值大時,P小時,拒絕原假說,IV結果和OLS(或FE)有不同,于是接受IV結果。

操作程序如下:

(1)比較FE和RE
sort code year  //排序
tis year  //時間變量是year
iis code  //表示單位的是code
xtreg y x x2, fe  //假設其中x是需要被工具的變量
est store fixed
xtreg y x x2, re
hausman fixed   

(2)比較IVFE和IVRE
xtivreg y (x=iv) x2, fe  //工具變量估計,對于FE
est store f1
xtivreg y (x=iv) x2, re  //工具變量估計,對于RE
hausman f1
一般來說用不著這個比較,因為在這之前,你已經知道FE和RE誰好了,就將好的結果與它的IV結果比就行了。

(3)比較IVFE和FE
xtivreg y (x=iv) x2, fe  //用工具變量的情形
est store f2
xtreg y x x2, fe  //不用工具變量的情形
hausman f2
再重復一遍,如果結果是P小,卡方大才說明IV回歸是必要的,原來的估計方程是有內生問題。

第四節 舉例

Acemoglu等人(2001)的文章是非常有代表性的使用工具變量的論文。他們試圖驗證制度對人均收入有影響,顯然,直接做回歸的話,制度就是內生的,因為好的制度可能在人均收入高的地方產生。他們找的工具變量是殖民地時代一個國家的死亡率,死亡率高歐洲人就不會定居下來,于是就會在當時建議掠奪性的制度,反之就會建立好的制度,而那時的制度對現在仍然有影響。

特別值得注意的是論文的6.3部分對于工具變量的有效性的檢驗。首先,他們用其他可行的變量作為替代來反復做IV回歸,發現得到的結果與用死亡率作IV得到的結果基本相同。

然后,他們將死亡率本身作為外生變量放在原回歸里,發現它不顯著地影響被解釋變量,這說明它并不直接影響被解釋變量。第三,他們把只用死亡率的IV結果和同時用死亡率和其他IV的結果進行卡方檢驗,發現它們沒有顯著不同,再次說明死亡率沒有直接影響,也不是通過影響制度以外的其他變量影響被解釋變量的。

補充版塊

一. 解釋變量內生性檢驗

首先檢驗解釋變量內生性(解釋變量內生性的Hausman 檢驗:使用工具變量法的前提是存在內生解釋變量。Hausman 檢驗的原假設為:所有解釋變量均為外生變量,如果拒絕,則認為存在內生解釋變量,要用IV;反之,如果接受,則認為不存在內生解釋變量,應該使用OLS.)

你可以通過如下程序檢驗解釋變量lofdi是否具有內生性:
reg ldi lofdi  //普通的pooled ols回歸
estimates store ols
xtivreg ldi (lofdi=l.lofdi ldep lexr)  //面板數據中的工具變量法
estimates store iv
hausman iv ols  //hausman檢驗,比較iv回歸與ols回歸哪種方法更好

注:(在面板數據中使用工具變量,Stata提供了如下命令來執行2SLS:xtivreg depvar [varlist1] (varlist_2=varlist_iv) (選擇項可以為fe,re等,表示固定效應、隨機效應等。詳見help xtivreg)

如果解釋變量具有內生性,則應該選用工具變量,注:工具變量個數不少于方程中內生解釋變量的個數。當內生解釋變量與工具變量數目相等時,我們稱之為“恰好識別”,此時推薦使用2SLS (2SLS當然也可以用于過度識別情形下的估計)。2SLS的實質是把內生解釋變量分成兩部分,即由工具變量所造成的外生的變動部分,以及與擾動項相關的其他部分;然后,把被解釋變量中的這個外生部分進行回歸,從而滿足OLS前定變量的要求而得到一致估計量。

二. 異方差與自相關檢驗

在球型擾動項的假定下,2SLS是最有效的。但如果擾動項存在異方差或自相關,則存在一種更有效的方法,即GMM。從某種意義上,GMM之于2SLS正如GLS之于OLS。恰好識別的情況下,GMM還原為普通的工具變量法;過度識別時傳統的工具變量法行不通,這時有必要使用GMM,過度識別檢驗(Overidentification Test或J Test): estat overid

檢驗面板數據是否存在異方差或自相關的程序:
xtgls enc invs exp imp esc mrl,igls panel(hetero) //用可行的廣義最小二乘法估計面板模型,此時假設各個面板間存在異方差
estimates store hetero
xtgls enc invs exp imp esc mrl,igls  //用可行的廣義最小二乘法估計面板模型,此時認為各個面板間不存在異方差
estimates store homo
local df = e(N_g) - 1
lrtest hetero homo, df(`df')  //likelihood ratio test
面板自相關:xtserial enc invs exp imp esc mrl

如果認為同時存在異方差和自相關,那么可以參照下方的程序:
xtgls invest market stock, panels(hetero) corr(ar1)


您需要登錄后才可以回帖 登錄 | 我要注冊

京ICP備16021002-2號 京B2-20170662號 京公網安備 11010802022788號 論壇法律顧問:王進律師 知識產權保護聲明   免責及隱私聲明

GMT+8, 2019-11-3 00:24
FUN88电竞