多重共線性的診斷方法和解決方法綜述
作者:檢測狗 發(fā)表時間:2020-09-09 13:58:23 瀏覽次數(shù):270
-
碩博初稿查重系統(tǒng) 498.00元/篇? 語種:中文,英文,小語種? 適用:雜志社投稿,職稱論文? 簡介:碩博初稿檢測(一般習慣叫做碩博預審版),論文查重檢測上千萬篇中文文獻,超百萬篇各類獨家文獻,超百萬港澳臺地區(qū)學術文獻過千...開始檢測
-
維普查重(大學生版) 4.00元/千字? 語種:中文,英文? 適用:雜志社投稿,職稱論文? 簡介:學位論文查重,維普大學生版論文查重系統(tǒng):高校,雜志社指定系統(tǒng),可檢測期刊發(fā)表,大學生,碩博等論文。檢測報告支持PDF、網(wǎng)...開始檢測
-
本科高校內部版系統(tǒng) 288.00元/篇? 語種:中文,英文,小語種? 適用:雜志社投稿,職稱論文? 簡介:比定稿版少大學生聯(lián)合比對庫,其他數(shù)據(jù)庫一致。出結果快,價格相對低廉,不支持驗證,適合在修改中期使用,定稿推薦PMLC?!?..開始檢測
-
萬方論文查重系統(tǒng) 4.00元/千字? 語種:中文? 適用:雜志社投稿,職稱論文? 簡介:畢業(yè)論文查重,萬方查重系統(tǒng),涵蓋期刊、學位論文、學術成果、學術會議論文的大型網(wǎng)絡數(shù)據(jù)庫;比肩中國知網(wǎng)的學術數(shù)據(jù)庫。最多支...開始檢測
摘要:多元線性回歸模型的經典假定之一是解釋變量之間不存在線性關系。但在實際應用中,多元線性回歸模型中的解釋變量之間往往存在近似的線性關系,如果仍然用最小二乘法估計模型,會造成分析結果不準確甚至嚴重偏離變量間本來的依存關系。為此,首先總結了多重共線性的檢驗方法,然后探討了多重共線性常用的修正方法,最后結合實例演繹了逐步回歸法和主成分回歸法的具體應用,為現(xiàn)實經濟問題中多重共線性的檢驗與處理提供一定借鑒。
關鍵詞:多重共線性;診斷;補救措施;逐步回歸法;主成分回歸;
Abstract:Therebeingnolinearrelationshipamonginterpretationvariablesisoneoftheclassicalassumptionsinmultiplelinearregressionmodel.However,inthepracticalapplication,thereisoftenanapproximatelinearrelation.Ifwestillusethemethodofordinaryleastsquarestoestimatethemodel,theresultmaybecomeincorrectandevenfarfromtheoriginalrelationshipamongthevariables.Therefore,thepaperfirstsummarizesthetestmethodsofMulticollinearity.Andthen,thepapersummarizesthecommomcorrectionmethodsofmulticollinearity.Finally,theapplicationofstepwiseregressionandprincipalcomponentregressionisdeducedbyusinganexample.Theresearchwillprovidesomereferenceforthetestandtreatmentofmulticollinearityinrealeconomicproblems.
Keyword:multicollinearity;diagnosis;remedialmeasures;stepwiseregression;principalcomponentregression;
多重共線性是指模型中解釋變量間存在相關關系。如果解釋變量之間存在完全線性相關關系,則稱模型出現(xiàn)了完全多重共線性;如果解釋變量之間近似線性相關,則稱模型出現(xiàn)了不完全多重共線性。古典線性回歸模型的假設之一是模型中不存在多重共線性。如果模型存在多重共線性,仍然采用普通最小二乘法估計模型參數(shù),會產生以下后果:完全共線性下模型的普通最小二乘估計量不存在,無法得到參數(shù)的估計量;近似共線性下普通最小二乘估計量即使存在,但共線性使得參數(shù)估計量的方差增大,進而導致變量的顯著性檢驗失去意義、模型的預測失效。在實際經濟問題中,解釋變量之間往往存在某種關聯(lián),多重共線性是多元回歸模型中普遍存在的問題。那么,如何診斷多重共線性及其影響程度以及怎樣處理模型中的多重共線性,顯得尤為重要。關于多重共線性的診斷方法與解決方法,不少學者進行了研究。
本文綜述了多重共線性的診斷方法和解決方法。在實際應用中,對于多重共線性的檢驗有時并不需要復雜的檢驗方法,而經驗方法簡單易行,本文結合實例給出了診斷共線性的經驗方法。本研究可為現(xiàn)實經濟問題中多重共線性的檢驗與處理提供一定借鑒。
1、多重共線性的診斷方法
1.1、經驗方法
模型的可決系數(shù)R2值較高,但變量顯著性檢驗(t檢驗)表明變量不顯著,或模型的經濟意義不合理,這是多重共線性的“典型”特征。也就是說如果R2較高,則模型顯著性檢驗(F檢驗)通常會拒絕零假設,即方程整體顯著,但t檢驗表明,沒有或很少有斜率系數(shù)是顯著不為零的。
1.2、簡單相關系數(shù)檢驗法
對模型中任意兩個不同的解釋變量求簡單相關系數(shù)。如果相關系數(shù)的絕對值較大,則認為這兩個變量相關性較高。但是,相關系數(shù)檢驗法只能檢驗兩個解釋變量的相關性,對于3個或更多個解釋變量的相關性檢驗不適用。
1.3、輔助回歸模型檢驗[1]
將模型中每一個解釋變量對其余解釋變量進行回歸。
如果某一種回歸的擬合優(yōu)度較大,說明Xj與其他解釋變量之間存在共線性。
另一等價的檢驗是:在模型中排除某一解釋變量Xj,重新估計模型,如果調整的可決系數(shù)(珚R2)與包含Xj時十分接近,則說明Xj與其他解釋變量之間存在線性關系。
1.4、方差膨脹因子檢驗[2]
在多元線性回歸模型中,第i個解釋變量的方差膨脹因子為:
其中,Ri2是把第i個解釋變量作為被解釋變量,將其對其他k-1個解釋變量作線性回歸所得的可決系數(shù)。該方法其實和輔助回歸模型檢驗一樣,只不過利用可決系數(shù)構造了一個新的指標VIFi。方差膨脹因子越大,說明Ri2越接近1,則第i個解釋變量與其他解釋變量之間共線程度越強。
1.5、特征值、病態(tài)數(shù)與病態(tài)指數(shù)檢驗[2]
對于由k個解釋變量、n個樣本觀察值組成的樣本數(shù)據(jù)矩陣:
當模型存在完全共線性時,|X′X|=0;當模型存在嚴重共線性時,|X′X|≈0。設λ1,λ2,…,λk+1為矩陣X′X的k+1個特征值,若
則特征值λ1,λ2,…,λk+1中至少有一個近似等于0,表明模型存在嚴重的共線性。
病態(tài)數(shù)(CN)和病態(tài)指數(shù)(CI)是利用特征值構造的用于檢驗多重共線性的指標。其指標定義為
這兩個指標數(shù)值越大,說明多重共線性越嚴重。一般經驗是:CI大于10即可認為模型存在共線性,大于30即可認為模型存在嚴重的共線性。
2、多重共線性的解決方法
2.1、排除引起共線性的解釋變量
找出引起多重共線性的解釋變量,然后把它從模型中剔除出去,這是解決多重共線性最有效的方法。在實際應用中,解決方法有逐步回歸法、利用粗糙集理論的屬性約簡方法和GMDH算法[3,4],其中逐步回歸法應用最廣泛。
逐步回歸法是在模型中逐個引入解釋變量,根據(jù)模型經濟意義的檢驗、統(tǒng)計意義的檢驗以及珚R2的變化來判斷新引入的變量是否引起了共線性。如果新引入的變量使得模型經濟意義檢驗和統(tǒng)計意義檢驗都能通過,且又能提高模型的珚R2,則應引入;如果珚R2無顯著變化,或者模型的經濟意義檢驗通不過,或者變量的顯著性檢驗沒有通過,則無需引入[5]。利用逐步回歸法可以剔除掉引起共線性的變量,但是,當排除了引起共線性的變量后,保留在模型中的變量的系數(shù)的估計值將會發(fā)生改變,其經濟意義也將發(fā)生變化。
2.2、改變參數(shù)的約束形式
根據(jù)經濟理論或其他信息,找出參數(shù)間的某種關系進行受約束回歸。受約束回歸模型減少了解釋變量的個數(shù),消除或削弱了多重共線性。這種方法的缺點在于外生的或先驗的信息并不總是可獲得的,即使能獲得這一信息,但要假設外生的或先驗的信息在當前樣本中仍然有效并不總是能夠實現(xiàn)。所以應用這種方法的關鍵在于獲得這一信息,并檢驗約束條件在當前樣本中的真?zhèn)?。如果約束條件為真,則可以應用該方法。
2.3、變換模型的形式
對原設定的模型形式進行適當?shù)淖儞Q,可以消除或削弱模型中解釋變量之間的線性關系。具體有3種變換方式:一是變換模型中變量的形式;二是變換模型的函數(shù)形式,如將線性模型轉換成非線性模型;三是改變變量的統(tǒng)計指標[6]。
2.4、減少參數(shù)估計量的方差
減少參數(shù)估計量的方差,可以使變量顯著性檢驗的t值增大,使本來不顯著的解釋變量變得顯著。在實際應用中,有增大樣本容量和嶺回歸兩種方法。
2.4.1、增大樣本容量
在建立的計量經濟學模型中,如果變量的樣本數(shù)據(jù)太少,很容易產生多重共線性。對于多元線性回歸模型,參數(shù)估計值^bi的方差為:
式中:σ2為隨機誤差項的方差;Xi為第i個解釋變量的觀察值;珡Xi為i個解釋變量的均值;,Ri2表示第i個解釋變量對模型中其他解釋變量回歸時的可決系數(shù)。
從式(7)可以看出,當樣本容量增大時,將會增大,從而使var(^bi)變小,這對提高^bi的估計精度有益。
2.4.2、嶺回歸法
嶺回歸法是以引入偏誤為代價來減少參數(shù)估計量方差的方法。嶺回歸法的參數(shù)估計量為
矩陣D一般選擇為主對角矩陣。即
式中:l為大于0的常數(shù);I為單位矩陣。關于l的取值,一般采用何瑞爾和肯納德于1975年提出的方法。與最小二乘估計量相比,式(9)的估計量方差較小。
嶺回歸分析方法雖然能夠減少參數(shù)估計量的方差,使回歸結果更符合實際,但如果原模型的經濟意義不合理,即使使用嶺回歸法也不一定使修正后的模型能通過經濟意義的檢驗。因此在實際應用中并不是所有的共線性都可以用嶺回歸法來解決[7]。
2.5、主成份回歸
主成分回歸是運用降維的思想,在盡量減少信息損失的情況下,將多個指標通過正交旋轉轉化為幾個綜合指標的分析方法。其基本原理是:利用主成分分析將解釋變量轉換成若干個主成分,這些主成分從不同側面反映了解釋變量的綜合影響[8,9]。因此,可以將解釋變量對這些主成分進行回歸,再根據(jù)主成分與解釋變量之間的關系,求得原回歸模型的估計方程。
3、實踐應用
根據(jù)上述多重共線性的診斷方法及解決方法,本文將結合實際例子對多重共線性進行檢驗與修正,從而給出多重共線性檢驗與修正的具體操作方法,為相關研究與應用提供一定的借鑒。取中國民航客運量作為被解釋變量(Y,萬人)。選取的解釋變量為居民消費支出(X1,億元)、政府消費支出(X2,億元)、來華旅游入境人數(shù)(X3,萬人)、民航航線里程(X4,萬公里)。收集整理的樣本數(shù)據(jù)(表1)來源于1996-2019年的《中國統(tǒng)計年鑒》[10]。將居民消費支出和政府消費支出換算為以1995年為基期的不變價,建立中國民航客運量預測模型。
表11995-2018年中國民航客運量及其影響因素數(shù)據(jù)
表11995-2018年中國民航客運量及其影響因素數(shù)據(jù)
運用Eviews軟件對中國民航客運量的多元線性回歸模型進行最小二乘估計,結果如下:
式(10)中括號內的數(shù)字是各變量顯著性檢驗對應的P值,下同。從模型的最小二乘估計結果可以看出,模型的整體擬合優(yōu)度非常高,但除X4之外,其余解釋變量的顯著性檢驗都沒有通過,并且變量X3經濟意義檢驗沒有通過,說明模型出現(xiàn)了嚴重的多重共線性。
為了消除或削弱多重共線性的影響,本文選擇兩種修正方法:第一種方法是逐步回歸法,即排除引起共線性的變量的方法;第二種方法是主成分分析方法,該方法沒有去掉任何變量便可以削弱共線性的影響,使模型經濟意義合理。
3.1、逐步回歸法
3.1.1、一元回歸模型
根據(jù)相關系數(shù)和理論分析可知,中國民航客運量與民航航線里程關聯(lián)程度最大,因此,設建立一元回歸方程為:
3.1.2、最優(yōu)回歸模型的選擇
通過逐步引入其他變量,確定最合適的多元回歸方程?;貧w結果見表2。
表2中國民航客運量預測模型逐步回歸結果
由表2可知,模型Y=f(X1,X4)中調整的判定系數(shù)較一元模型Y=f(X4)的高,模型經濟意義合理,變量都通過了顯著性檢驗,因此最終的預測模型為:
對比模型(10)和模型(12)可知,利用逐步回歸法可有效解決多重共線性問題,但要剔除引起共線性的變量X2和X3。
3.2、主成分回歸
利用Eviews軟件對標準化的解釋變量X1、X2、X3、X4進行主成分分析。分析結果見表3和表4。
表3特征值、累計貢獻率等
表4特征向量
由表3可以看出,特征值最大為3.6214、最小為0.006。第1主成分的貢獻率為90.53%,說明第一個主成分包含了原始數(shù)據(jù)90%以上的信息。由表4可知主成分為:
將標準化的Y(記為Yz)關于Z1進行回歸,估計模型后發(fā)現(xiàn)模型存在一階序列相關,用廣義差分法重新估計模型,得到以下估計結果:
R2=0.9962,DW=1.81
模型(14)擬合優(yōu)度高,且不存在序列相關性。
將式(13)代入式(14),得:
模型(15)中各變量均為標準化變量。將各變量還原,最終得到還原后的預測模型為:
模型(16)擬合優(yōu)度高,模型的經濟意義合理。從模型(16)中可以得到每個解釋變量對民航客運量的影響。
盡管多重共線性的檢驗方法很多,但在實際應用中,經驗方法是最常使用的方法。當模型總體擬合優(yōu)度高,但多個變量的顯著性檢驗不能通過甚至模型的經濟意義不合理時,基本可以判定模型出現(xiàn)了多重共線性。至于修正方法,如果決策者不介意剔除引起共線性的變量,則逐步回歸法是簡單易行的,而且會徹底解決多重共線性帶來的問題,但它無法得到剔除掉的影響因素對被解釋變量的影響。主成分回歸會削弱解釋變量之間的共線程度,能求得各個影響因素對被解釋變量的單獨影響,但有時會遇到修正過的模型經濟意義不合理的情況,這時決策者可以考慮其他修正方法,比如嶺回歸法,具體哪一種方法更優(yōu),則需具體試算并比較才可得知。
4、結語
本文對已有的多重共線性的診斷及處理方法進行了總結,并結合實際例子給出了多重共線性的檢驗與修正過程。需要指出的是,模型存在多重共線性并不意味著一定要采取補救措施,因為對多重共線性進行任何補救都可能會導致模型出現(xiàn)其他問題。如果模型存在多重共線性,而模型經濟意義合理,變量的顯著性檢驗也能通過,這時,無需采取任何補救措施。只有當多重共線性使得解釋變量不顯著或模型經濟意義不合理時,才需要采取補救措施。
參考文獻
[1]李子奈,潘文清.計量經濟學[M].北京:高等教育出版社,2005.
[2]孫敬水.計量經濟學教程[M].北京:清華大學出版社,2005.
[3]劉盾,胡培,施麗麗.基于粗集理論的線性回歸方法及實證分析[J].統(tǒng)計與信息論壇,2008,23(6):30-34.
[4]魯茂.幾種處理多重共線性方法的比較[J].統(tǒng)計與決策,2007(7):8-10.
[5]李子奈.計量經濟學-方法和應用[M].北京:清華大學出版社,2006.
[6]趙衛(wèi)亞.計量經濟學教程[M].上海:上海財經大學出版社,2003.
[7]楊楠.嶺回歸分析在解決多重共線性問題中的獨特作用[J].統(tǒng)計與決策,2004(3):14-15.
[8]趙衛(wèi)亞.利用EViews軟件檢驗和處理模型的多重共線性[J].統(tǒng)計與決策,2008(6):147-148.
[9]丁磊.主成分回歸在解決多重共線性問題中的應用[J].哈爾濱職業(yè)技術學院學報,2011(3):127-128.
[10]國家統(tǒng)計局.中國統(tǒng)計年鑒[M].北京:中國統(tǒng)計出版社,1996-2019.
本站聲明:網(wǎng)站內容來源于網(wǎng)絡,如有侵權,請聯(lián)系我們,我們將及時刪除處理。