Phương sai thay đổi (hay còn gọi là đầy đủ phương sai của phần dư thay đổi) là một trong những hiện tượng phổ biến trong các mô hình hồi quy với dữ liệu chéo và các dữ liệu bảng. Phương sai thay đổi làm sai lệch các sai số chuẩn được ước lượng (giảm), từ đó làm tăng các trị thống kê t, F hay làm tăng khả năng mắc phải sai lầm loại I (giả thuyết đúng bị bác bỏ). Bài viết sau trình bày hệ thống lý thuyết, cách phát hiện & khắc phục phương sai thay đổi cũng như phần thực hành phát hiện và khắc phục phương sai thay đổi trên phần mềm thống kê Eview 8. Ngoài ra, các bạn có thể tham khảo cách phát hiện và khắc phục phương sai thay đổi trên Stata theo link sau: http://vietlod.com/khac-phuc-phuong-sai-thay-doi
Phát hiện và khắc phục phương sai thay đổi (heteroskedasticity) trên Eview, Stata
1. v i e t l o d . c o m 1 | 18
1. Nhắc lại về các giả định hồi quy tuyến tính
Phương trình một mô hình hồi quy OLS có dạng đơn giản như sau:
uxxxy kk +++++= ββββ ...22110
Trong đó:
− y: là biến phụ thuộc (dependent variable) dạng liên tục
− ix : là biến độc lập (independent variable)
− 0β : hằng số cắt
− iβ : hệ số độ dốc của biến độc lập ix
− u: sai số ngẫu nhiên.
Hệ số 0β và iβ là các tham số cần ước lượng của mô hình OLS. Để các tham số này
được ước lượng hiệu quả và tin cậy, mô hình phải thỏa mãn các tính chất sau:
− Linearity – Biến phụ thuộc là một hàm tuyến tính của các biến độc lập và thành
phần sai số ngẫu nhiên.
− Normality – Thành phần sai số ngẫu nhiên phải có phân phối chuẩn. Điều này
là cần thiết và quan trọng hơn cả tính phân phối chuẩn của biến phụ thuộc và
biến độc lập. May mắn là, giả thuyết này thường được đảm bảo khi cở mẫu lớn
(Định lí giới hạn trung tâm – Central Limit Theorum).
− Homoscedasticity – Điều đó có nghĩa, phương sai biến phụ thuộc có các mức
thay đổi bằng nhau (phương sai không đổi) đối với mỗi giá trị của các biến độc
lập.
− Independence – Các sai số của một quan sát không tương quan với các sai số
của các quan sát khác. Đồng thời, thành phần sai số ngẫu nhiên không có tương
quan với các biến độc lập. Đọc thêm hồi quy với tùy chọn cluster.
− Errors in variables – Các biến giải thích không có sai số trong đo lường. Ví dụ,
đánh giá điểm số các môn học hoặc cách đo lường chiều cao, cân nặng… đều có
những sai số nhất định. Việc xảy ra sai số ở các biến giải thích sẽ đánh giá dưới
mức cho các hệ số ước lượng.
− Model specification – Mô hình phải được xác định đúng (bao gồm tất cả các
biến liên quan và loại bỏ tất cả những biến không liên quan).
Ngoài ra, còn có những vấn đề khác có thể xảy ra trong phân tích, tuy nhiên, không
vi phạm nghiêm trọng các giả định của ước lượng OLS. Các giả định này chủ yếu
liên quan đến phân tích dữ liệu như:
− Influence – Một số quan sát ảnh hưởng quá mức đến hệ số ước lượng.
2. v i e t l o d . c o m 2 | 18
− Collinearity – Các biến giải thích có cộng tuyến cao với nhau, ảnh hưởng đến
các hệ số ước lượng.
Bảng tổng hợp bên dưới sẽ minh họa tác động của các giả thuyết trên đến độ tin cậy và
tính hiệu quả của ước lượng OLS.
Như vậy, bên cạnh các giả định về phân phối chuẩn của phần dư thì tính chất đồng nhất
về phương sai của phần dư (homogeneity of variance of the residuals) là một trong
những giả định chính của hồi quy OLS. Hay nói cách khác, để thỏa mãn tính chất BLUE
(ước lượng không chệch tuyến tính tốt nhất) thì mô hình OLS cần phải thỏa mãn 2 giả
định quan trọng sau:
0 1 1 2 2 ..( )
( ) 0
. k kE x u
u
y x x
E
β β β β+ + + + +=
=
Các giả định này sẽ bị vi phạm trong các trường hợp mô hình tồn tại hiện tượng phương
sai thay đổi (heteroskedasticity) và tự tương quan của phần dư. Các vấn đề về phương
sai thay đổi và sự tự tương quan của phần dư trong mô hình hồi quy OLS tuy không
làm thiên chệch kết quả ước lượng của hệ số nhưng sẽ làm kết quả ước lượng không
hiệu quả, nhất là các sai số chuẩn ước lượng của hệ số không còn là bé nhất. Bài tiểu
luận này sẽ trình bày các lý thuyết về phương sai thay đổi, cũng như minh họa thực
hành kiểm tra và khắc phục hiện tượng phương sai thay đổi với file dữ liệu về thu nhập
của người lao động. Bộ dữ liệu gồm 20 quan sát bao gồm các biến như WAGE – tiền
công lao động (triệu đồng/năm) của người lao động; EDU – học vấn của người lao
động (số năm đi học) và EXPER – số năm kinh nghiệm (năm). Giả sử chúng ta muốn
3. v i e t l o d . c o m 3 | 18
đánh giá tác động của học vấn và kinh nghiệm đến tiền công của người lao động theo
mô hình như sau: 0 1 2 (*)i i i iWAGE EDU EXPER uβ β β= + + +
2. Giới thiệu phương sai thay đổi
Xét mô hình hồi quy tuyến tính giản đơn như sau: 0 1i i iy x uβ β= + +
Giả sử phương sai sai số thay đổi ( ) 2
|i iVar u x σ≠ (không phải là hằng số cho tất cả các
quan sát) hay ( ) 2
|i i iVar u x σ= với i=1, 2, …, n
Chúng ta đã biết ước lượng của hệ số độ dốc được tính:
( )
( )
1
2
ˆ (1)
n
i i
i
n
i
i
x x y
x x
β
−
=
−
∑
∑
Thay vào phương trình hồi quy tổng thể: 0 1y x uβ β= + + và sắp xếp lại, chúng ta có:
( )
( )
1 1
2
ˆ (2)
n
i i
i
n
i
i
x x u
x x
β β
−
= +
−
∑
∑
Theo giả định về sự không chệch và hiệu quả (tính chất BLUE của ước lượng OLS) thì
( )1 1
ˆE β β= . Vì ( ) ( )
2
1 1 1
ˆ ˆVar Eβ β β = −
nên phương sai của 1
ˆβ được tính như sau:
4. v i e t l o d . c o m 4 | 18
( )
( )
( )
2 2
1 2
2
ˆ (3)
n
i i
i
n
i
i
x x
Var
x x
σ
β
−
=
−
∑
∑
Công thức này khác so với công thức tính phương sai của 1
ˆβ trong trường hợp phương
sai đồng nhất. Chúng ta dễ dàng thấy rằng khi 2 2
iσ σ= hay phương sai đồng nhất thì
( )
( )
( ) ( )
22
2
1 2
22
ˆ (4)
n
i
i
nn
ii
ii
x x
Var
x xx x
σ
σ
β
−
= =
−−
∑
∑∑
Như vậy, phương sai thông thường trong hồi quy OLS sẽ không còn phù hợp trong
trường hợp mô hình tồn tại phương sai thay đổi. Do vậy, nếu chúng ta vẫn tiếp tục sử
dụng các phương sai thông thường này thì việc suy diễn của tất cả các thống kê (thống
kê t, thống kê F, thống kê LM…) sẽ không còn phù hợp và tin cậy. Phương sai thực khi
mô hình tồn tại phương sai thay đổi được gọi là phương sai chuẩn mạnh (robust standard
errors).
Trong trường hợp hồi quy đa biến thì phương sai chuẩn mạnh của hệ số ước lượng của
biến jx được tính như sau:
2^
2
^ ^
1
2
(5)
n
ij i
i
j
j
r û
Var
SST
β =
=
∑
Trong đó rij là phần dư thứ i của phương trình hồi quy xj theo các biến giải thích còn lại
(phương trình hồi quy phụ) và SST là tổng bình phương sai số của biến jx .
3. Phương pháp phát hiện phương sai thay đổi
Vậy làm thế nào để phát hiện hiện tượng không đồng nhất của phần dư hay phương
sai thay đổi? Các phương pháp kiểm tra phương sai thay đổi thường được sử dụng là
vẽ đồ thị phân phối phần dư theo biến giải thích hoặc biến phụ thuộc, sử dụng kiểm
định Breusch - Pagan, kiểm định White tổng quát và kiểm định Park.
5. v i e t l o d . c o m 5 | 18
3.1 Vẽ đồ thị phân phối phần dư theo biến giải thích hoặc biến phụ thuộc
Kết quả hồi quy của mô hình tiền công lao động (*) như sau:
Dependent Variable: WAGE
Method: Least Squares
Date: 05/20/15 Time: 15:30
Sample: 1 20
Included observations: 20
Variable Coefficient Std. Error t-Statistic Prob.
C -7.096855 3.626412 -1.956991 0.0670
EDU 1.933393 0.209949 9.208850 0.0000
EXPER 0.649365 0.172159 3.771895 0.0015
R-squared 0.844981 Mean dependent var 24.41500
Adjusted R-squared 0.826744 S.D. dependent var 9.788354
S.E. of regression 4.074312 Akaike info criterion 5.784762
Sum squared resid 282.2003 Schwarz criterion 5.934122
Log likelihood -54.84762 Hannan-Quinn criter. 5.813918
F-statistic 46.33204 Durbin-Watson stat 2.489657
Prob(F-statistic) 0.000000
Kết quả bước đầu cho thấy cả trình độ học vấn và số năm kinh nghiệm đều tác động
tích cực đến tiền công lao động (ý nghĩa thống kê 1%). Theo đó, tăng thêm 1 năm đi
học, người lao động có khả năng cải thiện được thu nhập của mình thêm 1.93 triệu
đồng/năm. Đối với người lao động có kinh nghiệm thì việc thêm 1 năm thâm niên sẽ có
thể tăng thêm gần 0.65 triệu đồng/năm.
Tuy nhiên, câu hỏi đặt ra là mô hình có tồn tại hiện tượng phương sai thay đổi không?
Bởi nếu có thì các sai số chuẩn, mức ý nghĩa thống kê của hệ số và mô hình có thể bị
thay đổi và mô hình không còn tin cậy để giải thích.
Để kiểm tra mô hình có tồn tại hiện tượng phương sai thay đổi, chúng ta có thể sử dụng
phương pháp đồ thị. Cụ thể: chúng ta muốn biết phần dư có thay đổi theo các giá trị của
các biến giải thích hay không, ta sử dụng đồ thị phân tán của phần dư theo biến EDU
và EXPER như sau:
6. v i e t l o d . c o m 6 | 18
Kết quả của đồ thị Scatter giữa phần dư và học vấn người lao động cũng như giữa phần
dư và số năm kinh nghiệm đều cho thấy phần dư phân bố không đều quanh giá trị trung
bình của 2 biến. Theo đó, chúng ta có lý do để tin rằng phương sai của phần dư là không
đồng nhất.
Ngoài ra, chúng ta có thể nghi ngờ rằng thu nhập tăng theo số năm kinh nghiệm và
tương tự, các sai số cũng tăng theo số năm kinh nghiệm, chúng ta kiểm tra sự nghi ngờ
này bằng cách vẽ đồ thị phần dư theo biến phụ thuộc của mô hình.
-8
-6
-4
-2
0
2
4
6
8
0 10 20 30 40 50
Thu nhap tu tien cong
Phanducuamohinh
Đường thẳng màu đỏ trên hình là đường hồi quy được ước lượng. Đồ thị cho thấy phần
dư phân bố không đồng đều quanh đường hồi quy. Như vậy, chúng ta có thể tin rằng
7. v i e t l o d . c o m 7 | 18
phương sai của phần dư trong mô hình là không đồng nhất hay có thể tồn tại hiện tượng
phương sai thay đổi trong mô hình. Tuy nhiên, để nhận định này được thuyết phục hơn
chúng ta cần thiết kiểm tra lại kết quả thông qua các phép kiểm định thống kê.
3.2 Phương pháp kiểm định thống kê
Chúng ta giả sử rằng các giả định của hồi quy tuyến tính vẫn vẫn hợp lệ để ước lượng
OLS là tin cậy và hiệu quả. Và chúng ta muốn kiểm tra xem giả định về phương sai
đồng nhất có được duy trì hay không bằng cách đặt giả thuyết H0 là:
10 2
2
: ( | , ,..., )kx xH u xVar σ= hay phương sai đồng nhất và giả thuyết thay thế là
11 2
2
: ( | , ,..., )kx xH u xVar σ≠ (phương sai thay đổi).
3.2.1 Kiểm định Breusch – Pagan
3.2.1.1 Lý thuyết
Giả thuyết H0 đôi khi còn được viết lại dưới dạng tương quan giữa các biến giải thích
với phần dư là 1 2
2 2
0 , ,...,: ( | )kx x xH E u σ= . Giả thuyết này cho rằng phương sai không
liên quan đến biến ix . Kiểm định phương sai thay đổi sẽ kiểm tra sự tương quan này.
Nếu giả thuyết H0 không đúng, nghĩa là giá trị kì vọng của 2
u sẽ là một hàm của các
biến ix , hay 1
2
0 1 2 2 ... k kx xu x vα α α α+ + + + +=
Khi đó, nếu phương sai đồng nhất thì 1 2 ... 0kα α α= = = = và 2
0( )E u α= không đổi.
Chúng ta không quan sát được u nhưng có thể ước lượng được nó, do vậy, sử dụng giá
trị ˆu để tính toán các kiểm định F hoặc LM.
Sau khi ước lượng mô hình sử dụng hồi quy OLS, chúng ta ước lượng phương trình
phần dư theo các biến giải thích: 0 1 1 2 2
2
ˆ ... k kx x xu eα α α α+ + + + +=
Kiểm định ý nghĩa các hệ số iα bằng thống kê F(k, n-k-1) hoặc thống kê
ˆ
2 2
* u kLM n R χ= : . Nếu giá trị tính toán này lớn hơn giá trị tra bảng thì chúng ta bác bỏ
H0, nghĩa là tồn tại hiện tượng phương sai thay đổi. Trường hợp sử dụng kiểm định LM
thì phương pháp này được gọi là kiểm định phương sai thay đổi Breusch – Pagan.
3.2.1.2 Thực hành trên Eview
Trở lại ví dụ trên, kiểm định Breush – Pagan về hiện tượng phương sai phần dư thay
đổi được thực hiện trên Eview cho kết quả như sau:
8. v i e t l o d . c o m 8 | 18
Heteroskedasticity Test: Breusch-Pagan-Godfrey
F-statistic 4.300907 Prob. F(2,17) 0.0308
Obs*R-squared 6.719691 Prob. Chi-Square(2) 0.0347
Scaled explained SS 3.048644 Prob. Chi-Square(2) 0.2178
Test Equation:
Dependent Variable: RESID^2
Method: Least Squares
Date: 05/20/15 Time: 15:40
Sample: 1 20
Included observations: 20
Variable Coefficient Std. Error t-Statistic Prob.
C -4.109655 12.43955 -0.330370 0.7452
EDU -0.258473 0.720182 -0.358900 0.7241
EXPER 1.686503 0.590551 2.855815 0.0109
R-squared 0.335985 Mean dependent var 14.11001
Adjusted R-squared 0.257865 S.D. dependent var 16.22334
S.E. of regression 13.97597 Akaike info criterion 8.250036
Sum squared resid 3320.570 Schwarz criterion 8.399396
Log likelihood -79.50036 Hannan-Quinn criter. 8.279193
F-statistic 4.300907 Durbin-Watson stat 1.787133
Prob(F-statistic) 0.030797
Cả thống kê F và thống kê LM (Obs*R-squared) đều có giá trị p nhỏ hơn 0.05, cho thấy
có đủ bằng chứng để bác bỏ H0, nghĩa là mô hình tồn tại vấn đề phương sai thay đổi.
Giá trị p của biến EDU trong phương trình hồi quy phụ bằng 0.724 lớn hơn 0.05 cho
thấy giá trị hệ số ước lượng của EDU là khác 0 hay tồn tại mối tương quan giữa EDU
và phần dư của mô hình.
3.2.2 Kiểm định White
3.2.2.1 Lý thuyết
Theo định lý Gauss – Markov thì các giả định sai số chuẩn và kiểm định thống kê là
phù hợp. Điều này dẫn đến giả định phương sai không đổi có thể được thay thế bởi 1
giả định yếu hơn là bình phương của sai số 2
u là không tương quan với các biến giải
thích ix , bình phương của ix ( 2
ix ) và các biến giải thích tương tác i jx x . Đây chính là giả
thuyết cơ bản của kiểm định White (1980) về phương sai thay đổi.
9. v i e t l o d . c o m 9 | 18
Giả sử một mô hình hồi quy với k=3 biến giải thích thì kiểm định White sẽ kiểm tra giả
thuyết 1 20 9... 0:H α α α= = = = của phương trình sau:
0 1 1 2 2 2 2
2 2 2
4 1 5 2 6 3
7 1 2 8
2
1 3 9 2 3
ˆu x x x
x x x
x x x x x x e
α α α α
α α α
α α α
+ + +
+ + +
+ + + +
=
So với kiểm định Breusch – Pagan tương ứng thì kiểm định White nhiều hơn 6 tham số
ước lượng. Kiểm định White có thể sử dụng thống kê F hoặc thống kê LM để tính toán
giá trị của kiểm định tương tự như kiểm định Breusch – Pagan ở trên.
Tuy nhiên cần lưu ý khi k càng tăng thì số tham số ước lượng càng nhiều và bậc tự do
càng giảm dẫn đến giảm độ tin cậy của kết quả. Đây là điểm hạn chế của kiểm định
White.
Khắc phục vấn đề về sự giảm mạnh bậc tự do theo số biến giải thích, kiểm định White
biến đổi sử dụng biến phụ thuộc dự báo ( ˆy ) và 2
ˆy thay thế các biến ix , 2
ix , i jx x trên.
Khi đó, cần kiểm định hệ số 1 2 0α α= = của phương trình sau: 2
0
2
1 2
ˆ ˆˆ yu y eα α α= + + +
3.2.2.2 Thực hành trên Eview
Minh họa ví dụ tiền công, kiểm định White về phương sai thay đổi được thực hiện trên
Eview cho kết quả như sau:
Heteroskedasticity Test: White
F-statistic 2.280592 Prob. F(5,14) 0.1030
Obs*R-squared 8.977661 Prob. Chi-Square(5) 0.1100
Scaled explained SS 4.073059 Prob. Chi-Square(5) 0.5389
Test Equation:
Dependent Variable: RESID^2
Method: Least Squares
Date: 05/20/15 Time: 16:03
Sample: 1 20
Included observations: 20
Variable Coefficient Std. Error t-Statistic Prob.
C 42.61452 44.62289 0.954992 0.3558
EDU^2 -0.152734 0.130101 -1.173964 0.2600
EDU*EXPER 0.226517 0.200573 1.129347 0.2777
EDU -0.108721 3.136868 -0.034659 0.9728
EXPER^2 0.200715 0.136810 1.467110 0.1644
10. v i e t l o d . c o m 10 | 18
EXPER -5.840211 5.156813 -1.132523 0.2764
R-squared 0.448883 Mean dependent var 14.11001
Adjusted R-squared 0.252056 S.D. dependent var 16.22334
S.E. of regression 14.03056 Akaike info criterion 8.363678
Sum squared resid 2755.993 Schwarz criterion 8.662398
Log likelihood -77.63678 Hannan-Quinn criter. 8.421991
F-statistic 2.280592 Durbin-Watson stat 1.723011
Prob(F-statistic) 0.102955
Nhận xét:
− Cả thống kê F và LM đều có giá trị p lớn hơn 0.05; do vậy, ở mức ý nghĩa
5% giả thuyết H0 về sự đồng nhất của phương sai được chấp nhận. Nghĩa
là mô hình không tồn tại hiện tượng phương sai thay đổi.
− Bậc tự do của 2 kiểm định F(5, 14) và Chi-square(5) ở bảng kết quả trên
đều lớn hơn giá trị F(2,17) và Chi-square(2) của kiểm định Breusch –
Pagan trình bày ở trên. Chính vì sự sụt giảm mạnh của bậc tự do trong
điều kiện mẫu nhỏ (n = 20) đã làm kết quả trở nên không tin cậy. Đây là
một trường hợp điển hình minh họa ảnh hưởng của cở mẫu đến kết quả
kiểm định phương sai thay đổi.
3.2.3 Kiểm định Park
3.2.3.1 Lý thuyết
Giả sử, chúng ta có lý nghi ngờ phương sai của sai số có mối quan hệ với một biến iz
nào đó như sau: ( ) 2
i i iVar u zσ= . Kiểm định Park sẽ kiểm tra sự tồn tại của iz như sau:
Ước lượng và ghi nhận phần dư iu của phương trình: 0 1 1 2 2 ...i i i k ik iy x x x uβ β β β= + + + + +
Thực hiện hồi quy phụ phương trình: ( )2
0 1ln lni iu zα α= +
Kiểm tra ý nghĩa thống kê của hệ số ln iz :
0 1
1 1
: 0
: 0
H
H
α
α
=
≠
Bác bỏ H0 ở mức ý nghĩa thống kê (5% chẳng hạn), cho thấy mô hình tồn tại hiện tượng
phương sai thay đổi.
11. v i e t l o d . c o m 11 | 18
3.2.3.2 Thực hành trên Eview
Ở phần kiểm định Breusch – Pagan cho thấy tồn tại mối quan hệ giữa phần dư bình
phương (RES1^2) và biến EXPER (ý nghĩa thống kê 5%), do vậy, trong phần kiểm định
Park chúng ta có lý do tin rằng có mối quan hệ giữa LOG(RES1^2) và LOG(EXPER)
Kết quả kiểm định Park trên Eview như sau:
Dependent Variable: LOG(RES1^2)
Method: Least Squares
Date: 05/20/15 Time: 16:22
Sample: 1 20
Included observations: 20
Variable Coefficient Std. Error t-Statistic Prob.
C -2.148456 1.609859 -1.334562 0.1987
LOG(EXPER) 1.510216 0.649713 2.324435 0.0320
R-squared 0.230868 Mean dependent var 1.450748
Adjusted R-squared 0.188138 S.D. dependent var 2.186339
S.E. of regression 1.969965 Akaike info criterion 4.288549
Sum squared resid 69.85375 Schwarz criterion 4.388122
Log likelihood -40.88549 Hannan-Quinn criter. 4.307986
F-statistic 5.402998 Durbin-Watson stat 2.189175
Prob(F-statistic) 0.032003
Kết quả:
Bác bỏ giả thuyết H0 cho rằng hệ số của log(EXPER^2) bằng 0 ở mức ý nghĩa 5%
cho thấy mô hình tồn tại hiện tượng phương sai thay đổi theo lý thuyết trình bày ở
trên.
3.3 Kết luận
Bằng các đồ thị trực quan về mối quan hệ giữa phần dư theo các biến giải thích, biến
phụ thuộc cũng như kết quả của kiểm định Breusch – Pagan và kiểm định Park đều
cho thấy mô hình tồn tại hiện tượng phương sai thay đổi. Để mô hình có thể được sử
dụng để suy diễn thống kê, chúng ta cần phải khắc phục hiện tượng phương sai thay
đổi này.
12. v i e t l o d . c o m 12 | 18
4. Phương pháp khắc phục phương sai thay đổi
Giả sử, chúng ta đã có bằng chứng cho rằng mô hình tồn tại phương sai thay đổi, vậy
làm thế nào để khắc phục hiện tượng phương sai thay đổi. Sau đây là một số phương
pháp khắc phục phương sai thay đổi.
4.1 Nhận dạng lại mô hình hoặc xác định lại dạng hàm của biến
Trong trường hợp giá trị của 1 biến có sự phân tán mạnh (bác bỏ H0 của kiểm định
Goldfeldt-Quant) thì cần xem xét lấy logarit của biến đó thay vì lấy giá trị ban đầu. Việc
lấy logarit ngoài việc làm giảm sự chênh lệch giá trị giữa các quan sát, nó còn giúp phân
phối của biến tập trung quanh giá trị trung bình (tiệm cận phân phối chuẩn). Ngoài ra,
sự tồn tại của hiện tượng phương sai thay đổi có thể do ảnh hưởng của các vấn đề liên
quan như bỏ sót các biến quan trọng, thừa biến…
Trở lại ví dụ trên, chúng ta lần lượt tạo 2 biến là LWAGE = log(WAGE) và EXP2 =
EXPER^2. Sở dĩ chúng ta tạo EXP2 bằng bình phương của EXPER bởi vì ở đồ thị
Scatter phần dư theo EXPER chúng ta quan sát thấy đồ thị xác lập một mẫu hình parabol
lồi. Sau đó ước lượng phương trình hồi quy mẫu như sau: LWAGE C EDU EXPER
EXP2 và tiến hành thực hiện lại các kiểm định thống kê trên.
Bỏ qua kết quả hồi quy, kết quả kiểm định Breusch – Pagan cho mô hình mới này như
sau:
Heteroskedasticity Test: Breusch-Pagan-Godfrey
F-statistic 2.488443 Prob. F(3,16) 0.0976
Obs*R-squared 6.362859 Prob. Chi-Square(3) 0.0952
Scaled explained SS 2.480962 Prob. Chi-Square(3) 0.4787
Test Equation:
Dependent Variable: RESID^2
Method: Least Squares
Date: 05/20/15 Time: 16:33
Sample: 1 20
Included observations: 20
Variable Coefficient Std. Error t-Statistic Prob.
C 0.098889 0.067248 1.470514 0.1608
EDU -0.006528 0.002732 -2.389569 0.0295
EXPER 0.002934 0.009919 0.295836 0.7712
EXP2 -3.06E-05 0.000416 -0.073702 0.9422
13. v i e t l o d . c o m 13 | 18
R-squared 0.318143 Mean dependent var 0.051576
Adjusted R-squared 0.190295 S.D. dependent var 0.058411
S.E. of regression 0.052561 Akaike info criterion -2.876844
Sum squared resid 0.044202 Schwarz criterion -2.677697
Log likelihood 32.76844 Hannan-Quinn criter. -2.837968
F-statistic 2.488443 Durbin-Watson stat 1.530007
Prob(F-statistic) 0.097571
Như vậy, sau khi biến đổi dạng hàm, bổ sung thêm các biến quan trọng mô hình mới
không tồn tại hiện tượng phương sai thay đổi (giá trị p của thống kê F và LM đều lớn
hơn 5%).
4.2 Sử dụng các sai số chuẩn mạnh (robust standard errors)
Mô hình tồn tại hiện tượng phương sai thay đổi vẫn cho các hệ số ước lượng tin cậy
nhưng các sai số chuẩn của hệ số không còn là nhỏ nhất. Kéo theo các sai số chuẩn này
là các giá trị thống kê t (được tính bằng tỷ số của hệ số ước lượng và sai số chuẩn tương
ứng) giảm hoặc mất đi ý nghĩa thống kê. Việc nới lỏng một số tính chất BLUE, ở đây
là sai số tối thiểu, sẽ giúp ước lượng OLS cho kết quả tốt hơn về các sai số chuẩn. Ý
nghĩa của robust standard errors chính là cởi bỏ ràng buộc “tối thiểu sai số” của OLS
và đưa các sai số này về giá trị thật của nó. Phương pháp này sẽ phù hợp khi mô hình
có cở mẫu đủ lớn.
Vì cở mẫu của ví dụ khá nhỏ (n = 20) nên phương pháp hồi quy với sai số chuẩn mạnh
sẽ không có sự khác biệt lớn với OLS thông thường. Tuy nhiên, vì mục đích minh họa
sự khác nhau giữa sai số chuẩn mạnh và sai số thông thường, đề tài vẫn trình bày phương
pháp hồi quy với sai số chuẩn mạnh như sau:
14. v i e t l o d . c o m 14 | 18
Cả 2 biến EDU, EXPER ở 2 mô hình đều có ý nghĩa thống kê ở mức 1%. Sự khác biệt
về phương sai (qua sai số chuẩn) không thực sự đáng kể. Trong trường hợp cở mẫu lớn
thì sự khác biệt giữa 2 sai số chuẩn này là đáng kể, và có thể ảnh hưởng đến ý nghĩa
thống kê của hệ số ước lượng.
4.3 Ước lượng bình phương tối thiểu có trọng số (Weighted Least Square – WLS)
Sử dụng ước lượng bình phương tối tiểu tổng quát (GLS) để tối thiểu hóa tổng bình
phương phần dư của mô hình có trọng số. Ý tưởng của phương pháp WLS là gán các
trọng số nhỏ nhất cho các phần dư lớn nhất. Trong điều kiện phương sai thay đổi,
phương pháp WLS sẽ cho kết quả tin cậy và hiệu quả hơn so với OLS.
Phương pháp này đòi hỏi kinh nghiệm của người nghiên cứu khi biết về nguồn gốc gây
nên phương sai thay đổi, iz . Nó thích hợp sử dụng cùng với kiểm định Park.
Xét mô hình hồi quy tuyến tính đa biến như sau: 0 1 1 2 2 ...i i i k ik iy x x x uβ β β β= + + + + +
Giả sử rằng, dạng hàm của phương sai sai số có dạng: 2
1 2( | , ,..., ) ( )i i i ikVar u x x x h xσ=
Ở đây, h(x) > 0 là một hàm được biết bất kì của x.
Chúng ta sử dụng h(x) để biến đổi mô hình ban đầu trở nên thỏa mãn tính chất đồng
nhất của phương sai sai số. Thủ tục biến đổi này được gọi là bình phương tối thiểu có
trọng số (WLS).
Quy trình thực hiện WLS như sau:
− Nhân 2 vế phương trình hồi quy tuyến tính đa biến với thành phần
1
( )h x
0 1 1 2 2
1 1 1 1 1 1
...
( ) ( ) ( ) ( ) ( ) ( )
i i i k ik iy x x x u
h x h x h x h x h x h x
β β β β= + + + + +
Hoặc viết đơn giản dưới dạng
* * * * * * *
0 0 1 1 2 2 0
1
... ,
( )
i i i i k ik i iy x x x x u x
h x
β β β β= + + + + + =
− Khi đó phương sai của phần dư sẽ là:
* *2 2
2 2
1
( | ) ( | ) ( | )
( )
1
( )
( )
i i iVar u x E u x E u x
h x
h x
h x
σ σ
= = =
= =
15. v i e t l o d . c o m 15 | 18
Phương pháp ước lượng OLS với mô hình biến đổi được gọi là phương pháp ước lượng
bình phương tổng quát (GLS). Ước lượng GLS có các đặc điểm sau:
− WLS là một trường hợp đặc biệt của ước lượng GLS khi GLS được sử dụng để
khắc phục vấn đề phương sai thay đổi.
− Ước lượng GLS sẽ khác OLS trong mô hình gốc ban đầu, tuy nhiên, việc giải
thích các hệ số sẽ dựa trên các hệ số của các biến ban đầu. Kết quả ước lượng
của *
jβ thỏa mãn tính chất BLUE. Giá trị 2
R của mô hình biến đổi không có ý
nghĩa đo lường độ phù hợp của mô hình, tuy nhiên, có thể được sử dụng để tính
toán các trị thống kê.
− Ước lượng GLS vẫn có thể tồn tại sự tự tương quan trong phân tích dữ liệu thời
gian.
− Trong trường hợp chúng ta không biết rõ dạng hàm của h(x) thì ước lượng GLS
sẽ không thực hiện được. Khi đó, cần thiết phải sử dụng một phương pháp tổng
quát khả thi khác, gọi là FGLS (ước lượng bình phương tối thiểu tổng quát khả
thi).
Bằng cách giả định phương sai của phần dư có mối quan hệ lũy thừa với tổ hợp
tuyến tính các biến giải thích như sau: 2
0 1 1 2 2( | ) exp( ... )i i k ikVar u x x x xσ δ δ δ δ= + + + + ,
trong đó: 0 1 1 2 2( ) exp( ... )i i k ikh x x x xδ δ δ δ= + + + +
Quy trình thực hiện ước lượng FGLS được thực hiện như sau:
− Ước lượng OLS cho mô hình 0 1 1 2 2 ...i i i k ik iy x x x uβ β β β= + + + + +
− Lưu lại phần dư ˆu và tạo biến mới là ˆlogu
− Hồi quy ˆlogu theo các biến giải thích trong mô hình
− Lưu lại giá trị dự báo, ˆg và tạo biến mới ˆ ˆexp( )h g=
− Thực hiện ước lượng WLS với trọng số là ˆ1/ h
Sau đây là quy trình ước lượng FGLS trong trường hợp phương sai sai số thay đổi cho
ví dụ của đề tài được thực hiện trên Eview.
Ở phần kiểm định Breusch – Pagan cho thấy tồn tại mối quan hệ giữa phần dư bình
phương (RES1^2) và biến EXPER (ý nghĩa thống kê 5%), va2 trong phần kiểm định
Park cho thấy tồn tại mối quan hệ giữa LOG(RES1^2) và LOG(EXPER), vì vậy, trong
ước lượng FGLS chúng ta chọn trọng số là 1/EDU
Kết quả hồi quy có trọng số trên Eview như sau:
16. v i e t l o d . c o m 16 | 18
Dependent Variable: WAGE
Method: Least Squares
Date: 05/20/15 Time: 17:04
Sample: 1 20
Included observations: 20
Weighting series: 1/EDU
Weight type: Inverse standard deviation (EViews default scaling)
Variable Coefficient Std. Error t-Statistic Prob.
C -3.159670 1.942670 -1.626457 0.1222
EDU 1.795724 0.155550 11.54439 0.0000
EXPER 0.458799 0.162866 2.817043 0.0119
Weighted Statistics
R-squared 0.910242 Mean dependent var 18.74566
Adjusted R-squared 0.899682 S.D. dependent var 4.770558
S.E. of regression 3.984458 Akaike info criterion 5.740161
Sum squared resid 269.8905 Schwarz criterion 5.889521
Log likelihood -54.40161 Hannan-Quinn criter. 5.769318
F-statistic 86.19893 Durbin-Watson stat 3.134636
Prob(F-statistic) 0.000000 Weighted mean dep. 11.16509
Unweighted Statistics
R-squared 0.830952 Mean dependent var 24.41500
Adjusted R-squared 0.811063 S.D. dependent var 9.788354
S.E. of regression 4.254687 Sum squared resid 307.7401
Durbin-Watson stat 2.556424
Kết quả ước lượng của mô hình có trọng số vừa cho kết quả tin cậy với khả năng giải
thích cao (0.8997 với 0.831 của mô hình không có trọng số) và hiệu quả hơn so với mô
hình không có trọng số. Kết quả sai số chuẩn của phương trình hồi quy trong trường
hợp có trọng số nhỏ hơn so với giá trị sai số chuẩn trong trường hợp bình thường.
Ngoài ra, phần dư của mô hình hồi quy có trọng số không tồn tại hiện tượng phương sai
thay đổi. Kết quả kiểm định Breusch – Pagan bên dưới cho thấy phần dư của kết quả
ước lượng với FGLS có phương sai đồng nhất (ý nghĩa thống kê 5%).
17. v i e t l o d . c o m 17 | 18
Heteroskedasticity Test: Breusch-Pagan-Godfrey
F-statistic 3.197852 Prob. F(1,18) 0.0906
Obs*R-squared 3.017147 Prob. Chi-Square(1) 0.0824
Scaled explained SS 2.929072 Prob. Chi-Square(1) 0.0870
Test Equation:
Dependent Variable: WGT_RESID^2
Method: Least Squares
Date: 05/20/15 Time: 17:11
Sample: 1 20
Included observations: 20
Collinear test regressors dropped from specification
Variable Coefficient Std. Error t-Statistic Prob.
C 3.273103 7.467070 0.438338 0.6664
EXPER*WGT 0.812351 0.454270 1.788254 0.0906
R-squared 0.150857 Mean dependent var 13.49452
Adjusted R-squared 0.103683 S.D. dependent var 22.69648
S.E. of regression 21.48768 Akaike info criterion 9.067476
Sum squared resid 8310.964 Schwarz criterion 9.167049
Log likelihood -88.67476 Hannan-Quinn criter. 9.086913
F-statistic 3.197852 Durbin-Watson stat 1.041490
Prob(F-statistic) 0.090581
5. Phụ lục thao tác thực hành trên Eview
Để kiểm tra hiện tượng phương sai thay đổi, trên phần mềm EVIEW chúng ta có thể
thao tác như sau:
5.1 Phương pháp đồ thị:
− Chọn EXPER, bấm giữ RES1 (Lưu ý chọn EXPER trước để RES1 trên trục tung)
− Bấm chuột phải vào 2 biến đã chọn à chọn Open àAs Group
− Cửa sổ mới mở ra, chọn View à Graph
− Tại mục Specific à chọn Scatter à OK
5.2 Phương pháp kiểm định
− Tại cửa sổ kết quả ước lượng, chọn View à Residual Diagnotics à
Heteroskedasticity Tests…
− Tại ô Test type chọn loại kiểm định tương ứng như White, Breusch – Pagan –
Godfrey…
18. v i e t l o d . c o m 18 | 18
5.3 Thao tác khắc phục hiện tượng phương sai thay đổi trên Eview
− Tại cửa sổ kết quả ước lượng, chọn Estimate
− Chuyển qua thẻ Options, tại mục Coefficient covariance matrix chọn White để
thực hiện hồi quy với sai số chuẩn mạnh
− Hoặc tại mục Weights, chọn Invserve Std.dev. để thực hiện hồi quy có trọng số
KẾT LUẬN VỀ PHƯƠNG SAI THAY ĐỔI
Hiện tượng phương sai thay đổi tuy không làm thiên chệch kết quả ước lượng của hệ số
nhưng sẽ làm kết quả ước lượng không hiệu quả khi các sai số chuẩn ước lượng của hệ
số không còn là bé nhất. Ngoài ra, phương sai thay đổi rất nhạy với các giả định của mô
hình, do đó, chúng ta cần chẩn đoán dữ liệu đồng thời kết hợp các phương pháp để đánh
giá rõ hơn về hiện tượng phương sai thay đổi. Có 2 phương pháp thường được sử dụng
để phát hiện vấn đề phương sai thay đổi là phương pháp đồ thị (vẽ đồ thị phân phối của
phần dư theo biến phụ thuộc và các biến giải thích) và phương pháp kiểm định. Phương
pháp kiểm định phổ biến được sử dụng là kiểm định White, kiểm định Breusch – Pagan
– Godfrey, kiểm định Park… Nếu kết quả cho thấy phần dư của mô hình có phương sai
thay đổi thì chúng ta có thể sử dụng phương pháp sai số chuẩn mạnh (sai số thực), hoặc
hồi quy có trọng số (FGLS, WLS) hoặc biến đổi dạng hàm, bổ sung biến quan trọng để
khắc phục vấn đề này.