Phương sai thay đổi là gì? Hậu quả, nhận biết và khắc phục? là tài liệu vô cùng bổ ích giúp quý độc giả tiết kiệm thời gian và công sức làm việc. Sau đây là nội dung chi tiết mời các bạn cùng tham khảo.
Mục lục bài viết
1. Phương sai thay đổi là gì?
Khái niệm về phương sai sai số thay đổi (Heteroscedasticity) là:
Đây là một hiện tượng khi phần dư (residuals) hoặc sai số (e) của mô hình sau quá trình hồi quy không tuân theo phân phối ngẫu nhiên và có sự biến đổi về phương sai không đồng đều. Hiện tượng này mâu thuẫn với giả thuyết của mô hình hồi quy tuyến tính, trong đó giả định rằng phương sai của sai số là không đổi, được gọi là homoskedasticity.
Phương sai sai số thay đổi thường xuất hiện trong các loại dữ liệu như dữ liệu bảng (panel-data) và dữ liệu cắt ngang (cross-sectional data).
2. Những hiểu biết về Phương sai thay đổi:
Có hai loại phương sai sai số thay đổi chính:
Phương sai thay đổi không có điều kiện: Điều này xảy ra khi phương sai biến đổi của các sai số hoặc phần dư không có sự tương quan đặc biệt với các biến độc lập trong mô hình hồi quy.
Phương sai thay đổi có điều kiện: Điều này xảy ra khi phương sai biến đổi của các sai số hoặc phần dư có sự tương quan với các biến độc lập trong mô hình hồi quy.
Thông qua những phân tích này, chúng ta có thể hiểu rõ hơn về hiện tượng phương sai sai số thay đổi và cách nó có thể ảnh hưởng đến mô hình hồi quy.
Hiện tượng phương sai sai số thay đổi trong mô hình có thể xuất phát từ những nguyên nhân chính:
1. Phương sai sai số có thể biến đổi do sự xuất hiện của sai sót trong quá trình điều chỉnh và biến đổi dữ liệu, hoặc do sự chọn lựa không chính xác của hàm mô hình. Điều này cũng có thể xuất phát từ việc bỏ sót các biến quan trọng trong mô hình.
2. Nguyên nhân thứ hai có thể phát sinh khi sử dụng các thang đo khác nhau cho cùng một biến trong mô hình hồi quy.
3. Hiện tượng phương sai thay đổi, còn được gọi là Heteroscedasticity, xuất hiện khi phương sai của các giá trị dự đoán không đồng đều trên toàn bộ phạm vi của biến độc lập. Điều này có thể xuất hiện do nhiều yếu tố, bao gồm:
– Mô hình có sai số không đồng đều trên dải dữ liệu.
– Sự khác biệt trong sự phân tán của biến phụ thuộc giữa các nhóm dữ liệu khác nhau.
– Tác động của các biến không được bao gồm trong mô hình nhưng lại có ảnh hưởng đến biến phụ thuộc.
– Mối tương quan giữa các biến độc lập.
– Sự không đồng nhất trong mức độ ảnh hưởng của các quan sát đối với biến phụ thuộc.
Nguyên nhân chính dẫn đến hiện tượng phương sai thay đổi thường là sự xuất hiện của các giá trị ngoại lệ (outliers) trong biến. Các giá trị ngoại lệ là các quan sát có giá trị quá lớn hoặc quá nhỏ so với các quan sát khác, dẫn đến tăng đáng kể độ biến đổi của dữ liệu và tạo ra sự không đồng đều trong phương sai giữa các quan sát. Ngoài ra, hiện tượng này cũng có thể xảy ra khi mô hình không phù hợp hoặc khi có sai sót trong quá trình biến đổi dữ liệu.
Ngoài ra, một nguyên nhân khác dẫn đến sự biến thiên của phương sai có thể xuất phát từ việc đo lường cùng một biến bằng các thang đo khác nhau. Chẳng hạn, khi đo lường thu nhập, người ta có thể sử dụng đơn vị tỷ đồng cho những người có thu nhập cao, trong khi lại sử dụng đơn vị triệu đồng cho những người có thu nhập thấp hơn mà không ý thức đến. Kết quả là, sự chênh lệch về độ lớn của các quan sát tăng lên, d导致sự khác biệt về phương sai giữa các quan sát cũng tăng lên.
Tuy nhiên, hiện tượng biến đổi của phương sai cũng có thể phát sinh do sai sót trong quá trình xử lý dữ liệu. Trong quá trình này, nếu không thực hiện cẩn thận hoặc thiếu kinh nghiệm, có thể xảy ra các sai sót trong việc thực hiện các phép tính hoặc biến đổi dữ liệu, sự biến đổi của phương sai.
3. Hậu quả của phương sai sai số thay đổi là gì?
Phương sai sai số thay đổi (Heteroscedasticity) không ảnh hưởng đến tính không thiên lệch và độ tin cậy (unbiased and consistent) của các ước lượng từ mô hình OLS (Ordinary Least Squares).
Tuy nhiên, kết quả là mô hình OLS không còn là mô hình ước lượng tốt nhất và cần phải được cải thiện trong các mô hình cao cấp hơn.
Hơn nữa, hiện tượng này sẽ gây sai lệch cho các kiểm định T và F, dẫn đến những kết luận không chính xác.
Phương sai biến đổi, hay còn gọi là hiện tượng heteroscedasticity, có thể gây ra những hậu quả không mong muốn trong quá trình mô hình hóa và ước lượng. Ban đầu, phương sai biến đổi không ảnh hưởng đến tính không chệch và nhất quán của các ước lượng OLS, nhưng nó có thể làm giảm hiệu suất của chúng. Cụ thể, các ước lượng OLS không còn đáng tin cậy như các ước lượng tuyến tính không chệch tốt nhất (BLUE) nữa, thay vào đó, chúng chỉ còn là các ước lượng tuyến tính không chệch (LUE).
Khi xảy ra hiện tượng phương sai biến đổi, các kiểm định t và F dựa trên giả định chuẩn của mô hình hồi quy tuyến tính truyền thống không thể đáng tin cậy nữa. Điều này dẫn đến các kết luận sai về ý nghĩa thống kê của các hệ số hồi quy được ước lượng. Để khắc phục vấn đề này, chúng ta cần áp dụng phương pháp bình phương bé nhất có trọng số (WLS) để tạo ra các ước lượng BLUE. Phương pháp này sẽ tính toán trọng số cho từng quan sát dựa trên phương sai của chúng. Trọng số lớn hơn được gán cho các quan sát có phương sai nhỏ hơn, giúp cải thiện độ chính xác của ước lượng và giảm thiểu ảnh hưởng của hiện tượng phương sai biến đổi.
Tóm lại, hiện tượng phương sai biến đổi có thể gây ra các vấn đề quan trọng trong quá trình mô hình hóa và ước lượng, và phương pháp WLS là một giải pháp hiệu quả để xử lý tình huống này.
4. Nhận biết phương sai sai số thay đổi là gì?
Nhận biết phương sai sai số thay đổi, hay hiện tượng heteroscedasticity, trong dữ liệu là một bước quan trọng để đảm bảo tính đáng tin cậy của mô hình hồi quy tuyến tính. Dưới đây là một số cách để nhận biết hiện tượng phương sai sai số thay đổi:
Biểu đồ Scatterplot của Residuals: Vẽ biểu đồ Scatterplot của các sai số (residuals) so với giá trị dự đoán hoặc biến độc lập. Nếu biểu đồ này có hình dạng hẹp ở một phần của nó và rộng ở phần khác, thì có thể đây là dấu hiệu của phương sai sai số thay đổi.
Biểu đồ Residuals vs. Fitted Values: Vẽ biểu đồ sai số so với giá trị dự đoán (fitted values). Nếu biểu đồ này có hình dạng hình chữ U hoặc có biểu hiện mô-típ, đó có thể là một dấu hiệu của heteroscedasticity.
Kiểm tra bằng mắt: Xem xét độ biến động của sai số theo thời gian hoặc theo giá trị của biến độc lập. Nếu biến động không đồng đều, bạn có thể nghi ngờ về sự tồn tại của phương sai sai số thay đổi.
Kiểm định thống kê: Sử dụng các kiểm định thống kê như kiểm định Breusch-Pagan hoặc kiểm định White để kiểm tra tính đồng nhất của phương sai sai số. Nếu giá trị p của kiểm định thấp (thường < 0.05), bạn có thể kết luận rằng có hiện tượng heteroscedasticity.
Kiểm tra với biến độc lập: Xem xét sự biến động của sai số theo từng giá trị của biến độc lập. Nếu biến động không đều qua các giá trị của biến độc lập, đó là một dấu hiệu khả nghi về phương sai sai số thay đổi.
Sử dụng biểu đồ Quantile-Quantile (Q-Q): Biểu đồ Q-Q plot của sai số có thể giúp bạn xem xét sự phân phối của chúng. Nếu biểu đồ này không theo một đường thẳng, có thể có hiện tượng heteroscedasticity.
Mô hình hóa alternative: Thử mô hình hóa dữ liệu bằng các phương pháp khác, như mô hình hồi quy có trọng số (WLS) hoặc mô hình hồi quy tỷ lệ (logistic regression), để kiểm tra liệu mô hình này có cải thiện tính đồng nhất của sai số không.
Khi bạn nhận biết được hiện tượng phương sai sai số thay đổi, bạn có thể thực hiện các biện pháp điều chỉnh, chẳng hạn như sử dụng mô hình hồi quy có trọng số (WLS) để xử lý vấn đề này và làm cho ước lượng của mô hình của bạn trở nên đáng tin cậy hơn.
5. Cách khắc phục phương sai sai số thay đổi là gì?
Cách 1: Để khắc phục hiện tượng phương sai thay đổi (Heteroscedasticity), ta có thể sử dụng phương pháp Weighted Least Squares (WLS). Phương pháp này tương tự như OLS, nhưng trước khi ước lượng mô hình, ta cần điều chỉnh hoặc biến đổi các giá trị quan sát theo phương sai tương ứng. Tuy nhiên, để xác định cách biến đổi phù hợp, chúng ta cần thử nghiệm và điều chỉnh nhiều lần.
Cách 2: Một phương pháp khác để xử lý hiện tượng phương sai thay đổi là chuyển đổi biến thành dạng log. Khi làm như vậy, thang đo của biến sẽ thu nhỏ, giúp giảm hiện tượng phương sai thay đổi. Tuy nhiên, lưu ý rằng biến đổi log chỉ áp dụng cho các quan sát có giá trị lớn hơn 0 và hệ số beta sẽ được giải thích dưới dạng phần trăm thay đổi.
Cách 3: Để loại bỏ các giá trị ngoại lệ (outliers) trong dữ liệu, ta có thể sử dụng phương pháp winsorize. Để xác định sự có mặt của các giá trị ngoại lệ, ta có thể sử dụng lệnh summarize để truy xuất thông tin về giá trị trung bình, độ lệch chuẩn, giá trị lớn nhất và giá trị nhỏ nhất của biến. Khi độ lệch chuẩn quá lớn, có khả năng xuất hiện các giá trị ngoại lệ.
Để loại bỏ các giá trị ngoại lệ này, ta sử dụng lệnh winsor. Tuy nhiên, lệnh này không được tích hợp sẵn trong STATA và cần cài đặt trước khi sử dụng. Lệnh winsor không thay đổi số lượng quan sát, mà thay thế các giá trị ngoại lệ bằng các giá trị khác. Ví dụ, ta có thể loại bỏ 1% giá trị nhỏ nhất và 1% giá trị lớn nhất trong dữ liệu, lệnh winsor sẽ thay thế chúng bằng giá trị lớn thứ 2% và nhỏ thứ 99%.
Để sử dụng lệnh winsor, ta sử dụng công thức sau: “winsorize biến A, tạo biến mới là bienA_w, với tham số p(#) hoặc h(#) được chỉ định.” Đối với tham số p, ta chỉ định tỷ lệ % dữ liệu muốn winsor, tuy nhiên số này phải nhỏ hơn 0.5. Dựa trên kinh nghiệm, nên thử với % nhỏ nhất như 0.01 (tương đương 1%) và sau đó kiểm tra lại các giá trị thống kê mô tả. Đối với tham số h, ta chỉ định số lượng quan sát mà muốn thay đổi ở mỗi đầu dữ liệu. H này có thể nhận giá trị ít nhất là 1 quan sát và nhiều nhất là 50% quan sát trong bộ dữ liệu. Nếu muốn chỉ điều chỉnh dữ liệu ở một trong hai đầu, có thể thêm lựa chọn highonly (cho giá trị lớn) hoặc lowonly (cho giá trị nhỏ).