Trong bối cảnh công nghệ thông tin phát triển mạnh mẽ, "dữ liệu dọc" không còn là cụm từ xa lạ với mọi người. Hiểu được dữ liệu dọc là gì? Đặc điểm và ý nghĩa của dữ liệu dọc sẽ giúp người quản lý có thể thực hiện công việc của mình một cách hiệu quả và tối ưu nhất.
Mục lục bài viết
- 1 1. Dữ liệu dọc là gì?
- 2 2. Đặc điểm dữ liệu dọc:
- 2.1 2.1. Dữ liệu dọc được dùng trong nghiên cứu sự kiện:
- 2.2 2.2. Dữ liệu dọc được dùng trong nghiên cứu kinh tế, tài chính:
- 2.3 2.3. Dữ liệu dọc dùng để do điểm chuẩn trong ngành giáo dục:
- 2.4 2.4. Dữ liệu dọc dùng trong mô phỏng lịch sử, tính toán giá trị danh mục đầu tư rủi ro:
- 2.5 2.5. Dữ liêu dọc được áp dụng trong nghiên cứu khoa họ:
- 3 3. Ý nghĩa của dữ liệu dọc:
- 4 4. So sánh dữ liệu dọc và dữ liệu ngang:
1. Dữ liệu dọc là gì?
Dữ liệu dọc (Longitudinal data) là loại dữ liệu bảng, thông qua một loại quan sát lặp lại nhiều lần trong một khung thời gian kéo dài và cùng một đối tượng thì dữ liệu được thu thập. Dữ liệu dọc thường dùng trong đo lường liên quan đến sự thay đổi, chúng thường được sử dụng nhiều trong các ngành khoa học, kinh tế, chính trị, xã hội.
Dữ liệu bảng được nhắc đến trong khái niệm dữ liệu bảng nêu trên được hiểu là sự kết hợp của dữ liệu thời gian và dữ liệu chéo tạo thành bảng dữ liệu. Người ta thường thu thập dữ liệu bảng bằng cách thu thập nhiều đối tượng có đặc tính giống nhau trong cùng một thời điểm hoặc nhiều thời điểm khác nhau. Dữ liệu bảng còn có tên gọi khác là dữ liệu dài (longgitudinal data), chúng có thể thu thập dữ liệu ở nhiều phạm vi khác nhau như: công ty, trường học, quốc gia, thành phố hoặc thậm chí là của cá nhân.
Dữ liệu bảng là loại dữ liệu sở hữu nhiều ưu điểm vượt trội:
Ưu điểm đầu tiên phải kể đến là sự tin cậy trong các kết quả ước lượng các tham số trong mô hình. Điều này không phải ngẫu nhiên mà chúng có được vì dữ liệu bảng mang đặc điểm cho phép người dùng kiểm soát được các yếu tố không quan sát được. Những yếu tố ấy không thay đổi theo thời gian nhưng sẽ khác nhau về đối tượng, đây là yêu tố then chốt để giảm sự chênh lệch trong ước lượng. Khi độ chính xác của các ước lượng càng cao thì các biến giải thích sẽ có sự biến động càng nhiều. Đánh giá gần đây cho rằng dữ liệu chéo hoặc dữ liệu thời gian thường có sự biến động nhiều hơn so với dữ liệu bảng. Các biến giải thích khi dùng dữ liệu bảng thường có ít sự đa cộng tuyến hơn so với dùng riêng dữ liệu thời gian hay dữ liệu chéo, nhờ đó mà việc ước lượng các tham số dữ liệu bảng cho kết quả chính xác hơn rất nhiều.
Ưu điểm tiếp theo của dữ liệu bảng phải kể đến đó là dữ liệu bảng cho phép người dùng có thể đo lường và xác định những tác động rất khó hoặc thậm chí không thể xác định được khi ta dùng dữ liệu thời gian hoặc dữ liệu chéo. Để chứng minh điều này, chúng tôi xin đưa ra ví dụ điển hình sau: Khi đánh giá lợi thế kinh tế của một hàm sản xuất theo cải tiến công nghệ và quy mô của một ngành công nghiệp cụ thể.
Ưu điểm của dữ liệu bảng là thế nhưng không có nghĩa chúng ta phủ nhận hết những ưu điểm của dữ liệu chéo và dữ liệu thời gian sở hữu. Theo đó, ưu điểm của dữ liệu chéo phải kể đến là chúng có thể giúp ta dự báo trước những thay đổi về công nghệ; còn đối với dữ liệu thời gian, loại dự liệu này giúp ta có thể phân tách được lợi thế kinh tế theo quy mô từ sự thay đổi về mặt công nghệ, cụ thể, các nghiên cứu dữ liệu về thời gian trong quá khứ đã thực hiện giả định lợi thế không đổi theo quy mô, tuy nhiên phương pháp này không được áp dụng nhiều vì độ tin cậy không cao.
Để khắc phục triệt để những hạn chế của dữ liệu chéo và dữ liệu thời gian, lựa chọn dữ liệu bảng là cách tối ưu để ta có thể đo lường và xác định cả yếu tố lợi thế kinh tế theo quy mô và sự thay đối về công nghệ.
Để hiểu hơn về những loại dữ liệu tương đương dữ liệu dọc, cùng nằm trong loại dữ liệu bảng; cùng nghiên cứu ví dụ sau:
Ta có thể chọn mô hình tác động cố định và kiểm soát thông kê để thu thập được dữ liệu bảng về thông tin tiền lương, mức độ kinh nghiệm là việc, trình độ giáo dục vì đây là những yếu tố thuộc về kỹ năng bẩm sinh. Mục tiêu ban đầu của ta là thông qua dữ liệu mẫu về độ tuổi lao động để xác định và ước lượng tác động của giáo dục, trình độ người lao động lên mức lương của người đó. Ta cũng thừa nhận rằng, các yếu tố chủ yếu và quan trọng nhất tác động đến mức lương của người lao động là trình độ giáo dục và kinh nghiệm làm việc của người đó, đây đều là những yếu tố và kỹ năng bẩm sinh. Do vậy trình độ giáo dục và kỹ năng, kinh nghiệm làm việc là biến không quan sát được nên việc trực tiếp thu thập nó là không thể. Đồng nghĩa với việc ta không thể thu thập dữ liệu và cũng không thể kiểm soát như biến giải thích trong mô hình. Mặc dù vậy, ta cũng hiểu rằng biến này không thay đổi theo thời gian dù có sự khác nhau về kỹ năng bẩm sinh giữa những người lao động. Đây là lý do ta nên lựa chọn mô hình tác động và kiểm soát thống kê để thống kế yếu tố kỹ năng bẩm sinh nói trên.
2. Đặc điểm dữ liệu dọc:
2.1. Dữ liệu dọc được dùng trong nghiên cứu sự kiện:
Trong các nghiên cứu sự kiện, theo thời gian dữ liệu dọc dùng để phân tích các yếu tố thục đẩy lợi nhuận cổ phiếu bất thường; đối với thông báo xác nhập và thu nhập, ta biết được phản ứng của cách giá cổ phiếu. Bên cạnh chức năng này , dữ liệu dọc còn được dùng để theo dõi và đo lường những bất bình đẳng thu nhập và sự đói kèm theo mỗi hộ gia đình.
2.2. Dữ liệu dọc được dùng trong nghiên cứu kinh tế, tài chính:
Với chức năng so dữ liệu ngang lặp đi lặp lại, dữ liệu dọc được sử dụng nhiều trong kinh tế, tài chính. Giả sử, để xác định các yếu tố ảnh hưởng đến thất nghiệp, ta đo lường thời gian kéo dài của các sự kiện thông qua dữ liệu dọc, qua đó có thể xác định được trong thời gian suy thoái liệu rằng có cùng một nhóm cá nhân thất nghiệp hay không và những các đã tìm được việc làm hay chưa. Cách này giúp ta dễ dàng xác định được các yếu tố ảnh hưởng đến thất nghiệp.
2.3. Dữ liệu dọc dùng để do điểm chuẩn trong ngành giáo dục:
Điểm chuẩn của các trường đại học, trung học phổ thông, trung học cơ sở cũng được xác định thông qua dữ liệu dọc. Các giáo viên, giảng viên trong trường cũng được đánh giá chất lượng giảng dạy thông qua kết điểm của học sinh được xậy dự trên cơ sở dữ liệu dọc. Xét trong mô hình, biến này không thay đổi theo thời gian dù có sự khác nhau về kỹ năng bẩm sinh giữa những học sinh trong phạm vi trường học.
2.4. Dữ liệu dọc dùng trong mô phỏng lịch sử, tính toán giá trị danh mục đầu tư rủi ro:
Phương pháp phân tích dữ liệu dọc cũng được sử dụng phổ biến trong mô phỏng lịch sử và các giá trị danh mục đầu tư rủi ro cũng được tính toán bằng phương pháp này. Theo đó, hướng mà giá trị của danh mục đầu tư hiện tại sẽ được mô phỏng dao động trong khoảng thời gian trước đó bằng việc sử dụng biến động lịch sử quan sát được trong khoản thời gian trước đó của tài sản trong danh mục đầu tư. Trong khoảng thời gian tiếp theo, đối với tổn thất tối đa nó có thể được cung cấp theo hướng ước tính.
2.5. Dữ liêu dọc được áp dụng trong nghiên cứu khoa họ:
Trong quá khứ, để nắm được các sự kiện và cách mà chúng dẫn đến kết quả quan sát được, các nhà khoa học xã hội đã sử dụng dữ liệu dọc để tìm ra nguyên nhân các sự kiện. Ví dụ điển hình minh họa cho dữ liệu dọc là hiệu lực khi một đạo luật được thông qua, cụ thể hiệu lực một đạo luật được thông qua có thể được các nhà khoa học quan sát và thống kê tội phạm. Ví dụ khác, một tham họa tự nhiên nhiều năm cũng được áp dụng dữ liệu dọc.
3. Ý nghĩa của dữ liệu dọc:
Nhìn vào đặc điểm của dữ liệu dọc, ta có thể xác định được ý nghĩa của loại dữ liệu này như sau: Nhờ dữ liệu dọc, bạn có thể giải quyết được hàng loạt những vấn đề phức tạp. Với chức năng xử lý thông tin hiệu quả, dữ liệu dọc mang ý nghĩa to lớn trong việc phát hiện nguyên nhân của vấn đề, từ đó người tiếp cận có thể đưa ra giải pháp tốt nhất để giải quyết vấn đề gặp phải. Bên cạnh đó, dữ liệu dọc còn có thể khắc phục được những hạn chế của các dữ liệu khác cùng nhóm, ví dụ: khả năng đo lường và xác định cả hai yếu tố sự thay đổi công nghệ và lợi thế kinh tế theo quy mô.
4. So sánh dữ liệu dọc và dữ liệu ngang:
Dữ liệu dọc và dữ liệu ngang đều là tập hợp các dữ liệu được sắp xếp theo chiều dọc hoặc ngang. Sự khác nhau cơ bản giữ dữ liệu dọc và dữ liệu ngang là đối tượng theo dõi, cụ thể: Theo thời gian, dữ liệu dọc chỉ theo dõi cùng một đối tượng thay vì lấy các mẫu các đối tượng khác nhau (quốc gia,cá nhân, công ty, khu vực,…) tại cùng một thời điểm như dữ liệu ngang, theo đó, những mẫu ngẫu nhiên mới luôn được tạo ra từ một bộ dữ liệu ngang.