Biến liên tục và biến rời rạc là các kiểu biến trong thống kê, phân tích dữ liệu. Việc xác định đúng loại biến giữ vai trò quan trọng trong xử lý dữ liệu. Vậy biến liên tục là gì? Phân biệt giữa biến liên tục và biến rời rạc như thế nào?
Mục lục bài viết
1. Biến liên tục là gì?
Biến liên tục (continuous variable) là biến số có thể nhận bất kỳ giá trị nào trong một khoảng nhất định, tức biến thiên mà không bị gián đoạn.
Ví dụ, một biến trên một phạm vi không trống của số thực là liên tục, nếu nó có thể nhận bất kỳ giá trị nào trong phạm vi đó. Lý do là bất kỳ phạm vi số thực nào giữa a với b; a ,b thuộc R & a #b là không thể đếm được. Vì vậy, nếu một biến có thể lấy một bộ giá trị vô hạn và không thể đếm được, thì biến đó được gọi là biến liên tục. Một biến liên tục là một biến được xác định trong một khoảng của các giá trị, có nghĩa là nó có thể giả sử bất kỳ giá trị nào ở giữa giá trị tối thiểu và tối đa. Nó có thể được hiểu là hàm cho khoảng và đối với mỗi hàm, phạm vi cho biến có thể khác nhau.
– Phương pháp tính toán thường được sử dụng trong các bài toán trong đó các biến là liên tục, ví dụ trong các bài toán tối ưu hóa liên tục.
Ví dụ: Nhiệt độ trong ngày là một biến ngẫu nhiên liên tục, không thể liệt kê hết tất cả các giá trị có thể, và thường nói giá trị nhỏ nhất và giá trị lớn nhất: chẳng hạn như nhiệt độ trong khoảng 20 độ C đến 30 độ C; khi đó X đơn vị là độ C, và X nằm trong khoảng (20; 30).
– Biến liên tục là dạng biến định lượng có giá trị có thể lấp đầy trục số. Biến liên tục thường có các giá trị thập phân. Ví dụ: Hàm lượng đường máu của bệnh nhân, cân nặng trẻ sơ sinh.
Ngoài ra, các biến như chiều cao, cân nặng… cũng được coi là biến liên tục.
Trong lý thuyết thống kê, phân bố xác suất của các biến liên tục có thể được biểu diễn dưới dạng hàm mật độ xác suất.
Trong động lực học thời gian liên tục, thời gian biến đổi được coi là liên tục, và phương trình mô tả sự phát triển của một số biến số theo thời gian là một phương trình vi phân. Tốc độ thay đổi tức thời là một khái niệm được định nghĩa rõ ràng.
2. Biến rời rạc là gì?
Ngược với biến liên tục là biến rời rạc. Biến rời rạc (discrete variable) là biến số chỉ nhận các giá trị nguyên.
Một biến rời rạc là một biến có thể chấp nhận các giá trị của một tập hợp số đã cho. Đó là, nó chỉ có được các giá trị của một tập hợp, không phải bất kỳ giá trị nào.
Trong số các giá trị có thể quan sát được của một biến rời rạc, có một khoảng cách không thể “hoàn thành” với các giá trị trung gian. Do đó, giữa hai giá trị, ít nhất, có một giá trị không thể quan sát được.
Số lượng xe một người có một biến rời rạc. Một người đàn ông có thể có, ví dụ, một chiếc xe hơi, hai chiếc xe hoặc ba chiếc xe, để kể tên một vài khả năng. Nhưng nó không thể có 1.6 xe hoặc 2.8 xe .
Một số ví dụ về biến rời rạc:
– Số lượng con của một người phụ nữ cũng là một biến rời rạc. Bạn có thể có 2, 4 hoặc 6 con, không bao giờ là 2.1 hoặc 5.78 con .
– Số lượng học sinh tồn tại trong một lớp. Và có thể có 15, 20 hoặc 30 sinh viên, nhưng không phải 15.3 hay 20.8.
– Số lần phạm lỗi có thể bị trọng tài huýt sáo trong một trận bóng đá.
– Số kênh phát thanh hoặc truyền hình mà bạn có thể xem ở nhà.
3. Phân biệt biến liên tục và biến rời rạc:
Cả biến rời rạc và liên tục đều có thể là biến định tính và biến định lượng, tuy nhiên hai thuật ngữ thống kê này có rất nhiều khác biệt, đối nghịch nhau. Cụ thể như sau:
3.1. Bảng so sánh giữa biến liên tục và biến rời rạc:
Cơ sở để so sánh | Biến rời rạc | Biến số liên tục |
---|---|---|
Ý nghĩa | Biến rời rạc đề cập đến biến giả định số lượng hữu hạn của các giá trị bị cô lập. | Biến liên tục ám chỉ đến một biến giả định vô số các giá trị khác nhau. |
Phạm vi số lượng được chỉ định | Hoàn thành | Chưa hoàn thiện |
Giá trị | Các giá trị thu được bằng cách đếm. | Các giá trị thu được bằng cách đo. |
Phân loại | Không chồng chéo | Qua nối chồng |
Giả định | Giá trị riêng biệt hoặc riêng biệt. | Bất kỳ giá trị giữa hai giá trị. |
Đại diện bởi | Điểm cô lập | Điểm kết nối |
3.2. Sự khác biệt chính giữa biến rời rạc và biến liên tục:
Có thể kể đến một số khác biệt chính giữa biến số rời rạc và biến liên tục như sau:
– Biến thống kê giả định một tập hợp dữ liệu hữu hạn và số lượng giá trị có thể đếm được, sau đó nó được gọi là một biến rời rạc. Đối với điều này, biến định lượng có một bộ dữ liệu vô hạn và số lượng giá trị không thể đếm được được gọi là biến liên tục.
– Đối với phân loại không chồng chéo hoặc được gọi là phân loại bao gồm lẫn nhau, trong đó bao gồm cả giới hạn lớp, được áp dụng cho biến rời rạc. Ngược lại, đối với phân loại chồng chéo hoặc nói loại trừ lẫn nhau, trong đó giới hạn lớp trên bị loại trừ, được áp dụng cho một biến liên tục.
– Trong biến rời rạc, phạm vi của số được chỉ định là hoàn thành, không nằm trong trường hợp biến liên tục.
– Các biến rời rạc là các biến, trong đó các giá trị có thể thu được bằng cách đếm. Mặt khác, các biến liên tục là các biến ngẫu nhiên đo lường một cái gì đó.
– Biến rời rạc giả định các giá trị độc lập trong khi biến liên tục giả định bất kỳ giá trị nào trong một phạm vi nhất định hoặc liên tục.
– Một biến rời rạc có thể được biểu thị bằng đồ họa bởi các điểm bị cô lập. Không giống như, một biến liên tục có thể được chỉ định trên biểu đồ với sự trợ giúp của các điểm được kết nối.
4. Biến định tính là gì?
Biến định tính (qualitative variable) còn gọi là biến phân loại (categorical variable) giúp cho việc phân loại các đối tượng nghiên cứu thành các nhóm khác nhau. Khi xử lý dữ liệu, nhà nghiên cứu sẽ mã hóa các giá trị của biến định tính thành các con số 1, 2, 3,… nhưng các con số này hoàn toàn chỉ mang tính chất quy ước chứ không phải là giá trị thực của biến.
Ví dụ: Biến độ tuổi chúng ta chia thành các nhóm tuổi: (1) dưới 22 tuổi, (2) từ 22 đến 30 tuổi, (3) từ 31 đến 50 tuổi, (4) trên 50 tuổi. Đây là một biến định tính bởi nó phân loại đối tượng thành các nhóm tuổi khác nhau. Bốn nhóm tuổi được quy ước thành các con số 1-2-3-4 trong xử lý dữ liệu, nó đơn thuần là giá trị quy ước chứ không phải là số tuổi chính xác của đáp viên. Đáp viên có tuổi là 25 được mã hóa thành giá trị 2 (từ 22 đến 30 tuổi) của biến độ tuổi thì con số 25 là giá trị thực (giá trị định lượng) còn số 2 trong dữ liệu là số quy ước (giá trị định tính).
5. Biến định lượng là gì?
Biến định lượng (quantiative variable) những biến mà các giá trị của chúng là các con số giá trị thực.
Ví dụ: Cũng là biến độ tuổi nhưng dữ liệu chúng ta thu thập là con số tuổi chính xác của đáp viên thì biến này sẽ là biến định lượng. Chúng ta hỏi đáp viên “Tuổi của anh chị là:…..”, đáp viên điền vào số tuổi của họ, đó là giá trị thực.
6. Các lưu ý về biến định tính và biến định lượng:
Biến có hai giá trị vừa là biến định tính vừa là biến định lượng:
Những biến có hai giá trị như giới tính (nam/nữ), quyết định mua (mua/không mua),… được xếp vào dạng vừa là định tính vừa là định lượng. Chính vì vậy, khi thực hiện các kiểm định yêu cầu loại biến đầu vào thì hầu như đa số các trường hợp, dạng biến hai giá trị đều có thể tham gia.
Ví dụ: Trong mô hình nghiên cứu, chúng ta xem xét sự tác động của biến kiểm soát giới tính gồm hai giá trị nam/nữ lên biến phụ thuộc sự hài lòng. Lúc này, chúng ta có thể:
- Thực hiện phân tích Independent Sample T-test hoặc One-way ANOVA. Đây là hai kiểm định yêu cầu hai biến tham gia: một biến định lượng và một biến định tính. Lúc này biến định lượng là sự hài lòng, biến định tính là giới tính.
- Thực hiện hồi quy tuyến tính hoặc SEM xem xét sự tác động từ giới tính lên sự hài lòng. Đây là kiểm định yêu cầu các biến tham gia đều phải là định lượng. Lúc này biến giới tính cũng là một biến định lượng nên hoàn toàn có thể tham gia vào mô hình hồi quy, mô hình SEM.
Biến định tính/định lượng được quyết định bởi dữ liệu của nó chứ không phải tên biến:
Để xác định một biến là định tính hay định lượng, chúng ta cần dựa vào đặc điểm dữ liệu của biến đó. Như ví dụ về biến độ tuổi đã đề cập ở trên, biến này đều có tên là độ tuổi, nhưng dữ liệu một bên là định tính, một bên là định lượng.
Hay một ví dụ khác về biến thu nhập. Nếu thu nhập chúng ta chia thành từng nhóm như dưới 10 triệu, từ 10 đến 20 triệu, trên 20 triệu thì đây là biến định tính. Nếu chúng ta để con số thu nhập chính xác của đáp viên thì đó là biến định lượng.
Chuyển đổi biến định tính về biến định lượng:
Chúng ta đã nói đến việc một biến có hai giá trị thì biến đó sẽ vừa là định tính vừa là định lượng. Cơ chế chuyển đổi biến định tính sang biến định lượng cũng dựa vào điều này. Kỹ thuật chuyển đổi biến định tính sang biến định lượng như vậy gọi là tạo biến giả (dummy variable).
Khi bạn cần đánh giá mối quan hệ của biến định tính với các biến khác bằng hồi quy, SEM. Bạn cần chuyển đổi biến định tính về biến giả trước, sau đó mới dùng biến giả để đưa vào hồi quy, SEM.
Biến định tính và định lượng trong hồi quy và SEM:
Hồi quy và SEM là hai loại kiểm định yêu cầu các biến tham gia đều phải là định lượng.
Nếu bạn đọc một kết quả hồi quy hay SEM có sự xuất hiện của biến giới tính. Bạn sẽ tự ngầm hiểu vì biến này có hai giá trị, nó vừa là biến định tính vừa là biến định lượng nên nó đảm bảo điều kiện đầu vào là biến định lượng.
Nếu bạn đọc một kết quả hồi quy hay SEM có sự xuất hiện của biến độ tuổi, thu nhập, thâm niên, kinh nghiệm,… Bạn sẽ tự ngầm hiểu các biến này đang để ở dạng giá trị thực chứ không phải giá trị quy ước. Hay nói cách khác, dữ liệu các biến độ tuổi – thu nhập – thâm niên – kinh nghiệm lúc này đang là các con số chính xác chứ không phân ra thành từng nhóm tuổi, nhóm thu nhập, thâm niên, kinh nghiệm.
Nếu bạn đọc một kết quả hồi quy hay SEM có sự xuất hiện của biến phòng ban, chức danh,… Bạn sẽ tự ngầm hiểu các biến định tính này đã được chuyển đổi sang dạng biến giả.