Trong phân tích quyết định, cây quyết định và sơ đồ ảnh hưởng có liên quan chặt chẽ được sử dụng như một công cụ hỗ trợ ra quyết định trực quan và phân tích, trong đó các giá trị kỳ vọng (hoặc tiện ích kỳ vọng ) của các lựa chọn thay thế cạnh tranh được tính toán. Vậy cây quyết định là gì? Phân loại, ưu điểm và ứng dụng?
Mục lục bài viết
1. Cây quyết định là gì?
– Cây Quyết định là một phương pháp học tập có giám sát phi tham số được sử dụng để phân loại và hồi quy. Mục tiêu là tạo ra một mô hình dự đoán giá trị của một biến mục tiêu bằng cách tìm hiểu các quy tắc quyết định đơn giản được suy ra từ các tính năng dữ liệu. Một cây có thể được coi là một phép gần đúng không đổi theo từng mảnh.
– Cây quyết định là một công cụ hỗ trợ quyết định sử dụng mô hình quyết định dạng cây và các hệ quả có thể xảy ra của chúng, bao gồm cả kết quả sự kiện may rủi , chi phí tài nguyên và tiện ích . Đó là một cách để hiển thị một thuật toán chỉ chứa các câu lệnh điều khiển có điều kiện.
– Cây quyết định là một cấu trúc giống như lưu đồ , trong đó mỗi nút bên trong đại diện cho một “thử nghiệm” trên một thuộc tính (ví dụ: liệu một lần lật đồng xu xuất hiện đầu hay sấp), mỗi nhánh đại diện cho kết quả của thử nghiệm và mỗi nút lá biểu thị một nhãn lớp (quyết định được thực hiện sau khi tính toán tất cả các thuộc tính). Các đường đi từ gốc đến lá đại diện cho các quy tắc phân loại.
– Cây quyết định, sơ đồ ảnh hưởng , chức năng tiện ích cũng như các công cụ và phương pháp phân tích quyết định khác được dạy cho sinh viên đại học trong các trường kinh doanh, kinh tế y tế và sức khỏe cộng đồng, và là những ví dụ về các phương pháp nghiên cứu hoạt động hoặc khoa học quản lý .
– Cây quyết định thường được sử dụng trong nghiên cứu hoạt động , đặc biệt là trong phân tích quyết định , để giúp xác định chiến lược có nhiều khả năng đạt được mục tiêu nhất , nhưng cũng là một công cụ phổ biến trong học máy
– Cây quyết định được sử dụng phổ biến trong nghiên cứu hoạt động và quản lý hoạt động . Trong thực tế, nếu các quyết định phải được thực hiện trực tuyến mà không cần nhớ lại do kiến thức chưa đầy đủ, cây quyết định nên được song song với một mô hình xác suất như một mô hình lựa chọn tốt nhất hoặc thuật toán mô hình lựa chọn trực tuyến . Một cách sử dụng khác của cây quyết định là như một phương tiện mô tả để tính toán xác suất có điều kiện .
– Cây quyết định tên tiếng Anh là: ” Decision Tree – DTs”
2. Phân loại cây quyết định:
* Phân loại: Cây quyết định bao gồm ba loại nút:
+ Các nút quyết định – thường được biểu diễn bằng hình vuông
+ Các nút cơ hội – thường được biểu thị bằng các vòng tròn
+ Các nút kết thúc – thường được biểu diễn bằng hình tam giác
3. Ưu và nhược điểm của cây quyết định:
* Ưu điểm: Một số ưu điểm của cây quyết định là:
– Đơn giản để hiểu và để giải thích. Cây cối có thể được hình dung. Yêu cầu chuẩn bị ít dữ liệu. Các kỹ thuật khác thường yêu cầu chuẩn hóa dữ liệu, các biến giả cần được tạo và loại bỏ các giá trị trống. Tuy nhiên, lưu ý rằng mô-đun này không hỗ trợ các giá trị bị thiếu.
– Chi phí sử dụng cây (tức là dữ liệu dự đoán) là logarit trong số điểm dữ liệu được sử dụng để đào tạo cây.
– Có thể xử lý cả dữ liệu số và dữ liệu phân loại. Tuy nhiên, hiện tại việc triển khai scikit-learning không hỗ trợ các biến phân loại. Các kỹ thuật khác thường chuyên về phân tích tập dữ liệu chỉ có một loại biến.
– Xem các thuật toán để biết thêm thông tin.
– Có khả năng xử lý các vấn đề đa đầu ra.
– Sử dụng mô hình hộp màu trắng. Nếu một tình huống nhất định có thể quan sát được trong một mô hình, thì lời giải thích cho điều kiện đó dễ dàng được giải thích bằng logic boolean. Ngược lại, trong mô hình hộp đen (ví dụ: trong mạng nơ-ron nhân tạo), kết quả có thể khó giải thích hơn. Có thể xác nhận một mô hình bằng cách sử dụng các bài kiểm tra thống kê. Điều đó làm cho nó có thể tính đến độ tin cậy của mô hình.
– Hoạt động tốt ngay cả khi các giả định của nó phần nào bị vi phạm bởi mô hình thực mà từ đó dữ liệu được tạo ra.
* Những nhược điểm của cây quyết định bao gồm:
– Người học cây quyết định có thể tạo cây quá phức tạp không tổng quát hóa dữ liệu tốt. Điều này được gọi là quá trang phục. Các cơ chế như cắt tỉa, thiết lập số lượng mẫu tối thiểu cần thiết tại một nút lá hoặc thiết lập độ sâu tối đa của cây là cần thiết để tránh vấn đề này.
– Cây quyết định có thể không ổn định vì các biến thể nhỏ trong dữ liệu có thể dẫn đến việc tạo ra một cây hoàn toàn khác. Vấn đề này được giảm thiểu bằng cách sử dụng cây quyết định trong một tập hợp.
Các dự đoán của cây quyết định không trơn tru cũng không liên tục, mà là các phép gần đúng không đổi từng mảnh như trong hình trên. Do đó, họ không giỏi ngoại suy.
– Vấn đề học một cây quyết định tối ưu được biết là hoàn chỉnh NP dưới một số khía cạnh của tính tối ưu và ngay cả đối với các khái niệm đơn giản. Do đó, các thuật toán học cây quyết định thực tế dựa trên các thuật toán heuristic như thuật toán tham lam trong đó các quyết định tối ưu cục bộ được thực hiện tại mỗi nút. Các thuật toán như vậy không thể đảm bảo trả về cây quyết định tối ưu toàn cục. Điều này có thể được giảm thiểu bằng cách đào tạo nhiều cây trong một người học theo nhóm, trong đó các tính năng và mẫu được lấy mẫu ngẫu nhiên để thay thế.
– Có những khái niệm khó học vì cây quyết định không thể hiện chúng một cách dễ dàng, chẳng hạn như vấn đề XOR, chẵn lẻ hoặc bộ ghép kênh. Những người học cây quyết định tạo cây thiên vị nếu một số lớp chiếm ưu thế. Do đó, nên cân bằng tập dữ liệu trước khi phù hợp với cây quyết định.
– Chúng không ổn định, có nghĩa là một thay đổi nhỏ trong dữ liệu có thể dẫn đến một sự thay đổi lớn trong cấu trúc của cây quyết định tối ưu.
– Chúng thường tương đối không chính xác. Nhiều công cụ dự đoán khác hoạt động tốt hơn với dữ liệu tương tự. Điều này có thể được khắc phục bằng cách thay thế một cây quyết định đơn lẻ bằng một rừng cây quyết định ngẫu nhiên, nhưng một khu rừng ngẫu nhiên không dễ hiểu như một cây quyết định đơn lẻ.
– Đối với dữ liệu bao gồm các biến phân loại có số lượng cấp độ khác nhau, thông tin thu được trong cây quyết định thiên về các thuộc tính có nhiều cấp độ hơn. [7]
– Các phép tính có thể rất phức tạp, đặc biệt nếu nhiều giá trị không chắc chắn và / hoặc nếu nhiều kết quả được liên kết với nhau.
4. Ứng dụng quy tắc quyết định:
– Cây quyết định có thể được tuyến tính hóa thành các quy tắc quyết định , trong đó kết quả là nội dung của nút lá và các điều kiện dọc theo đường dẫn tạo thành một liên kết trong mệnh đề if. Nói chung, các quy tắc có dạng: nếu điều kiện 1 và điều kiện 2 và điều kiện 3 thì kết quả. Các quy tắc quyết định có thể được tạo ra bằng cách xây dựng các quy tắc kết hợp với biến mục tiêu ở bên phải. Chúng cũng có thể biểu thị các mối quan hệ nhân quả hoặc thời gian.
– Trong số các công cụ hỗ trợ quyết định, cây quyết định (và sơ đồ ảnh hưởng ) có một số ưu điểm. Cây quyết định:
+ Rất đơn giản để hiểu và giải thích. Mọi người có thể hiểu các mô hình cây quyết định sau khi giải thích ngắn gọn.
+ Có giá trị ngay cả với ít dữ liệu cứng. Những hiểu biết quan trọng có thể được tạo ra dựa trên việc các chuyên gia mô tả một tình huống (các lựa chọn thay thế, khả năng xảy ra và chi phí) và sở thích của họ đối với kết quả.
+ Giúp xác định các giá trị xấu nhất, tốt nhất và dự kiến cho các tình huống khác nhau.
+ Sử dụng mô hình hộp màu trắng . Nếu một kết quả nhất định được cung cấp bởi một mô hình.
+ Có thể kết hợp với các kỹ thuật quyết định khác.
– Một số điều cần được xem xét khi cải thiện độ chính xác của bộ phân loại cây quyết định. Sau đây là một số tối ưu hóa có thể có để xem xét khi tìm cách đảm bảo mô hình cây quyết định được tạo ra đưa ra quyết định hoặc phân loại chính xác. Lưu ý rằng những điều này không phải là những điều duy nhất cần xem xét mà chỉ là một số.
Cây sâu hơn có thể ảnh hưởng đến thời gian chạy theo cách tiêu cực. Nếu một thuật toán phân loại nhất định đang được sử dụng, thì một cây sâu hơn có thể có nghĩa là thời gian chạy của thuật toán phân loại này chậm hơn đáng kể.- Cũng có khả năng là thuật toán thực sự xây dựng cây quyết định sẽ chậm hơn đáng kể khi cây càng sâu. Nếu thuật toán xây dựng cây đang được sử dụng chia tách các nút thuần túy, thì độ chính xác tổng thể sẽ giảm của bộ phân loại cây có thể được trải nghiệm. Đôi khi, việc đi sâu hơn vào cây có thể làm giảm độ chính xác nói chung, vì vậy điều rất quan trọng là kiểm tra việc sửa đổi độ sâu của cây quyết định và chọn độ sâu tạo ra kết quả tốt nhất. Để tóm tắt quan sát các điểm dưới đây, chúng tôi sẽ xác định số D là độ sâu của cây.