Giới thiệu về Mô Hình Học Máy
Mô hình học máy đang trở thành một phần quan trọng trong nhiều lĩnh vực như y tế, hệ thống tư pháp và tài chính. Với những yêu cầu khắt khe về tính bảo mật và độ chính xác, việc hiểu rõ cách mà mô hình đưa ra dự đoán là cần thiết để xây dựng lòng tin trong quá trình áp dụng chúng vào thực tế.
Sự phát triển nhanh chóng của các mô hình học sâu đã khiến việc giải thích và hiểu biết về chúng trở nên khó khăn hơn. Trong bối cảnh mà công nghệ đang ngày càng xâm nhập vào mọi khía cạnh của cuộc sống, nhu cầu về một quy trình hiệu quả để giải thích các quyết định của mô hình ngày càng trở nên cấp thiết. Điều này đặc biệt quan trọng khi xét đến các mô hình như mạng nơ-ron, thường được xem là một black box không thể giải thích.
Tầm Quan Trọng Của Việc Giải Thích Mô Hình Học Máy
Để minh hoạ, hãy cùng nhìn vào một số ví dụ:
- Trong ngành tài chính, các tổ chức tín dụng phải đưa ra những quyết định công bằng về khoản vay. Việc giải thích mô hình tín dụng là phương pháp để đưa ra lý do cho các quyết định đó.
- Trong y tế, những mô hình có liên quan đến sức khoẻ con người cần phải được giải thích để đảm bảo rằng các quyết định về sức khoẻ của bệnh nhân không được dựa hoàn toàn vào vô số thông tin mà không có cơ sở logic.
- Khi áp dụng mô hình dự đoán nguy cơ tái phạm trong hệ thống tư pháp, sự công bằng và minh bạch trong hoạt động của mô hình là điều không thể thiếu.
- Liệu chúng ta có thể chấp nhận công nghệ xe tự lái nếu não bộ của chúng là một black-box không thể lý giải được?
Các Mô Hình Có Thể Giải Thích Được
Lipton (2017) đã trình bày các tiêu chí của mô hình có thể giải thích trong bài viết của mình: "The Mythos of Model Interpretability". Một mô hình có thể giải thích cần có khả năng cho phép người sử dụng tái hiện lại quá trình tính toán với việc hiểu rõ về thuật toán và mọi thành phần trong mô hình. Điều này bao gồm khả năng diễn giải (decomposability) mà qua đó mọi phần của mô hình đều phải có lý do dễ hiểu.
1. Mô Hình Hồi Quy (Regression)
Mô hình hồi quy tuyến tính có công thức tổng quát:
y = w_0 + w_1x_1 + w_2x_2 + ... + w_nx_n
Trong đó, các biến độc lập là các đặc trưng dữ liệu và kết quả dự đoán thì được biểu thị bởi giá trị y.
2. Naive Bayes
Tên gọi "Naive" (ngây thơ) trong Naive Bayes xuất phát từ giả định rằng các đặc trưng là độc lập với nhau. Đưa ra một vector đặc trưng x = [x_1, x_2, ..., x_n] và nhãn lớp c ∈ {1, 2, ..., C}, xác suất của một điểm dữ liệu thuộc lớp c được tính như sau:
p(c ∣ x_1, x_2, ..., x_n) ∝ p(c) ∏{i=1}^{n} p(x_i ∣ c)
Mô hình phân loại Naive Bayes được định nghĩa như sau:
hat{y} = arg max{c ∈ 1, ..., C} p(c) ∏_{i=1}^{n} p(x_i ∣ c)
Nhờ vào quá trình huấn luyện, mô hình có thể định lượng đóng góp của mỗi đặc trưng.
p(c ∣ x_i) = p(c) p(x_i ∣ c) / p(x_i)
3. Cây Quyết Định (Decision Tree)
Cây quyết định là một bộ các hàm boolean, thường được xây dựng theo cấu trúc if... then... else...
. Chúng có thể được hình dung như một cấu trúc cây và là công cụ hữu ích trong nhiều lĩnh vực, đặc biệt là y tế, nơi mà khả năng diễn giải là rất quan trọng.
Cây quyết định có thể xử lý cả bài toán phân loại và hồi quy. Việc xây dựng cây quyết định dựa trên dữ liệu huấn luyện từ việc xác định các câu hỏi và thứ tự của chúng. Cây quyết định có thể làm việc với các đặc trưng dạng categorical và liên tục mà không yêu cầu chuẩn hoá dữ liệu.
4. Rừng Ngẫu Nhiên (Random Forests)
Mặc dù nhiều người cho rằng mô hình Rừng Ngẫu Nhiên là một blackbox, nhưng sự thật là nó được tạo nên từ một tập hợp các cây quyết định độc lập. Cách mà Rừng Ngẫu Nhiên dự đoán giá trị là thông qua việc tổng hợp kết quả từ nhiều cây quyết định khác nhau, cung cấp một kết quả tốt hơn và giải thích rõ ràng hơn.
Kết quả dự đoán từ một rừng là giá trị trung bình của các dự đoán từ các cây trong rừng đó:
F(x) = 1/J ∑_{j=1}^{J} f_j(x)
Kết Luận
Có thể thấy, các mô hình có thể giải thích đều được thể hiện thông qua công thức toán học, giúp chúng ta dễ dàng xác định được mức độ quan trọng của từng đặc trưng đầu vào. Tuy nhiên, với sự phức tạp của mô hình học sâu, chúng ta sẽ tiếp tục tìm hiểu thêm về cách giải thích các mô hình này trong phần 2 của bài viết.
source: viblo