Hướng Dẫn Cơ Bản về Reinforcement Learning: Ứng Dụng, Kiến Thức Cần Thiết và Lí Thuyết Cơ Bản

Giới thiệu về tác giả

Xin chào các bạn! Tôi là Trần An, sinh viên năm cuối tại SmartLab, Đại học FPT. Với 2 năm kinh nghiệm làm việc trong lĩnh vực trí tuệ nhân tạo (AI) dành cho robotics, tôi hy vọng bài viết này sẽ giúp ích cho những ai đang muốn tìm hiểu về Reinforcement Learning (RL).

Kiến thức cần có trước khi đọc

Để tối ưu hóa việc học, tôi khuyên bạn nên có một số kiến thức cơ bản sau:

Kiến thức nền tảng về Machine Learning.
Kiến thức cơ bản về Deep Learning.
Toán học (mọi thứ đều liên quan đến toán).
Xác suất thống kê.
Tiếng Anh (đủ để hiểu tài liệu).

Nếu bạn chưa có các kiến thức trên, hãy xem xét lại và chuẩn bị tư tưởng trước khi bắt đầu.

Tại sao Reinforcement Learning lại đặc biệt?

Để dễ hiểu về Reinforcement Learning, hãy tưởng tượng bạn là một người cha dạy con (AI) cách sinh tồn. Ban đầu, bạn dạy toán cho AI theo cách giám sát (Supervised Learning), sau đó, với các hình ảnh của chó và mèo mà không kèm theo đáp án, bạn sử dụng phương pháp học không giám sát (Unsupervised Learning). Cuối cùng, bạn đặt AI vào rừng và mong muốn nó tìm cách sống sót. Đây chính là tinh thần của RL.

Theo cuốn sách "Reinforcement Learning: An Introduction" của Sutton và Barto, RL là phương pháp học dựa vào tương tác, nơi quyết định của người học có ảnh hưởng đến tương lai.

Khái niệm ‘Reinforce’ trong RL

Chữ "reinforce" trong RL mang ý nghĩa là tăng cường hay bổ sung. RL không phải là để thay thế phương pháp học khác mà chỉ là một hình thức hỗ trợ, giúp các mô hình cải thiện khả năng

Các thành phần trong Reinforcement Learning

Trước khi tìm hiểu về Agent và Environment, chúng ta cần biết bốn thành phần chính trong hệ thống RL:

Policy (Chính sách): Hướng đi của agent tại một thời điểm. Nó liên quan đến cách ánh xạ giữa trạng thái hiện tại với hành động cụ thể.
Reward (Tín hiệu thưởng): Giá trị mà agent nhận được từ môi trường sau mỗi hành động, mục tiêu là tối ưu hóa tổng số reward.
Value Function (Hàm giá trị): Khác với reward, value function dự đoán tổng số reward mà agent có thể nhận được trong tương lai, bắt đầu từ trạng thái hiện tại.
Model of Environment (Mô hình môi trường): Mô hình này đại diện cho cách thức môi trường sẽ hành xử dựa trên trạng thái và hành động.

Tóm lại

Tôi xin lỗi vì một số thuật ngữ không được dịch ra tiếng Việt, vì dịch có thể làm mất nghĩa của chúng. Nếu bạn thực sự muốn tìm hiểu sâu hơn về RL, hãy theo dõi các bài viết tiếp theo của tôi. Cảm ơn các bạn đã đọc!

Tài liệu tham khảo

Reinforcement Learning: An Introduction
source: viblo