Giới thiệu về Few-Shot Learning

Trong lĩnh vực học sâu, một trong những thách thức lớn là thiếu dữ liệu để huấn luyện các mô hình. Đặc biệt trong các tác vụ Computer Vision, chúng ta thường phải đối mặt với tình huống chỉ có 1-2 mẫu hình cho mỗi lớp. Điều này có thể làm giảm độ chính xác của mô hình. Một đứa trẻ có thể nhận diện một con mèo chỉ sau khi thấy một hình ảnh, vậy liệu máy móc có thể làm được điều tương tự? Bài toán học từ ít mẫu dữ liệu này được gọi là Few-Shot Learning.

Few-Shot Learning đã thu hút nhiều sự quan tâm trong cộng đồng nghiên cứu trong những năm gần đây, với nhiều giải pháp được đưa ra. Một trong những giải pháp phổ biến nhất là Meta-learning. Bài viết này sẽ giúp bạn tìm hiểu về Few-Shot Learning trong bối cảnh phân loại hình ảnh.

Tác vụ Phân loại hình ảnh Few-Shot

Đầu tiên, chúng ta cần định nghĩa N-way K-shot classification task:

Support set chứa N nhãn, mỗi nhãn có K mẫu hình.
Query set chứa Q mẫu hình truy vấn.

Nhiệm vụ của chúng ta là phân loại các ảnh truy vấn vào một trong N nhãn dựa trên N x K mẫu trong Support set. Khi K nhỏ (K < 10), chúng ta gọi đây là bài toán few-shot classification hoặc one-shot trong trường hợp K = 1.

Ví dụ, nếu cho K = 2 và N = 3 trong support set, ta muốn gán nhãn cho Q = 4 chú chó thuộc một trong ba nhãn: Labrador, Saint-Bernard hoặc Pug. Ngay cả khi con người chưa từng thấy Pug hay Saint-Bernard, việc chọn nhãn từ support set là dễ dàng. Thách thức là làm cho AI có thể thực hiện điều này, và Meta-learning chính là chìa khóa.

Mô hình Meta-Learning

Để giải quyết một tác vụ cụ thể, thuật toán meta-learning được huấn luyện trên các tác vụ đào tạo. Kinh nghiệm từ các tác vụ này sẽ được sử dụng cho nhiệm vụ cuối cùng.

Cùng ví dụ trên, một tác vụ đào tạo có thể là gán nhãn cho hình ảnh các giống chó khác với hỗ trợ từ 6 ảnh đã gán nhãn trước đó. Quá trình Meta-training diễn ra khi chúng ta liên tục thực hiện các tác vụ tương tự với các giống chó khác nhau.

Thuật toán Meta-Learning

Một trong những thuật toán meta-learning cơ bản là Model-Agnostic Meta-Learning (MAML), cho phép một mạng neural học cách thích ứng nhanh chóng với ít mẫu dữ liệu từ một nhiệm vụ mới.

Process của MAML bao gồm:

Tạo một bản sao của mạng và khởi tạo với tham số ban đầu.
Fine-tune bản sao trên support set chỉ với vài lần gradient descents.
Sử dụng mô hình đã fine-tune trên query set.
Cập nhật tham số ban đầu dựa trên kết quả.

Tuy nhiên, MAML có thể phức tạp và không phải lúc nào cũng hoạt động tốt như các thuật toán metric-learning.

Metric Learning

Metric learning là một trong những cách giải quyết phổ biến cho bài toán few-shot classification. Thay vì fine-tune trên support set, thuật toán này tiến hành phân loại ảnh truy vấn bằng cách so sánh khoảng cách giữa chúng với các ảnh trong support set.

Bằng cách này, các hệ thống có thể học cách phân loại mà không cần quá nhiều thông tin.

Triển Khai Prototypical Networks

Trong phần thực hành này, chúng ta sẽ triển khai Prototypical Networks, một trong những phương pháp nổi bật trong few-shot learning. Chúng ta sẽ:

Chuẩn bị dữ liệu và môi trường cần thiết.
Định nghĩa mô hình Prototypical Networks với ResNet18 làm backbone.
Đánh giá và huấn luyện mô hình.

Kết luận

Trong bài viết này, chúng ta đã khám phá về Few-Shot Learning và các kỹ thuật liên quan như Meta-learning và Metric Learning. Bạn sẽ thấy rằng với ít mẫu dữ liệu, chúng ta vẫn có thể xây dựng các mô hình học máy mạnh mẽ.

Tham khảo

Nghiên cứu về Few-Shot Learning
Blog về Few-Shot Classification
source: viblo

Khám Phá Few-Shot Learning trong Lĩnh Vực Nhận Diện Hình Ảnh