Tóm tắt

Mục tiêu của Few-shot learning là tận dụng tri thức được học từ một hoặc nhiều mô hình deep learning để đạt hiệu suất tốt hơn trong các bài toán phân loại với rất ít mẫu được gán nhãn cho mỗi lớp. Vấn đề quan trọng ở đây là cách mà các mô hình hiện tại sử dụng tri thức chưa thực sự tối ưu, dẫn đến câu hỏi về việc cách tiếp cận mới có thể đạt được độ chính xác cao hơn so với các mô hình gốc hay không. Trong bài báo này, nhóm tác giả đã đề xuất một phương pháp đơn giản, dễ dàng áp dụng mà có thể đạt hoặc vượt qua hiệu suất của các phương pháp tiên tiến nhất (SOTA) mà không cần thêm bất kỳ hyperparameter hoặc parameter nào. Phương pháp này cung cấp một chuẩn mực mới để so sánh với các kỹ thuật khác trong lĩnh vực.

Giới thiệu

Thiết lập cơ bản của few-shot learning thường bao gồm hai phần:

Bộ dữ liệu tổng quát (Generic dataset): Bộ dữ liệu này bao gồm nhiều mẫu cho nhiều lớp, được sử dụng để huấn luyện mô hình Deep Learning hiệu quả. Thông thường, bộ dữ liệu này được chia thành hai tập con riêng biệt gọi là base và validation. Tập base được sử dụng cho quá trình huấn luyện, trong khi tập validation được dùng để đánh giá hiệu suất của mô hình. Tuy nhiên, khác với các lựa chọn phân loại thông thường, dữ liệu trong tập base và validation chứa các lớp khác nhau, vì vậy hiệu suất chỉ được đánh giá trên các lớp mới không có trong tập base.
Bộ dữ liệu mới (Novel dataset): Bộ dữ liệu này chứa các lớp không có trong bộ dữ liệu tổng quát. Chúng ta chỉ có một số ít mẫu được gán nhãn cho mỗi lớp. Đây chính là bài toán của few-shot learning, trong đó các mẫu được gán nhãn được gọi là support set và phần còn lại là query set. Khi đánh giá, người ta thường sử dụng một bộ dữ liệu mới lớn với các tác vụ few-shot được lấy ngẫu nhiên, gọi là run. Hiệu suất của mô hình được tính trung bình trên nhiều run.

Cần phân biệt hai vấn đề trong lĩnh vực này:

Trong inductive few-shot learning, bộ phân loại chỉ quan sát support dataset và thực hiện dự đoán trên từng mẫu của query dataset một cách độc lập. Phương pháp này phù hợp trong trường hợp khó khăn khi thu thập dữ liệu.
Đối với transductive few-shot learning, bộ phân loại có thể quan sát cả support dataset và query dataset. Mặc dù chưa biết nhãn của query dataset, bộ phân loại có thể dùng các thông tin và patterns từ dataset này để đưa ra dự đoán. Phương pháp này thích hợp hơn khi gặp khó khăn trong việc gán nhãn dữ liệu.

Trong bài báo này, nhóm tác giả giới thiệu một phương pháp đơn giản, bao gồm các thành phần phổ biến đã được sử dụng trong nhiều nghiên cứu trước đây, mà vẫn đạt được hiệu suất cạnh tranh. Bài báo có hai đóng góp chính:

Đưa ra một phương pháp rất đơn giản cho cả inductive và transductive few-shot learning mà không cần bổ sung thêm hyperparameters nào khác ngoài hyperparameters cho quá trình training backbone.
Chứng minh rằng phương pháp này đạt kết quả SOTA trên nhiều benchmark khác nhau.

Phương pháp

Phương pháp đề xuất bao gồm năm bước:

Bước 1: Huấn luyện các Backbone (Y)
Đầu tiên, các backbone sẽ được huấn luyện trên bộ dữ liệu tổng quát. Nhóm tác giả sử dụng hai hàm loss cross-entropy song song, một cho phân loại các lớp base và một cho các target tự giám sát, kèm theo phương pháp manifold mixup. Tất cả các backbone đều được huấn luyện theo cách tiếp cận giống nhau, riêng biệt chỉ khác nhau ở việc khởi tạo và thứ tự dữ liệu trong batch.

Bước 2: Tạo mẫu mở rộng (AS)
Với mỗi ảnh trong tập dữ liệu mới, nhóm tác giả sẽ thực hiện cắt ảnh thành nhiều phần và tinh chuyển thành các vector đặc trưng, sau đó tính trung bình chúng lại. Phương pháp này giúp cải thiện độ chính xác và được thực hiện thông qua việc sử dụng khoảng 30 crops mỗi ảnh.

Bước 3: Tập hợp các Backbone (E)
Để nâng cao hiệu suất, nhóm tác giả khuyến nghị concatenation các vector đặc trưng thu được từ quá trình huấn luyện nhiều backbone tương tự nhưng với các random seed khác nhau. Bước này cũng là tùy chọn.

Bước 4: Tiền xử lý vector đặc trưng
Trong bước này, nhóm tác giả thực hiện hai biến đổi trên vector đặc trưng để cải thiện chất lượng dữ liệu. Đầu tiên, tính toán trung bình vector đặc trưng của bộ dữ liệu base trong trường hợp inductive, hoặc kunnen mean của bộ dữ liệu mới trong trường hợp transductive.

Bước 5: Phân loại
Trong trường hợp inductive few-shot learning, nhóm tác giả sử dụng Nearest Class Mean classifier (NCM) để xác định barycenters cho các lớp. Trong trường hợp transductive, thuật toán soft K-means được áp dụng, sử dụng trọng số dựa trên khoảng cách L2 giữa dữ liệu và barycenter để đưa ra dự đoán chính xác hơn.

Kết quả thực nghiệm

Bài báo cung cấp kết quả thực nghiệm cho phương pháp đã đề xuất và chứng minh tính hiệu quả của nó qua nhiều phép thử khác nhau.

Tài liệu tham khảo

EASY – Ensemble Augmented-Shot Y-shaped Learning: State-Of-The-Art Few-Shot Classification with Simple Ingredients
Manifold Mixup: Better Representations by Interpolating Hidden States
SGDR: Stochastic Gradient Descent with Warm Restarts
Charting the Right Manifold: Manifold Mixup for Few-shot Learning
GitHub Repository
Soft Clustering
source: viblo

Nghiên cứu về Few-Shot Learning: Phương pháp EASY – Ensemble Augmented-Shot Y-shaped Learning cho Phân loại Hiệu quả

Tóm tắt

Giới thiệu

Phương pháp

Kết quả thực nghiệm

Tài liệu tham khảo

Bình luận