Mở đầu
Gán nhãn (Label Assignment) là một yếu tố then chốt trong việc huấn luyện các mô hình nhận diện đối tượng (object detection), xác định cách thức phân phối các hộp ground-truth cho các hộp anchor hoặc các vị trí dự đoán trên bản đồ đặc trưng. Như một "cầu nối" quan trọng giữa dữ liệu thực tế và các dự đoán của mô hình, gán nhãn ảnh hưởng trực tiếp đến chất lượng quá trình học.
Từ các phương pháp truyền thống dựa trên chỉ số IoU (Intersection over Union) đến những kỹ thuật hiện đại như mạng nơ-ron tự học, Label Assignment đã trải qua nhiều giai đoạn phát triển. Mỗi bước cải tiến không chỉ giúp nâng cao độ chính xác trong phát hiện đối tượng mà còn tối ưu hóa quy trình huấn luyện, giải quyết các thách thức như sự mất cân bằng trong mẫu dữ liệu và đa dạng về kích thước của các đối tượng.
Bài viết này sẽ khám phá Label Assignment từ các khía cạnh khái niệm, mục tiêu, ứng dụng, và các phương pháp gán nhãn phổ biến. Hy vọng bạn sẽ tìm thấy thông tin hữu ích qua nội dung dưới đây.
Tổng quan
Trong hơn 10 năm qua, Gán nhãn (Label Assignment) đã trở thành một chiến lược cực kỳ quan trọng nhằm tối ưu hóa hiệu suất của các mô hình nhận diện vật thể trong cả việc phân loại và định vị.
Mô hình nhận diện vật thể có hai nhiệm vụ chính: phân loại nhãn đối tượng (classification) và xác định vị trí của nó (localization). Để vẽ một hộp bao quanh đối tượng, mô hình cần điều chỉnh kích thước và vị trí của các "base bounding box" (khởi tạo từ anchor boxes hoặc điểm đặc biệt). Tuy nhiên, việc điều chỉnh quá nhiều hộp như vậy có thể khiến mô hình chậm lại và giảm độ chính xác. Do đó, gán nhãn ra đời để xác định đâu là hộp cần điều chỉnh (positive) và phần còn lại sẽ được bỏ qua (negative).
Gán nhãn có thể được phân chia thành hai loại: dựa trên anchor (anchor-based) với anchor boxes, và không dựa trên anchor (anchor-free) với anchor points. Mỗi loại có ưu và nhược điểm riêng, điều này sẽ được giải thích chi tiết hơn trong các phần tiếp theo.
Quá trình phát triển
Ý tưởng về Gán nhãn đã xuất hiện từ sớm, và theo quan điểm cá nhân thì nó bắt đầu được định hình rõ ràng từ năm 2013-2014 với sự ra đời của R-CNN, nơi phân chia giữa các mẫu positive/negative thông qua các vùng quan tâm (region proposals) là một ví dụ điển hình.
Dựa trên anchor (Anchor-based)
Vào năm 2015, Faster R-CNN xuất hiện và trở thành tiêu chuẩn cho quy trình gán nhãn trong phát hiện đối tượng với việc sử dụng anchor boxes. Anchor boxes là các hình chữ nhật với kích thước đã được xác định trước nhằm kéo chúng về vị trí của các hộp ground truth, từ đó tạo ra các bounding boxes cuối cùng mà chúng ta nhìn thấy.
Các anchor boxes được xác định bởi vị trí và kích thước. Vị trí thường nằm ở trung tâm của các ô grid, trong khi kích thước được xác định bằng các tỉ lệ và độ phóng đại. Tỉ lệ thường dựa vào đặc điểm của dataset, trong khi độ phóng đại quy định mức độ điều chỉnh kích thước của các anchor boxes.
Trong giai đoạn này, mô hình nổi tiếng YOLOv1 cũng xuất hiện với cách tiếp cận chia ảnh thành các grid cell và dự đoán hộp bao quanh đối tượng, nhưng lại gặp khó khăn khi có nhiều hơn một đối tượng trong một cell. Phải đến YOLOv2 (2016), vấn đề này mới được khắc phục nhờ vào việc sử dụng anchor boxes.
Không dựa trên anchor (Anchor-free)
Đến năm 2018, sự ra đời của CornerNet, tiếp theo là CenterNet (2019) và FCOS (2019) đã chuyển hướng sự chú ý tới mô hình không dựa trên anchor. Phương pháp này không sử dụng anchor boxes mà xác định các mẫu positive/negative theo cách riêng.
Có hai loại chính trong mô hình không dựa trên anchor:
- Phương pháp dựa trên điểm đặc biệt (Keypoint-based methods): Phát hiện các điểm đặc biệt để xác định bounding box, ví dụ như CornerNet xác định từ hai điểm trên và dưới.
- Phương pháp trung tâm (Center-based methods): Tương tự như cách thức gán nhãn theo anchor, nhưng không sử dụng anchor boxes để đo lường khoảng cách từ điểm trung tâm tới các cạnh của bounding box. Điều này giúp giảm bớt số siêu tham số cần điều chỉnh.
RetinaNet và FCOS
Giữa giai đoạn 2017-2019, RetinaNet và FCOS là hai ví dụ tiêu biểu cho tiến trình của Gán nhãn. RetinaNet cải thiện sự mất cân bằng giữa các positive và negative anchor boxes thông qua việc sử dụng Focal Loss, còn FCOS tối ưu hóa quá trình chọn mẫu tích cực và kết hợp giữa phân loại và trung tâm. Mặc dù trong nhiều trường hợp, các mô hình này vẫn dựa trên các quy tắc cố định, nhưng đã có cải tiến đáng kể.
ATSS và TOOD
Từ 2019 - 2021, ATSS (Adaptive Training Sample Selection) ra đời nhằm khắc phục sự khó khăn trong việc điều chỉnh siêu tham số của các mô hình trước đó, trong khi gần đây, TOOD (Task-aligned One-stage Object Detection) đang thể hiện xu hướng mô hình tự học cách gán nhãn hiệu quả hơn, nhằm đồng bộ hóa các nhiệm vụ phân loại và định vị trong cùng một quy trình.
Lời kết
Cho đến nay, mặc dù những mô hình lớn như DETR (DEtection TRansformer) đã bỏ qua hoàn toàn việc sử dụng anchor và các phương pháp gán nhãn truyền thống, nhưng vẫn còn một số hạn chế như tốc độ hồi quy chậm và khó phát hiện các đối tượng nhỏ. Nhìn chung, Gán nhãn vẫn giữ vai trò quan trọng trong nghiên cứu và phát triển nhận diện vật thể, tạo nền tảng cho các nghiên cứu tiếp theo.
Mong nhận được ý kiến từ các bạn để cải thiện bài viết ngày một tốt hơn.
source: viblo