Giới Thiệu
Phát hiện đối tượng trong thời gian thực là một lĩnh vực nghiên cứu luôn thu hút sự quan tâm nhờ tính ứng dụng cao trong nhiều lĩnh vực như theo dõi đối tượng và xe tự hành. Các mô hình phát hiện đối tượng thời gian thực hiện tại thường được xây dựng dựa trên kiến trúc CNN, nổi bật với tốc độ suy diễn nhanh. Tuy nhiên, điều này đi kèm với một sự đánh đổi giữa tốc độ và độ chính xác. Các mô hình này thường cần sử dụng thuật toán non-maximum suppression (NMS) trong quá trình xử lý hậu kỳ, gây ảnh hưởng lớn đến tốc độ suy diễn.
Mặt khác, các mô hình phát hiện dựa trên transformer, như DETR, mang lại hiệu suất ấn tượng nhưng lại đòi hỏi tài nguyên tính toán lớn. Do đó, những mô hình này vẫn gặp khó khăn khi ứng dụng trong thực tế, mặc dù không cần quy trình xử lý hậu kỳ như NMS.
Trong bài viết này, nhóm tác giả đã phân tích tác động của NMS lên tốc độ suy diễn của các mô hình phát hiện đối tượng và giới thiệu mô hình mới có tên Real-Time DEtection TRansformer (RT-DETR). Mô hình này được xác định là mô hình phát hiện đối tượng đầu tiên không yêu cầu xử lý hậu kỳ, mang lại tốc độ và độ chính xác vượt trội so với các mô hình hiện tại.
Động Lực và Đóng Góp
Phát hiện đối tượng thời gian thực là rất cần thiết trong nhiều ứng dụng. Tuy nhiên, việc cải tiến tốc độ suy diễn mà không làm giảm độ chính xác vẫn là một thách thức lớn. NMS, mặc dù phổ biến, nhưng thường gây cản trở tốc độ suy diễn. Nhóm tác giả đã tiến hành phân tích kỹ lượng về NMS và đưa ra mô hình RT-DETR như một giải pháp tối ưu, không chỉ duy trì hiệu suất mà còn đảm bảo tính linh hoạt trong việc điều chỉnh kích thước mô hình.
Phương Pháp
Phân Tích NMS và Tốc Độ Suy Diễn
NMS là một trong những thuật toán phổ biến trong các mô hình phát hiện đối tượng, giúp loại bỏ các box dự đoán chồng chéo nhau. Tuy nhiên, NMS tiêu tốn nhiều thời gian tính toán và làm giảm hiệu suất tổng thể. Nhóm tác giả đã thực hiện các thực nghiệm trên hai mô hình YOLOv5 (dựa trên anchor) và YOLOv8 (không dựa trên anchor) để chứng minh ảnh hưởng của các hyperparameter khác nhau đến tốc độ suy diễn.
Bảng So Sánh Tốc Độ
Nhằm đưa ra những kết quả công bằng nhất về tốc độ suy diễn, nhóm tác giả đã xây dựng bộ dữ liệu kiểm tra trên COCO val2017. Kết quả cho thấy các mô hình không dựa vào anchor (anchor-free) có tốc độ suy diễn nhanh hơn so với các mô hình dựa vào anchor mà vẫn duy trì độ chính xác tương đương.
Mô Hình RT-DETR
Mô hình RT-DETR bao gồm ba phần chính: backbone, hybrid encoder và transformer decoder. Hybrid encoder chuyển đổi các đặc trưng đa quy mô thành các đặc trưng hình ảnh và thực hiện việc lựa chọn truy vấn dựa trên IoU để tối ưu hóa tốc độ suy diễn.
Encoder Kết Hợp Hiệu Quả
Nhóm tác giả đã đưa ra một encoder hiệu quả mới, giảm thiểu tối đa lượng tính toán trong quá trình xử lý các đặc trưng đa quy mô. Bằng cách tối ưu hóa cả intra-scale và cross-scale feature interaction, RT-DETR đảm bảo hiệu suất cao mà không cần thiết phải tăng cường compute.
Phương Pháp Lựa Chọn Truy Vấn Dựa Trên IoU
Một trong những vấn đề lớn của các mô hình trước đây là sự không ổn định giữa điểm số phân loại và độ chính xác của box dự đoán. Nhóm tác giả đã cải thiện điều này bằng cách áp dụng phương pháp IoU-aware query selection, giúp mô hình cải thiện độ chính xác tổng thể thông qua việc tối ưu hóa mối liên hệ giữa điểm số phân loại và độ chính xác của box.
Thực Nghiệm
Các kết quả thực nghiệm cho thấy rõ rệt sự cải thiện khi áp dụng mô hình RT-DETR và phương pháp IoU-aware query selection. Mô hình này cho thấy khả năng phát hiện đối tượng chính xác và nhanh chóng hơn đáng kể.
Kết Luận
Mô hình RT-DETR không chỉ vượt trội hơn so với các mô hình YOLO hiện tại về tốc độ và độ chính xác mà còn cung cấp một giải pháp thay thế thông minh cho vấn đề xử lý hậu kỳ trong phát hiện đối tượng thời gian thực.
Tài Liệu Tham Khảo
- [1] DETRs Beat YOLOs on Real-time Object Detection
- [2] Vision Transformer with Deformable Attention
source: viblo