Tổng Quan về YOLOv10: Cải Tiến Mới trong Phát Hiện Đối Tượng Thời Gian Thực

Tóm Tắt Về YOLOv10

YOLOv10 là phiên bản mới nhất trong dòng sản phẩm YOLO (You Only Look Once) với nhiều cải tiến đáng chú ý giúp nâng cao hiệu suất trong việc phát hiện đối tượng. Bài viết này sẽ trình bày chi tiết những cải tiến chính của YOLOv10.

1. Đào Tạo Không Cần NMS (NMS-Free Training)

NMS (Non-Maximum Suppression) là bước xử lý hậu kỳ quan trọng nhằm loại bỏ những bounding box dư thừa sau khi huấn luyện. Tuy nhiên, NMS tiêu tốn nhiều tài nguyên tính toán và làm tăng thời gian suy luận, đặc biệt khi số lượng bounding box tăng lên.

Trong quá trình huấn luyện, các mô hình YOLO trước đây thường sử dụng phương pháp Task-Aligned Learning (TAL) với cách gán nhãn one-to-many, cho phép một dự đoán có thể gán nhiều nhãn khác nhau. Dù mang lại nhiều thông tin giám sát, cách này vẫn yêu cầu sử dụng NMS trong bước xử lý hậu kỳ. Để khắc phục vấn đề này, YOLOv10 đã áp dụng phương pháp Dual Labels Assignment giúp tận dụng ưu điểm của hai phương pháp gán nhãn trong khi vẫn giảm thiểu thời gian suy luận.

Phương pháp	Ưu điểm	Nhược điểm
One-to-many label assignment	Cung cấp thông tin giám sát phong phú	Cần NMS, làm tăng thời gian triển khai
One-to-one label assignment	Không cần NMS, đơn giản hóa và tăng tốc độ	Tín hiệu giám sát yếu, ảnh hưởng đến độ chính xác

2. Tách Biệt Giảm Kích Thước Không Gian và Kênh (Spatial-channel Decoupled Downsampling)

YOLOv10 đổi mới quy trình giảm kích thước không gian và kênh bằng việc tách biệt hai bước này. Việc sử dụng:

Convolution Điểm (Pointwise Convolution) với kích thước 1x1 giúp điều chỉnh kích thước kênh.
Convolution Độ Sâu (Depthwise Convolution) 3x3 với bước nhảy giúp giảm kích thước không gian.

Phương pháp này tối ưu hóa chi phí tính toán và bảo toàn thông tin quan trọng từ ảnh.

3. Thiết Kế Bounding Box Hướng Theo Xếp Hạng (Rank-guided Box Design)

YOLOv10 áp dụng Intrinsic Rank để xác định và thay thế những khối mô hình có tính dư thừa cao bằng Compact Inverted Block (CIB), qua đó nâng cao hiệu suất và giảm thiểu thông tin dư thừa. Các bước thực hiện bao gồm: sắp xếp theo xếp hạng và thay thế khối.

4. Đầu Phân Loại Nhẹ (Lightweight Classification Head)

Phương pháp này giảm thiểu khối lượng tính toán mà không làm giảm hiệu suất của mô hình. Đây là một cải tiến quan trọng giúp YOLOv10 hoạt động hiệu quả hơn.

5. Kết Quả Thực Nghiệm

YOLOv10 đã được huấn luyện trong vòng 50 epoch trên Google Colab với tập dữ liệu gồm 5128 ảnh huấn luyện và 1233 ảnh xác nhận. Chi tiết có thể tham khảo tại đây.

Nguồn: THU-MIG/yolov10 trên GitHub
source: viblo