Tổng Quan Về Bài Báo

Bài báo này giới thiệu một phương pháp mới nhằm cải thiện việc học biểu diễn video (Video Representation Learning) trong môi trường không có dữ liệu ghi nhãn hoặc dữ liệu bị hạn chế. Với sự gia tăng khối lượng video không được gán nhãn, việc phát triển một phương pháp tự giám sát là vô cùng cần thiết.

Đóng Góp Chính Của Bài Báo

Trong những năm gần đây, nhiều nghiên cứu trong lĩnh vực thị giác máy tính đã áp dụng học tự giám sát (self-supervised learning) để phát triển các biểu diễn cho dữ liệu không được gán nhãn. Một số phương pháp đã tiến hành che (mask) các phần của hình ảnh và sau đó yêu cầu mô hình tái tạo lại những phần đã bị che, như trong mô hình MAE.

Tuy nhiên, trong việc áp dụng công nghệ này vào video, tồn tại hai vấn đề chính sau:

Việc tái tạo các patch video không giúp mô hình học được thông tin về thời gian.
Các phương pháp trước đây thường áp dụng mẫu cố định để lấy các frame, dẫn đến việc mất đi các frame chứa thông tin quan trọng cho quá trình phân loại hành động.

Bài báo đề xuất một mô hình mới có tên gọi là Masked Motion Encoding (MME) giúp khắc phục hai vấn đề trên:

Mô hình này yêu cầu khôi phục các quỹ đạo chuyển động (motion trajectories), từ đó giúp mô hình hiểu rõ hơn về sự chuyển động trong video.
Cơ chế nội suy chuyển động cho phép dự đoán thông tin cả về không gian và thời gian, giúp model nắm bắt các thông tin chuyển động chi tiết hơn.

Phương Pháp Mã Hóa Video Bị Che Đậy

1. Nhắc lại Mô Hình Mã Hóa Video Bị Che

Mục tiêu của bài toán học biểu diễn video tự giám sát là huấn luyện một encoder để ánh xạ các clip video thành các đặc trưng tương ứng. Hầu hết các phương pháp mã hóa video hiện tại đều sử dụng ý tưởng phân chia clip video thành các patch 3D không chồng lấn và thực hiện che ngẫu nhiên.

2. Kiến Trúc Tổng Quát Của MME

MME cải thiện đáng kể khả năng học thông tin thời gian bằng cách tập trung vào việc khôi phục thông tin chuyển động của các đối tượng, thay vì đơn thuần là tái tạo không gian như những mô hình trước. Các bước thực hiện mô hình như sau:

Phân chia video thành các patch 3D không chồng lấn.
Áp dụng chiến lược tube masking để che đi một số patch.
Chuyển các patch không bị che vào encoder và sử dụng các token có thể học được để tái tạo các quỹ đạo chuyển động từ các patch bị che.

3. Quá Trình Học Quỹ Đạo Chuyển Động

Nhóm tác giả tích hợp hai loại thông tin: thay đổi vị trí và thay đổi hình dạng của các đối tượng di chuyển để tạo thành một quỹ đạo chuyển động. Phương pháp như sau:

Sử dụng thông tin từ Optical Flow để theo dõi chuyển động.
Tính toán các đặc trưng hình dạng thông qua HOG để phát hiện các thay đổi hình dạng của đối tượng.

Kết Quả Thực Nghiệm

Bài báo đã trình bày một số kết quả thực nghiệm cho thấy mô hình MME vượt trội hơn so với các mô hình khác trên các tập dữ liệu như Something-Something V2, Kinetics-400, UCF101 và HMDB51.

Kết Luận

Bài báo này không chỉ đưa ra một mô hình mới mà còn chứng minh khả năng của nó trong việc nắm bắt thông tin thời gian trong quá trình học tự giám sát cho video. Điều này mở ra hướng đi mới trong lĩnh vực học biểu diễn video.

Tài Liệu Tham Khảo

Masked Motion Encoding for Self-Supervised Video Representation Learning
https://github.com/XinyuSun/MME
https://viblo.asia/p/tim-hieu-ve-phuong-phap-mo-ta-dac-trung-hog-histogram-of-oriented-gradients-V3m5WAwxZO7
source: viblo

Nghiên Cứu Phương Pháp Mã Hóa Chuyển Động Bị Che Đậy Để Học Biểu Diễn Video Tự Giám Sát