I. Giới Thiệu
Trong bối cảnh công nghệ trí tuệ nhân tạo (AI) ngày càng phát triển, các mô hình đa phương thức tiên tiến đã chứng minh khả năng vượt trội trong việc xử lý hình ảnh và văn bản. Các mô hình thị giác-ngôn ngữ (VLMs) hiện nay có khả năng tạo ra các mô tả hình ảnh chi tiết và trả lời các câu hỏi trực quan phức tạp một cách chính xác. Tuy nhiên, nhiều mô hình VLM hiệu suất cao hiện vẫn đang duy trì tính độc quyền, dẫn đến việc không có kết quả mô hình, dữ liệu hoặc mã nguồn nào được công khai. Điều này gây khó khăn cho cộng đồng khoa học trong việc hiểu và xây dựng các VLM hiệu suất cao từ đầu.
Để giải quyết những vấn đề này, nghiên cứu giới thiệu Molmo — một họ VLM mở hiện đại. Sự đổi mới chính của Molmo là bộ dữ liệu chú thích hình ảnh chất lượng cao mang tên PixMo, được thu thập hoàn toàn từ các chú thích do con người thực hiện thông qua mô tả bằng giọng nói. Phương pháp thu thập này nhằm giảm thiểu thời gian của người chú thích và tránh tình trạng sao chép từ các VLM độc quyền.
Mô hình tốt nhất trong họ Molmo với 72B tham số không chỉ vượt qua nhiều mô hình khác trong cùng loại mà còn so sánh tốt với các hệ thống độc quyền như GPT-4o, Claude 3.5 và Gemini 1.5. Tất cả các trọng số mô hình, dữ liệu chú thích và mã nguồn sẽ được công khai trong tương lai gần nhằm thúc đẩy nghiên cứu trong lĩnh vực này.
II. Tổng Quan Vấn Đề
Nhiều nghiên cứu đã nhằm tái tạo năng lực của các mô hình VLM độc quyền trong các mô hình mở để thúc đẩy khám phá khoa học. Những nỗ lực đầu tiên như LLaVA đã phát hành trọng số và dữ liệu huấn luyện hoàn toàn mở. Tuy nhiên, các mô hình này đang theo sau đáng kể so với các mô hình tiên tiến nhất hiện tại.
Sự phụ thuộc vào dữ liệu huấn luyện độc quyền hoặc dữ liệu tổng hợp từ các hệ thống độc quyền đã dẫn đến việc các mô hình VLM mở mạnh mẽ ngày càng trở nên khó tiếp cận và sáng tạo. Điều này cản trở việc xây dựng kiến thức cơ bản trong cộng đồng khoa học về cách phát triển các VLM hiệu suất cao độc lập.
Họ mô hình Molmo ra đời với mong muốn cung cấp một giải pháp mở, cho phép phát triển các VLM mà không phụ thuộc vào các hệ thống độc quyền. Điều này được thực hiện thông qua quy trình huấn luyện đơn giản, kết hợp mô hình ngôn ngữ được huấn luyện trước độc lập với bộ mã hóa thị giác, dẫn đến các mô tả hình ảnh chất lượng cao từ bộ dữ liệu mới PixMo.
III. Kiến Trúc Mô Hình
Kiến trúc của Molmo được thiết kế đơn giản nhưng hiệu quả, bao gồm bốn thành phần chính:
- Bộ tiền xử lý: Chuyển đổi hình ảnh đầu vào thành các hình ảnh đa tỷ lệ và đa cắt.
- Bộ mã hóa hình ảnh (ViT): Dùng mô hình CLIP ViT-L/14 336px của OpenAI để ánh xạ các hình ảnh thành các mã thông báo thị giác.
- Bộ kết nối: Gộp các mã thông báo thị giác và chiếu vào chiều đầu vào của mô hình ngôn ngữ.
- Mô hình ngôn ngữ (LLM): sử dụng nhiều LLM khác nhau ở quy mô và mức độ mở khác nhau. Tất cả các mô hình trong họ Molmo đều sử dụng quy trình huấn luyện đồng nhất với các tùy chỉnh khác nhau.
IV. Thu Thập Dữ Liệu và Huấn Luyện
Mô hình Molmo được huấn luyện qua hai giai đoạn:
- Giai đoạn 1: Huấn luyện trước đa phương thức để tạo chú thích. Người chú thích mô tả hình ảnh bằng giọng nói trong 60-90 giây, giúp tạo ra mô tả chi tiết hơn so với viết tay.
- Giai đoạn 2: Tinh chỉnh giám sát. Các tham số của mô hình được tinh chỉnh bằng cách sử dụng dữ liệu huấn luyện giám sát kết hợp với bộ dữ liệu PixMo mới được thu thập và các bộ dữ liệu học thuật phổ biến.
Các bộ dữ liệu PixMo bao gồm các tập dữ liệu đa dạng như PixMo-AskModelAnything, PixMo-Points, PixMo-CapQA và PixMo-Docs, đáp ứng nhiều nhiệm vụ khác nhau như hỏi đáp và chỉ điểm.
V. Kết Luận
Bài báo này đã giới thiệu họ mô hình ngôn ngữ thị giác Molmo, cùng với bộ dữ liệu PixMo. Những điểm nổi bật của Molmo bao gồm:
- Phương pháp thu thập dữ liệu mới dựa trên giọng nói để tạo ra chú thích hình ảnh chất lượng cao, giảm thiểu sử dụng dữ liệu tổng hợp.
- Bộ dữ liệu PixMo đa dạng phục vụ nhiều nhiệm vụ khác nhau như hỏi đáp và chỉ điểm.
- Hiệu suất vượt trội trong các bài kiểm tra chuẩn so với các hệ thống độc quyền.
Tất cả các trọng số mô hình, dữ liệu và mã nguồn sẽ được phát hành để phục vụ nghiên cứu và phát triển trong tương lai.
source: viblo