0
0
Lập trình
Flame Kris
Flame Krisbacodekiller

Khám Phá Mô Hình PaLI: Mô Hình Ngôn Ngữ-Hình Ảnh Được Tối Ưu Hóa Đa Ngôn Ngữ

Đăng vào 4 ngày trước

• 4 phút đọc

Giới thiệu về Mô Hình PaLI

Trong thời gian gần đây, các mô hình mạng neural đã đạt được nhiều thành tựu quan trọng trong các lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) và thị giác máy tính (Computer Vision). Tăng cường dung lượng và độ phức tạp của mô hình luôn là hướng đi phổ biến nhằm nâng cao độ chính xác. Trong NLP, những mô hình nổi bật như T5, GPT-3, Megatron-Turing, GLAM, Chinchilla, và PaLM đã chứng minh hiệu quả của việc huấn luyện các mô hình Transformer quy mô lớn trên dữ liệu văn bản phong phú. Trong lĩnh vực Computer Vision, các mô hình Transformer như ViT và BEiT cũng ghi nhận sự phát triển mạnh mẽ.

Bài báo này giới thiệu mô hình PaLI (Pathways Language and Image), với khả năng thực hiện đa dạng tác vụ liên quan đến thị giác máy tính và ngôn ngữ tự nhiên, thậm chí là cả hai. Dưới đây là một số điểm nổi bật trong bài báo:

  • Tái sử dụng Backbone: Mô hình PaLI tận dụng các backbone lớn để thực hiện modeling cho cả ngôn ngữ và hình ảnh, nhằm làm giảm chi phí đào tạo và cải thiện khả năng transfer learning.
  • Tăng quy mô đồng thời: Việc mở rộng đồng thời các thành phần thị giác và ngôn ngữ mang lại nhiều lợi ích, giúp cải thiện độ chính xác một cách hiệu quả.
  • Chia sẻ tri thức: Mô hình áp dụng phương pháp chuyển giao tri thức giữa các tác vụ về ngôn ngữ và hình ảnh, qua việc hợp nhất thành một tác vụ hỏi đáp về hình ảnh (VQA) tổng quát.

Để huấn luyện PaLI-17B, nhóm tác giả đã xây dựng bộ dữ liệu lớn mang tên WebLI, bao gồm 10 tỷ cặp mẫu hình ảnh-văn bản và hơn 100 ngôn ngữ.

Nhóm nghiên cứu còn cung cấp một lộ trình mở rộng cho các mô hình đa phương thức trong tương lai, khẳng định rằng việc mở rộng đồng đều các thành phần của từng phương thức sẽ mang lại hiệu suất tốt hơn.

Kiến trúc của Mô Hình PaLI

Thông thường, khi cần kết hợp mô hình ngôn ngữ và hình ảnh (như VQA), việc kết hợp các mô hình rời rạc thường gặp hạn chế. Các bài toán về phân loại hình ảnh và VQA yêu cầu sự dự đoán cụ thể, trong khi các tác vụ về ngôn ngữ lại cần sinh văn bản với vốn từ mở. Để giải quyết vấn đề này, nhóm tác giả đã giới thiệu một phương pháp tổng quát:

  • Đầu vào: Ảnh và đoạn văn bản
  • Đầu ra: Một đoạn văn bản mô tả
  • Tính tổng quát: Mô hình không sử dụng tham số đặc trưng cho từng tác vụ riêng lẻ.

Đối với phần kiến trúc, nhóm tác giả đã triển khai mô hình text encoder-decoder Transformer với các component phù hợp:

Thành phần Hình ảnh (Visual Component)

Nhóm nghiên cứu đã đào tạo kiến trúc ViT-e với quy trình tương tự như ViT-G, mở rộng với 4 tỷ tham số và áp dụng chiến lược “learning rate cool-down” hai lần để tận dụng độ chính xác tối đa.

Thành phần Ngôn ngữ (Language Component)

Nhóm đã sử dụng backbone mT5 cho mô hình ngôn ngữ, với nhiều nhiệm vụ để tăng cường khả năng hiểu ngôn ngữ.

Mô hình Tổng thể

Mô hình được khảo sát với ba phiên bản dựa vào kích thước và khả năng của các thành phần.

Bộ Dữ Liệu

Để mô hình hoạt động hiệu quả, nhóm tác giả sử dụng bộ dữ liệu WebLI với hình ảnh và văn bản đa ngôn ngữ từ các nguồn công cộng. Để cải thiện chất lượng dữ liệu và giảm rò rỉ dữ liệu từ train đến test, họ đã thực hiện lọc các mẫu trùng lặp.

Với mục tiêu nâng cao độ chính xác về sự tương đồng giữa hình ảnh và văn bản, nhóm cũng áp dụng hệ thống đánh điểm cross-modal similarity, giúp xác định các cặp hình ảnh-văn bản phù hợp nhất cho việc huấn luyện.

Tổ Hợp Nhiệm Vụ Huấn Luyện

Để phục vụ cho nhiều tác vụ đa dạng kết hợp giữa ngôn ngữ và hình ảnh, PaLI được huấn luyện thông qua hỗn hợp các nhiệm vụ pretrained như:

  • Span Corruption trên dữ liệu văn bản
  • Split-Captioning cho WebLI alt-text
  • Captioning cho CC3M-35L
  • OCR trên dữ liệu text từ WebLI
  • VQAVQG cho dữ liệu bản địa và dịch
  • Phát hiện đối tượng

Những Hạn Chế

Tuy nhiên, mô hình cũng gặp phải một số hạn chế:

  • Khó khăn trong việc mô tả bối cảnh phức tạp với nhiều đối tượng do những giới hạn trong nhãn mẫu.
  • Một số khả năng đa ngôn ngữ có thể bị mất đi khi tinh chỉnh trên dữ liệu chỉ có tiếng Anh.
  • Hạn chế trong việc đánh giá mô hình, khi mà output có thể tương tự với ground truth nhưng không hoàn toàn chính xác theo tiêu chí đánh giá.

Kết luận

Bài báo giới thiệu về mô hình PaLI, một giải pháp độc đáo trong việc kết hợp ngôn ngữ và hình ảnh với quy mô lớn. PaLI tận dụng hiệu quả các mô hình đơn phương thức đã được huấn luyện trước đó để giảm thiểu chi phí và nâng cao hiệu suất. Với bộ dữ liệu WebLI và khả năng hỗ trợ cho hơn 100 ngôn ngữ, PaLI đã thiết lập nhiều kết quả hiện đại trong các tác vụ đa ngôn ngữ và đa phương thức. Bài viết giúp người đọc nắm bắt được cách xây dựng và tối ưu hóa mô hình tổng quát trong lĩnh vực này.
source: viblo

Gợi ý câu hỏi phỏng vấn
Không có dữ liệu

Không có dữ liệu

Bài viết được đề xuất
Bài viết cùng tác giả

Bình luận

Chưa có bình luận nào

Chưa có bình luận nào