0
0
Lập trình
Flame Kris
Flame Krisbacodekiller

Hướng tới Giải Đáp Câu Hỏi Thị Giác Đa Ngôn Ngữ: Nghiên Cứu và Phát Triển

Đăng vào 2 tuần trước

• 4 phút đọc

Giới thiệu về Giải Đáp Câu Hỏi Thị Giác Đa Ngôn Ngữ

Visual Question Answering (VQA) là một lĩnh vực nghiên cứu thú vị, nhằm mục đích mô phỏng khả năng trả lời câu hỏi của con người dựa trên hình ảnh. Ý tưởng chính của VQA là xây dựng một hệ thống máy móc có khả năng tương tác hỏi đáp với con người thông qua các hình ảnh. Hiện tại, hầu hết các nghiên cứu trong lĩnh vực này đều tập trung vào tiếng Anh vì các bộ dữ liệu VQA chủ yếu có sẵn cho ngôn ngữ này.

Trong bài nghiên cứu này, nhóm tác giả đã đưa ra ba đóng góp chính:

  1. Khung làm việc dựa trên phiên dịch: Nhóm tác giả đề xuất một phương pháp sinh dữ liệu cho bài toán VQA đa ngôn ngữ bằng cách sử dụng các đoạn mô tả hình ảnh (caption).
  2. Phát triển benchmark MAVERICS-XM3600: Một bộ dữ liệu đa ngôn ngữ gồm 7 ngôn ngữ: tiếng Anh, tiếng Pháp, tiếng Hindi, tiếng Do Thái, tiếng Romania, tiếng Thái và tiếng Trung Quốc, cùng với cách đánh dấu và phân tích độ chính xác.
  3. Mô hình mVQA: Đóng góp cho một kiến trúc VQA thống nhất, mở rộng và hiệu quả, chứng minh được hiệu suất mạnh mẽ trên cả bộ dữ liệu hiện tại và bộ đề xuất.

Tạo Dữ Liệu VQA Đa Ngôn Ngữ

Hạn chế chính trong việc phát triển bài toán mVQA nằm ở việc thiếu hụt bộ dữ liệu gán nhãn chất lượng. Đa số bộ dữ liệu hiện tại đều được xây dựng cho tiếng Anh, sử dụng các phương pháp gán nhãn thủ công cho các câu hỏi và câu trả lời. Để giảm thiểu công sức con người và mở rộng ứng dụng cho nhiều ngôn ngữ, nhóm tác giả đã áp dụng các tiến bộ trong việc sinh câu hỏi tự động.

Bối Cảnh và Phương Pháp VQ2A

Một trong những phương pháp hiệu quả trong việc sinh dữ liệu VQA là VQ2A, bao gồm ba bước chính:

  1. Trích xuất câu trả lời tiềm năng từ caption đầu vào.
  2. Sinh các câu hỏi tiềm năng từ các caption và câu trả lời đã trích xuất.
  3. Sử dụng bộ lọc để xác minh tính hợp lệ của các câu hỏi được sinh ra.

Tuy nhiên, mọi bước trong VQ2A đều được tối ưu hóa chỉ cho tiếng Anh. Vì lý do này, nhóm tác giả đã đề xuất một phiên bản đơn giản hơn gọi là Doubly-Translate-VQ2A (DTVQ2A), giúp mở rộng khả năng sang các ngôn ngữ khác. Gồm có các bước:

  • Nếu caption không phải tiếng Anh, dịch sang tiếng Anh.
  • Áp dụng VQ2A trên caption tiếng Anh để nhận cặp câu hỏi-trả lời.
  • Dịch cặp câu hỏi-trả lời sang ngôn ngữ mục tiêu và xác minh câu trả lời.
  • Cuối cùng, tiến hành xác minh và sửa đổi từ con người nếu cần thiết.

Ưu điểm lớn của DTVQ2A là khả năng áp dụng cho nhiều ngôn ngữ và giảm thiểu công sức gán nhãn của con người.

MAVERICS-XM3600 (MaXM)

Nhóm tác giả đã lựa chọn 7 ngôn ngữ cho bộ benchmark MaXM, đảm bảo tính đa dạng và lịch sử văn hóa của chúng. Họ đã thu thập 3600 hình ảnh từ tập dữ liệu Crossmodal-3600 với các caption chất lượng cao, đảm bảo sự phong phú về ngữ nghĩa và văn hóa.

Gán Nhãn và Kết Hợp Dữ Liệu

Mỗi câu hỏi và câu trả lời được gán nhãn là “Correct”, “Almost Correct”, hoặc “Incorrect”. Số lượng câu hỏi-trả lời ở giai đoạn khác nhau gần như đạt được sự cân bằng giữa các ngôn ngữ, và khoảng 30% các cặp từ tiếng Anh đã dịch bị loại bỏ do không đạt yêu cầu. Nhóm tác giả đã thực hiện xác minh tính đúng đắn bằng cách lấy mẫu tỉ lệ các cặp câu hỏi-trả lời để đảm bảo chất lượng dữ liệu.

Mô Hình VQA Mới

Phần này trình bày mô hình VQA đa ngôn ngữ duy nhất, dựa trên kiến trúc mT5 và Vision Transformers (ViT). Mô hình được tối ưu hóa với kỹ thuật multi-task training, giúp dễ dàng mở rộng cho các ngôn ngữ mới khi có sẵn dữ liệu. Sử dụng cấu trúc encoder-decoder, khung này cho phép hiểu và sinh câu trả lời cho các câu hỏi một cách hiệu quả.

Kết Luận

Nghiên cứu mVQA sẽ mở ra nhiều cơ hội cho việc phát triển ứng dụng trong các lĩnh vực khác nhau, từ giáo dục đến hỗ trợ khách hàng, đồng thời nâng cao khả năng tiếp cận cho người dùng từ nhiều quốc gia và văn hóa khác nhau.
source: viblo

Gợi ý câu hỏi phỏng vấn
Không có dữ liệu

Không có dữ liệu

Bài viết được đề xuất
Bài viết cùng tác giả

Bình luận

Chưa có bình luận nào

Chưa có bình luận nào