0
0
Lập trình
Admin Team
Admin Teamtechmely

Nghiên cứu về Đọc Văn bản: Mô hình Ngôn ngữ Tự động, Hai chiều và Lặp lại cho Nhận diện Text trong Cảnh vật

Đăng vào 3 tuần trước

• 4 phút đọc

Đóng góp của bài báo

Bài báo này khám phá các bài toán Nhận diện Ký tự Quang học (OCR), một lĩnh vực đang thu hút nhiều sự chú ý trong giới trí tuệ nhân tạo, nhờ vào khả năng ứng dụng rộng rãi của nó trong nhiều lĩnh vực khác nhau. Một trong những thách thức lớn của các mô hình hiện tại trong việc giải quyết bài toán này là khả năng nhận diện text trong các hình ảnh cảnh chụp ở nhiều điều kiện môi trường khác nhau. Các đoạn văn bản trong những hình ảnh này thường bị che khuất, mờ, hoặc nhiễu, dẫn đến khó khăn trong việc xác định nội dung chính xác của văn bản.

Giống như cách mà con người đọc, khi gặp phải những từ khó đọc hoặc bị che khuất, chúng ta thường dựa vào các từ xung quanh để phán đoán. Ví dụ, trong câu: "Halley mới mua cây 'mask' mới để chơi cầu lông", ta có thể dự đoán rằng "mask" có khả năng cao là từ "vợt" dựa vào ngữ nghĩa của các từ xung quanh.

Mặc dù ý tưởng này đã được áp dụng trong nhiều mô hình, cách hiệu quả để mô phỏng hành vi ngôn ngữ của con người trong quá trình đọc vẫn còn là một câu hỏi khó. Một số nhận xét có thể đưa ra bao gồm:

  • Nếu không thể nhìn thấy một từ cụ thể, chúng ta có thể sử dụng kiến thức ngôn ngữ để dự đoán từ đó. Tức là có thể thiết kế mô hình thị giác và mô hình ngôn ngữ độc lập, kết hợp chúng lại để suy đoán văn bản.
  • Có thể sử dụng các ký tự dễ đọc ở bên trái và bên phải của ký tự khó đọc để suy diễn ra từ khó đọc đó.
  • Cải thiện độ tin cậy của dự đoán bằng cách lặp đi lặp lại cho đến khi đạt được kết quả chính xác.

Dựa trên các vấn đề và ý tưởng trên, bài báo giới thiệu một phương pháp được gọi là ABINet, áp dụng kiến thức ngôn ngữ vào việc nhận diện text trong cảnh vật một cách hiệu quả. ABINet có ba đặc điểm chính:

  1. Tự động (Autonomous): Thiết lập mô hình ngôn ngữ độc lập và rõ ràng thông qua việc chặn quá trình gradient flow giữa mô hình thị giác và mô hình ngôn ngữ.
  2. Hai chiều (Bidirectional): Học biểu diễn văn bản bằng cách thao tác trên ngữ cảnh của các ký tự theo hai chiều.
  3. Lặp lại (Iterative): Từng bước điều chỉnh dự đoán để giảm thiểu tác động của nhiễu đầu vào. Đặc biệt, bài báo còn đề xuất một phương pháp tự huấn luyện tích hợp cho học bán giám sát, và kết quả thử nghiệm trên các chuẩn mực tiêu chuẩn cho thấy tính ưu việt của phương pháp này, đặc biệt với các hình ảnh có chất lượng thấp.

Phương pháp đề xuất

Kiến trúc tổng quan của ABINet

Mô hình Thị giác (Vision Model)

Mô hình thị giác bao gồm một mạng backbone và một module attention theo vị trí. Mạng trích xuất đặc trưng sử dụng cấu trúc ResNet và Transformer. Với mỗi bức ảnh, chúng ta có thể thu được các đặc trưng cần thiết.

Module attention theo vị trí được thiết kế dựa trên mô hình truy vấn, chuyển đổi các đặc trưng thị giác thành xác suất của các ký tự.

Mô hình Ngôn ngữ (Language Model)

Mô hình ngôn ngữ được sử dụng như một mô hình sửa lỗi độc lập. Chiến lược "Tự động" này giúp ngăn chặn gradient flow tại input vector và đảm bảo mô hình ngôn ngữ được đào tạo riêng biệt từ dữ liệu văn bản chưa được gán nhãn.

Biểu diễn Hai chiều

Phương pháp trước đây thường sử dụng các mô hình một chiều. BCN (Bidirectional Cloze Network) là một biến thể của mô hình transformer, giúp đạt được khả năng trích xuất đặc trưng mạnh mẽ hơn nhờ vào việc biểu diễn thông tin theo cách hai chiều.

Sửa lỗi Lặp lại (Iterative Correction)

Để giải quyết vấn đề âm thanh nhiễu từ mô hình thị giác, bài báo đề xuất mô hình ngôn ngữ lặp lại, cho phép điều chỉnh dự đoán qua nhiều vòng lặp, từ đó đưa ra kết quả chính xác hơn.

Kết quả Thực nghiệm

Bài báo cũng cung cấp một số bảng kết quả cho thấy tính hiệu quả của ABINet, khi sử dụng các cấu hình khác nhau của mô hình thị giác cũng như việc áp dụng các chiến lược tự động và đại diện hai chiều vào bài toán nhận diện văn bản. Các so sánh với các phương pháp khác cũng được trình bày để minh chứng cho những cải tiến mà ABINet mang lại.

Tài liệu tham khảo

  1. Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition
  2. https://github.com/FangShancheng/ABINet/tree/main
    source: viblo
Gợi ý câu hỏi phỏng vấn
Không có dữ liệu

Không có dữ liệu

Bài viết được đề xuất
Bài viết cùng tác giả

Bình luận

Chưa có bình luận nào

Chưa có bình luận nào