Tóm Tắt
Thành công gần đây của học sâu (deep learning) trong việc giải quyết các vấn đề về thị giác máy tính và các lĩnh vực học máy khác không thể hiện tốt trong phân tích cấu trúc của tài liệu, do các mạng nơ-ron thông thường không phù hợp với cấu trúc đầu vào của các bài toán này. Trong bài viết này, nhóm tác giả đã đề xuất một kiến trúc dựa trên mạng đồ thị (graph neural network) như một giải pháp thay thế hiệu quả cho các mạng nơ-ron tiêu chuẩn trong việc nhận diện bảng biểu. Nhóm tác giả chứng minh rằng mạng đồ thị là một sự lựa chọn tự nhiên hơn cho bài toán này và đã khám phá hai loại mạng nơ-ron đồ thị dựa trên gradient. Kiến trúc được đề xuất kết hợp sức mạnh của CNN (mạng nơ-ron tích chập) trong việc trích xuất đặc trưng hình ảnh với mạng đồ thị để giải quyết các vấn đề có cấu trúc. Nhóm tác giả cũng đã tạo ra một bộ dữ liệu lớn với 0.5 triệu ảnh kèm theo nhãn ở định dạng HTML cho bài toán này.
Giới thiệu
Thông tin trong bảng biểu thường được trình bày dưới nhiều hình thức khác nhau, với bố cục và chất lượng hình ảnh rất đa dạng do các yếu tố như góc chụp và chất lượng camera. Để giải quyết vấn đề này, kiến trúc đề xuất trong bài viết xây dựng một biểu đồ trong đó các đỉnh đại diện cho các từ trong tài liệu. Đặc trưng hình ảnh sẽ được trích xuất thông qua mô hình CNN trong khi vị trí từ sẽ được xác định qua một công cụ nhận diện ký tự quang học (OCR). Sau đó, các đặc trưng này sẽ được kết hợp để tạo thành đầu vào cho mạng đồ thị, nơi mà việc phân loại các ô, hàng và cột diễn ra.
Tập Dữ Liệu
Hiện tại có một số tập dữ liệu cho bài toán nhận diện bảng như UW3, UNLV và ICDAR 2013. Tuy nhiên, kích thước của các tập dữ liệu này còn hạn chế nên dễ dẫn đến hiện tượng overfitting trong quá trình đào tạo và không đủ tổng quát cho các trường hợp khác nhau. Nhóm tác giả đã cung cấp một bộ dữ liệu mới, lớn với 0.5 triệu bức ảnh, cho phép làm điểm chuẩn cho việc nghiên cứu các thuật toán mới.
Mô Hình Đồ Thị
Trong bài toán nhận diện bảng, ground truth được định nghĩa bằng ba đồ thị, trong đó mỗi từ là một đỉnh. Ba ma trận kề đại diện cho các đồ thị được gọi là chia sẻ ô, chia sẻ hàng, và chia sẻ cột. Nếu hai đỉnh (từ) thuộc cùng một hàng, chúng được coi là liền kề với nhau. Dự đoán của mô hình cũng được thực hiện dưới dạng ba ma trận kề. Sau khi nhận được ma trận kề, các ô, hàng và cột hoàn chỉnh có thể được phục hồi thông qua việc giải quyết bài toán về các cliques tối đa.
Phương Pháp
Thuật toán được mô tả dựa trên mã giả với đầu vào là một bức ảnh và một số đặc trưng định vị. Mô hình học sâu (CNN) được sử dụng để trích xuất các đặc trưng hình ảnh, sau đó thông qua một khâu gọi là interaction model, các đặc trưng này sẽ tương tác để nhận diện các mô hình trong bảng biểu. Nhóm tác giả đã thử nghiệm với nhiều loại mô hình GNN như DGCNN và GravNet. Để giải quyết bài toán phức tạp trong việc phân loại mọi cặp từ, nhóm đã áp dụng phương pháp lấy mẫu Monte Carlo.
Phân Loại
Sau khi thực hiện lấy mẫu, các đặc trưng từ mô hình tương tác sẽ được kết hợp và đưa vào một mạng nơ-ron để phân loại ô, hàng và cột, tạo ra ma trận kết quả cuối cùng.
Kết Luận
Phương pháp nghiên cứu được trình bày trong bài viết không chỉ phù hợp với nhận diện bảng biểu mà còn có khả năng áp dụng trong phân đoạn tài liệu, mở ra nhiều hướng nghiên cứu tiềm năng trong tương lai đối với lĩnh vực này.
Tài Liệu Tham Khảo
[1] Rethinking Table Recognition using Graph Neural Networks
[2] Automatic table ground truth generation and a background-analysis-based table structure extraction method.
source: viblo