0
0
Lập trình
Admin Team
Admin Teamtechmely

Hướng Dẫn Cài Đặt & Chạy Microsoft Kosmos-2.5 Tại Nhà

Đăng vào 2 ngày trước

• 4 phút đọc

Hướng Dẫn Cài Đặt & Chạy Microsoft Kosmos-2.5 Tại Nhà

Microsoft Kosmos-2.5 là một mô hình đa phương thức “literate” của Microsoft, chuyên đọc các hình ảnh chứa nhiều văn bản như hóa đơn, biên lai và tài liệu. Bài viết này sẽ hướng dẫn bạn cách cài đặt và chạy Kosmos-2.5 trên môi trường GPU, đồng thời cung cấp các mẹo và thực hành tốt nhất để tối ưu hóa quá trình này.

Mục Lục

Giới thiệu về Microsoft Kosmos-2.5

Kosmos-2.5 có khả năng thực hiện hai nhiệm vụ chính: nhận diện ký tự quang học (OCR) và chuyển đổi hình ảnh thành Markdown. Được xây dựng trên nền tảng Transformers (hỗ trợ từ phiên bản v4.56 trở lên), Kosmos-2.5 có thể dễ dàng triển khai với các đoạn mã Python sẵn có.

Cấu Hình GPU

Khi sử dụng mô hình với 1.3B tham số, bạn sẽ cần cấu hình GPU với bộ nhớ VRAM thích hợp. Đối với mô hình này, khuyến nghị sử dụng GPU có ít nhất 16GB VRAM để đảm bảo hiệu suất tối ưu.

Bước 1: Đăng Ký Tài Khoản NodeShift

Truy cập NodeShift và tạo một tài khoản. Sau khi đăng ký, bạn sẽ cần đăng nhập vào tài khoản của mình và hoàn thành quá trình thiết lập tài khoản.

Bước 2: Tạo Node GPU

Node GPU là các máy ảo GPU của NodeShift, cung cấp tài nguyên tùy chọn với nhiều loại GPU khác nhau. Bạn có thể tạo một Node GPU bằng cách chọn tùy chọn này từ menu bên trái và nhấp vào nút "Create GPU Node".

Bước 3: Chọn Mô Hình, Khu Vực và Lưu Trữ

Trong tab "GPU Nodes", chọn mô hình GPU và lưu trữ theo nhu cầu của bạn. Đối với hướng dẫn này, chúng tôi sẽ sử dụng GPU RTX A6000.

Bước 4: Chọn Phương Thức Xác Thực

Có hai phương thức xác thực: Mật khẩu và SSH Key. SSH Key là phương thức an toàn hơn, vì vậy hãy tạo SSH Key theo tài liệu chính thức của chúng tôi.

Bước 5: Chọn Hình Ảnh

Đối với Kosmos-2.5, chúng tôi cần một môi trường tùy chỉnh với khả năng phát triển CUDA đầy đủ. Chọn hình ảnh Docker phù hợp, ví dụ: nvidia/cuda:12.1.1-devel-ubuntu22.04.

Bước 6: Chế Độ Khởi Chạy

Chọn chế độ "Interactive shell server" để có quyền truy cập SSH và điều khiển tất cả các thao tác trên terminal.

Bước 7: Kết Nối đến GPU qua SSH

Sau khi Node GPU được triển khai thành công, bạn có thể kết nối đến nó bằng cách sử dụng SSH. Sử dụng lệnh nvidia-smi để kiểm tra thông tin GPU.

Bước 8: Xác Minh Phiên Bản Python & Cài Đặt pip

Kiểm tra phiên bản Python bằng lệnh python3 --version. Nếu pip chưa được cài đặt, bạn có thể cài đặt nó bằng cách sử dụng get-pip.py.

Bước 9: Tạo và Kích Hoạt Môi Trường Ảo Python 3.10

Chạy các lệnh sau để tạo và kích hoạt môi trường ảo:

Copy
apt update && apt install -y python3.10-venv git wget
python3.10 -m venv kosmos
source kosmos/bin/activate

Bước 10: Cài Đặt PyTorch

Cài đặt PyTorch bằng lệnh:

Copy
pip install --index-url https://download.pytorch.org/whl/cu121 torch torchvision torchaudio

Bước 11: Cài Đặt Các Thư Viện Mô Hình

Sử dụng lệnh sau để cài đặt các thư viện cần thiết:

Copy
pip install "transformers>=4.56" accelerate pillow requests

Bước 12: Cài Đặt Wheel & Flash Attn

Cài đặt bằng cách chạy:

Copy
pip install wheel
pip install flash-attn --no-build-isolation

Bước 13: Kết Nối đến VM GPU với Trình Soạn Thảo Mã

Kết nối VM của bạn với một trình soạn thảo mã như VS Code hoặc Cursor để dễ dàng viết và chạy mã.

Bước 14: Thử Nghiệm: Trích Xuất Markdown

Tạo tệp kosmos25_md.py với mã sau:

python Copy
import torch, requests
from PIL import Image
from transformers import AutoProcessor, Kosmos2_5ForConditionalGeneration

# Thực hiện trích xuất Markdown

Chạy thử nghiệm với lệnh python3 kosmos25_md.py.

Bước 15: OCR với Bounding Boxes

Tạo tệp kosmos25_ocr.py với mã tương tự để thực hiện OCR và lưu hình ảnh với các bounding box.

Bước 16: Cài Đặt Streamlit

Cài đặt Streamlit để tạo giao diện người dùng:

Copy
pip install streamlit

Bước 17: Tạo app.py

Tạo tệp app.py với mã giao diện người dùng.

Bước 18: Khởi Chạy Streamlit

Khởi chạy Streamlit với lệnh:

Copy
streamlit run app.py

Bước 19: Truy Cập WebUI trên Trình Duyệt

Mở trình duyệt và truy cập theo địa chỉ được cung cấp bởi Streamlit.

Bước 20: Tải Lên và Xử Lý Tài Liệu

Tải lên hình ảnh và chọn chế độ xử lý (Markdown hoặc OCR).

Bước 21: Xem Kết Quả OCR

Xem kết quả OCR với các bounding box và văn bản đã nhận diện.

Kết Luận

Thông qua hướng dẫn này, bạn đã học cách cài đặt và chạy Microsoft Kosmos-2.5 trên môi trường GPU. Hãy thử nghiệm với các hình ảnh khác nhau và khám phá khả năng của mô hình này trong việc xử lý tài liệu.

Hãy bắt đầu ngay bây giờ và khám phá sức mạnh của Kosmos-2.5!

Gợi ý câu hỏi phỏng vấn
Không có dữ liệu

Không có dữ liệu

Bài viết được đề xuất
Bài viết cùng tác giả

Bình luận

Chưa có bình luận nào

Chưa có bình luận nào