Giới thiệu

Khi phát triển ứng dụng thị trường dự đoán askpaul.ai, chúng tôi cần một mô hình đáng tin cậy và hiệu suất cao để cung cấp dự đoán chính xác cho các kết quả sự kiện. Sau khi đánh giá nhiều tùy chọn, chúng tôi đã chọn mô hình MiroThinker của MiroMind vì khả năng dự đoán xuất sắc của nó. Bài viết này sẽ hướng dẫn quy trình triển khai trên hệ thống CentOS với tăng tốc GPU.

Cài đặt hạ tầng

Môi trường triển khai của chúng tôi bao gồm:

Hệ điều hành CentOS 8.3
GPU NVIDIA H20 để tính toán tăng tốc

Cài đặt các yêu cầu cần thiết

1. Cài đặt Python 3.12

Chúng tôi bắt đầu bằng cách cài đặt Python 3.12, cung cấp môi trường chạy cần thiết cho ứng dụng:

bash Copy

# Lệnh cài đặt Python 3.12 trên CentOS 8.3
sudo dnf install -y gcc openssl-devel bzip2-devel libffi-devel
wget https://www.python.org/ftp/python/3.12.0/Python-3.12.0.tgz
tar xzf Python-3.12.0.tgz
cd Python-3.12.0
./configure --enable-optimizations
make altinstall

2. Cài đặt NVCC

Để tận dụng khả năng tăng tốc GPU, chúng tôi đã cài đặt Trình biên dịch CUDA của NVIDIA (nvcc):

bash Copy

# Cài đặt bộ công cụ CUDA chứa nvcc
sudo dnf config-manager --add-repo=https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo
sudo dnf install -y cuda-toolkit

Lưu ý về quản lý gói CentOS 8.3: CentOS 8 và các phiên bản sau này sử dụng dnf làm trình quản lý gói mặc định, là phiên bản nâng cao của yum. Mặc dù các lệnh yum vẫn hoạt động như bí danh cho dnf, chúng tôi khuyên bạn nên sử dụng dnf trực tiếp để có hiệu suất và khả năng giải quyết phụ thuộc tốt hơn.

Các phụ thuộc cần thiết

Chúng tôi đã cài đặt các gói Python sau để đảm bảo chức năng đúng:

bash Copy

pip3.12 install sglang pybase64 pydantic orjson uvicorn uvloop fastapi torch psutil zmq packaging Pillow openai partial_json_parser huggingface_hub transformers sentencepiece sgl_kernel dill compressed_tensors einops msgspec python-multipart pynvml torchao xgrammar openai_harmony

Các gói này cung cấp chức năng thiết yếu bao gồm:

Khả năng phục vụ web (uvicorn, fastapi)
Các phép toán tensor tăng tốc GPU (torch, torchao)
Quản lý và suy diễn mô hình (sglang, transformers, huggingface_hub)
Xử lý và tuần tự hóa dữ liệu (orjson, msgspec, pybase64)

Triển khai MiroThinker

Với tất cả các yêu cầu cần thiết đã được hoàn tất, chúng tôi triển khai mô hình MiroThinker-32B-DPO-v0.2 bằng cách sử dụng máy chủ của sglang:

bash Copy

nohup python3.12 -m sglang.launch_server \
    --model-path miromind-ai/MiroThinker-32B-DPO-v0.2 \
    --tp 1 \
    --dp 1 \
    --host 0.0.0.0 \
    --port 6666 \
    --trust-remote-code \
    --chat-template qwen3_nonthinking.jinja > miromind.log &

Lệnh này khởi động máy chủ ở chế độ nền với nohup, đảm bảo nó tiếp tục chạy ngay cả khi người dùng đăng xuất. Mô hình được triển khai với:

Đối xứng tensor (tp) được đặt là 1
Đối xứng dữ liệu (dp) được đặt là 1

Các thiết lập này là phù hợp cho cấu hình GPU đơn của chúng tôi.

Đối với chế độ không suy nghĩ cần thiết cho trường hợp sử dụng dự đoán của chúng tôi, chúng tôi đã sử dụng mẫu chuyên dụng có sẵn tại:
https://github.com/MiroMindAI/MiroThinker/blob/main/assets/qwen3_nonthinking.jinja

Thực tiễn tốt nhất

Kiểm tra mô hình: Trước khi triển khai mô hình vào sản xuất, hãy thực hiện kiểm tra toàn diện để đảm bảo rằng nó hoạt động chính xác trong các tình huống khác nhau.
Giám sát hiệu suất: Sử dụng công cụ giám sát để theo dõi hiệu suất mô hình và phát hiện sớm bất kỳ vấn đề nào.

Những cạm bẫy phổ biến

Thiếu tài nguyên GPU: Đảm bảo rằng bạn có đủ tài nguyên GPU để chạy mô hình, nếu không, nó có thể dẫn đến hiệu suất kém hoặc lỗi.
Cấu hình sai lầm: Kiểm tra cẩn thận các tham số cấu hình trước khi triển khai để tránh các lỗi không đáng có.

Mẹo hiệu suất

Tối ưu hóa mã: Tối ưu hóa mã Python và sử dụng các thư viện hỗ trợ GPU để nâng cao tốc độ xử lý.
Cập nhật định kỳ: Đảm bảo rằng bạn thường xuyên cập nhật các gói và mô hình để tận dụng các cải tiến mới nhất.

Khắc phục sự cố

Nếu bạn gặp sự cố trong quá trình triển khai, hãy kiểm tra các bước sau:

Xem log: Kiểm tra file log (miromind.log) để tìm hiểu nguyên nhân gây ra lỗi.
Kiểm tra phụ thuộc: Đảm bảo rằng tất cả các gói phụ thuộc đã được cài đặt và được cập nhật.

Kết luận

Triển khai MiroThinker trên hệ thống CentOS 8.3 với GPU H20 đã nâng cao đáng kể khả năng dự đoán của askpaul.ai. Hiệu suất của mô hình đáp ứng được mong đợi của chúng tôi về độ chính xác và thời gian phản hồi, làm cho nó trở thành sự lựa chọn tuyệt vời cho ứng dụng thị trường dự đoán của chúng tôi.

Khung sglang cung cấp một con đường triển khai đơn giản, và mô hình MiroThinker đã chứng minh là đáng tin cậy và hiệu quả trong môi trường sản xuất của chúng tôi. Chúng tôi rất háo hức tiếp tục khai thác sự kết hợp mạnh mẽ này khi mở rộng khả năng của askpaul.ai.

Triển khai MiroThinker cho dự đoán AI trong askpaul.ai

Giới thiệu

Cài đặt hạ tầng

Cài đặt các yêu cầu cần thiết

1. Cài đặt Python 3.12

2. Cài đặt NVCC

Các phụ thuộc cần thiết

Triển khai MiroThinker

Thực tiễn tốt nhất

Những cạm bẫy phổ biến

Mẹo hiệu suất

Khắc phục sự cố

Kết luận

Bình luận