0
0
Lập trình
Admin Team
Admin Teamtechmely

Tăng tốc workloads AI với VMs và GPUs trên Magalu Cloud

Đăng vào 5 tháng trước

• 7 phút đọc

Chủ đề:

KungFuTech

Tăng tốc workloads AI với VMs và GPUs trên Magalu Cloud

Tác giả: Cleverson Gallego - Quản lý sản phẩm kỹ thuật cấp cao

Chào mừng các bạn đến với thế giới của trí tuệ nhân tạo (AI)! Chúng ta đều biết rằng cơ sở hạ tầng là yếu tố quan trọng trong bất kỳ doanh nghiệp nào dựa vào AI, bất kể trực tiếp hay gián tiếp. Tại Magalu Cloud, chúng tôi cam kết cung cấp một hạ tầng mạnh mẽ và dễ tiếp cận, được thiết kế để thúc đẩy ý tưởng và doanh nghiệp của bạn từ khâu khởi đầu đến giai đoạn sản xuất quy mô lớn.

Hôm nay, chúng tôi sẽ chỉ cho bạn cách mà máy ảo (VMs)Đơn vị xử lý đồ họa (GPUs) của chúng tôi có thể tăng tốc độ xử lý workloads của bạn, mang lại kết quả nhanh chóng hơn.

Hiệu suất và linh hoạt: Các loại máy ảo cho AI

Chúng tôi cung cấp nhiều loại máy ảo khác nhau để đáp ứng các nhu cầu khác nhau, cho phép bạn lựa chọn sự kết hợp hoàn hảo cho workloads của mình. Các máy ảo của chúng tôi đáng tin cậy, linh hoạt và bạn chỉ phải trả tiền cho thời gian hoạt động, nghĩa là nếu máy ảo không hoạt động, bạn sẽ không phải trả phí gì cả. Dưới đây là bảng mô tả các loại máy ảo và ứng dụng của chúng trong xử lý hậu kỳ cho workloads AI:

Loại máy ảo vCPU RAM Trường hợp sử dụng hậu kỳ AI Ví dụ tác vụ
Nhỏ 4 16 GB Xử lý hậu kỳ nhẹ / batch nhỏ Tập hợp kết quả suy diễn từ hình ảnh, phân tích đơn giản các log NLP, pipeline nhỏ cho các chỉ số âm thanh
Vừa 16 64 GB Xử lý vừa phải / pipeline song song Xử lý hậu kỳ cho thị giác máy tính (phân đoạn + trích xuất đặc trưng), phân tích embedding NLP trong batch lớn hơn, TTS batch trung bình với xử lý trước và sau
Lớn 32–64 256–512 GB Xử lý nặng / pipeline phức tạp Xử lý video độ phân giải cao hậu suy diễn, xử lý các tập dữ liệu đa phương tiện lớn, tập hợp đầu ra từ nhiều mô hình, phân tích thống kê phức tạp hậu AI

Chúng tôi cung cấp quyền truy cập vào các GPU NVIDIA L40, cho phép bạn tăng tốc độ mô hình machine learning, deep learning và các workloads tính toán yêu cầu cao khác, với hiệu suất và hiệu quả tốt nhất.

Với các GPU của chúng tôi, bạn có thể:

Số lượng GPU Trường hợp sử dụng Loại mô hình Ghi chú
1 GPU Suy diễn LLM lớn đã được lượng tử hóa Đến 30B+ tham số (ví dụ: Gemma 3 27B Q4KM) Lượng tử hóa cho phép chạy các mô hình lớn hơn trên 1 GPU;
1 GPU Suy diễn đa phương thức, hình ảnh, âm thanh CLIP, BLIP, Stable Diffusion XL, Whisper large 1 GPU xử lý sản xuất liên tục;
1 GPU Fine-tuning / đào tạo nhẹ Mô hình đến ~1B tham số Phù hợp cho các thử nghiệm hoặc nguyên mẫu LLM hoặc CV
2 GPUs Đào tạo / fine-tuning nặng Mô hình 1B–30B+ Đào tạo phân tán, batch lớn hoặc LLM không được lượng tử hóa
2 GPUs Suy diễn hàng loạt / pipeline song song LLMs 30B+, diffusion hoặc batch đa phương thức lớn Multi-GPU giảm độ trễ hoặc tăng thông lượng cho sản xuất

Ngoài hiệu suất từ các GPU của chúng tôi, các máy ảo cũng mang lại tính linh hoạt để bạn có thể xây dựng phòng thí nghiệm AI theo yêu cầu mà không phụ thuộc vào các nền tảng quản lý. Bạn có thể cấu hình môi trường bằng cách tận dụng các công cụ đã được công nhận trong hệ sinh thái cộng đồng AI.

Các trường hợp sử dụng thực tế

Trong thực tế, chỉ trong vài phút, bạn có thể có một máy ảo sẵn sàng cho phát triển, đào tạo, thực hiện suy diễn hoặc nguyên mẫu dịch vụ AI. Dưới đây là một số ví dụ về cách mà khách hàng và nhà phát triển của chúng tôi đã sử dụng các máy ảo với GPU:

Trường hợp sử dụng Công cụ / Stack Mô tả / Lợi ích
Môi trường phát triển tương tác Jupyter Notebook, VS Code Server Cho phép viết và thử nghiệm mã AI trực tiếp trên máy ảo, truy cập datasets, đào tạo mô hình nhỏ, hiển thị kết quả theo thời gian thực
Suy diễn cục bộ cho LLMs Công cụ no-code/low-code Ollama, vLLM Chạy các mô hình lớn hoặc đã được lượng tử hóa trực tiếp trên máy ảo, không phụ thuộc vào dịch vụ bên ngoài, kiểm soát hoàn toàn môi trường và tài nguyên
Thử nghiệm và thực nghiệm với các mô hình đa phương thức backends (văn bản, hình ảnh, âm thanh), Stable Diffusion, Whisper Tạo các pipeline thử nghiệm cho các mô hình đa phương thức (văn bản → hình ảnh, văn bản → âm thanh, đa phương thức) cho các nguyên mẫu nhanh chóng
Đào tạo hoặc fine-tuning nhẹ PyTorch, TensorFlow, vLLM Đào tạo hoặc điều chỉnh các mô hình nhỏ hơn, fine-tuning cho LLMs hoặc CV, sử dụng GPU của máy ảo mà không cần cụm
Thực hiện các pipeline AI tùy chỉnh Python scripts, Dask, Prefect Xử lý dữ liệu hậu suy diễn, tập hợp kết quả, xử lý trước hình ảnh/video, thực hiện batch song song
Tích hợp và nguyên mẫu dịch vụ AI FastAPI, Flask, Gradio Tạo API hoặc giao diện để thử nghiệm các mô hình trong sản xuất hoặc trình bày kết quả cho các bên liên quan
Thực nghiệm với lượng tử hóa và hiệu suất BitsAndBytes, QLoRA Thử nghiệm các kỹ thuật lượng tử hóa khác nhau, đo thông lượng và độ trễ, tối ưu hóa các mô hình lớn cho suy diễn trên 1 GPU
Lưu trữ và xử lý datasets Object Storage, MYSQL, SQL Server, pandas, NumPy Quản lý dữ liệu cục bộ hoặc bên ngoài cho đào tạo và suy diễn, thực hiện phân tích, chuẩn bị datasets cho các pipeline

Đây chỉ là một số ví dụ về các môi trường mà chúng tôi có thể tạo ra với cơ sở hạ tầng AI của mình. Hãy nhớ rằng dữ liệu của bạn sẽ được lưu trữ tại Brazil trên cơ sở hạ tầng quốc gia, ngoài tầm kiểm soát của các công ty công nghệ lớn quốc tế (cloud act) và với tính phí bằng đồng reais, không bị ảnh hưởng bởi biến động tỷ giá.

Thực hành tốt nhất

  • Theo dõi hiệu suất: Sử dụng các công cụ giám sát để theo dõi hiệu suất của máy ảo và GPU, đảm bảo rằng bạn đạt được hiệu suất tối ưu cho workloads của mình.
  • Tối ưu hóa mô hình: Thực hiện các bước tối ưu hóa mô hình như lượng tử hóa để giảm kích thước và tăng tốc độ suy diễn mà không làm giảm chất lượng.

Các cạm bẫy thường gặp

  • Bỏ qua bảo mật: Đảm bảo bạn bảo vệ dữ liệu và môi trường của mình, đặc biệt khi xử lý thông tin nhạy cảm.
  • Không sử dụng tài nguyên hiệu quả: Theo dõi việc sử dụng tài nguyên để tránh lãng phí chi phí vận hành.

Mẹo về hiệu suất

  • Sử dụng batch lớn: Khi có thể, hãy xử lý dữ liệu trong các batch lớn để tối ưu hóa hiệu suất GPU.
  • Tận dụng caching: Sử dụng các kỹ thuật caching để giảm thiểu thời gian truy xuất dữ liệu và tăng tốc độ xử lý.

Khắc phục sự cố

  • Vấn đề hiệu suất: Nếu bạn gặp vấn đề về hiệu suất, hãy kiểm tra cấu hình của máy ảo và GPU, cũng như các bottleneck trong mã của bạn.
  • Lỗi mô hình: Nếu mô hình không hoạt động như mong đợi, hãy kiểm tra dữ liệu đầu vào và các tham số của mô hình để đảm bảo tính chính xác.

Kết luận

Sử dụng máy ảo và GPU trên Magalu Cloud không chỉ giúp bạn tăng tốc độ xử lý workloads AI mà còn mang lại tính linh hoạt và khả năng tùy chỉnh mà bạn cần để phát triển các giải pháp AI hiệu quả. Hãy bắt đầu khám phá sức mạnh của AI với cơ sở hạ tầng của chúng tôi ngay hôm nay! Đừng ngần ngại liên hệ với chúng tôi để biết thêm thông tin và bắt đầu hành trình AI của bạn ngay bây giờ.

Gợi ý câu hỏi phỏng vấn
Không có dữ liệu

Không có dữ liệu

Bài viết được đề xuất
Bài viết cùng tác giả

Bình luận

Chưa có bình luận nào

Chưa có bình luận nào