Giới thiệu

Ngày 5 tháng 8, tổ chức MLCommons đã công bố kết quả benchmark MLPerf® Storage v2.0, thu hút sự tham gia của nhiều nhà cung cấp từ các lĩnh vực như lưu trữ đám mây, tệp chia sẻ, lưu trữ khối gắn liền và lưu trữ khối được gắn trực tiếp. Bài viết này sẽ tập trung vào danh mục hệ thống tệp chia sẻ, phân tích hiệu suất của chúng dưới các tiêu chuẩn thử nghiệm giống nhau.

MLPerf Storage v2.0 và các khối lượng công việc

MLPerf là bộ chuẩn AI toàn cầu do MLCommons phát triển. MLPerf Storage mô phỏng việc truy cập khối lượng công việc AI thực tế vào các hệ thống lưu trữ thông qua nhiều khách hàng. Nó tái tạo tải lưu trữ trong các cụm huấn luyện phân tán quy mô lớn để đánh giá toàn diện hiệu suất thực tế của các hệ thống lưu trữ trong các nhiệm vụ huấn luyện AI.

Các khối lượng công việc trong MLPerf Storage

Phiên bản 2.0 gồm ba loại khối lượng công việc huấn luyện, bao gồm các mẫu I/O đại diện nhất trong huấn luyện học sâu:

3D U-Net (phân đoạn hình ảnh y tế): Kiểm tra thông lượng của hệ thống lưu trữ trong các tình huống đọc tuần tự tệp lớn.
ResNet-50 (phân loại hình ảnh): Đòi hỏi IOPS cao và truy cập ngẫu nhiên, với tải trọng là các mẫu nhỏ.
CosmoFlow (dự đoán vũ trụ học): Tập trung vào truy cập tệp nhỏ đồng thời và khả năng mở rộng băng thông.

Hiệu suất so sánh: danh mục sản phẩm, khả năng mở rộng linh hoạt và sử dụng tài nguyên

Nhiều nhà cung cấp đã tham gia thử nghiệm MLPerf Storage v2.0, nhưng do sự khác biệt về kiến trúc và tình huống ứng dụng, sự so sánh trực tiếp giữa các nhà cung cấp sẽ có giá trị hạn chế. Chúng ta sẽ tập trung vào kết quả trong danh mục hệ thống tệp chia sẻ.

Kết quả thử nghiệm JuiceFS

Khối lượng công việc 3D U-Net: Đạt băng thông đọc dữ liệu lên tới 108 GiB/s với 40 GPU H100 trên 10 nút.
Khối lượng công việc CosmoFlow: Hỗ trợ quy mô 100 GPU H100 với độ ổn định cao trong truy cập tệp nhỏ.
Khối lượng công việc ResNet-50: Đạt băng thông đọc 90 GiB/s với 95% sử dụng GPU.

Cấu hình hệ thống JuiceFS trong thử nghiệm MLPerf

Hệ thống JuiceFS bao gồm ba lớp chính: lớp khách hàng, lớp cụm bộ nhớ đệm và lớp lưu trữ dữ liệu lạnh. Mô hình này cho phép mở rộng linh hoạt và đáp ứng nhu cầu băng thông cao trong các tác vụ huấn luyện lớn.

Tổng kết

JuiceFS đã chứng minh hiệu suất ổn định và sử dụng tài nguyên cao trong các khối lượng công việc AI khác nhau. Đây là một lựa chọn khả thi cho huấn luyện AI quy mô lớn với chi phí hợp lý.

Thực tiễn tốt nhất

Tối ưu hóa băng thông: Sử dụng bộ nhớ đệm hiệu quả để giảm độ trễ.
Giám sát hiệu suất: Theo dõi sử dụng GPU và băng thông để điều chỉnh kịp thời.

Cạm bẫy thường gặp

Quá tải nút: Tránh sử dụng quá nhiều GPU trên một nút duy nhất.
Thiếu hụt tài nguyên: Đảm bảo rằng băng thông mạng không trở thành điểm nghẽn.

Mẹo hiệu suất

Sử dụng công nghệ mới: Khám phá các cải tiến trong phần cứng và phần mềm để tối ưu hóa hiệu suất.
Thí nghiệm với cấu hình khác nhau: Thay đổi cấu hình để tìm ra thiết lập tối ưu cho từng khối lượng công việc.

Câu hỏi thường gặp

JuiceFS có thể mở rộng như thế nào?
- JuiceFS có khả năng mở rộng linh hoạt tùy thuộc vào nhu cầu của khối lượng công việc.
Tại sao băng thông quan trọng trong huấn luyện AI?
- Băng thông cao giúp xử lý nhiều dữ liệu đồng thời, tăng tốc quá trình huấn luyện.

JuiceFS đã cho thấy rằng với băng thông cao và khả năng mở rộng tốt, nó có thể hỗ trợ các khối lượng công việc AI phức tạp và đòi hỏi khắt khe nhất.

JuiceFS dẫn đầu về băng thông và khả năng mở rộng trong MLPerf Storage v2.0