0
0
Lập trình
Sơn Tùng Lê
Sơn Tùng Lê103931498422911686980

Báo cáo kiểm tra hiệu suất mô hình ngôn ngữ mã nguồn mở

Đăng vào 8 tháng trước

• 4 phút đọc

Chủ đề:

KungFuTech

Giới thiệu dự án

Dự án này là một đánh giá quy mô lớn về các mô hình ngôn ngữ mã nguồn mở, sử dụng thư viện lm-evaluation-harness để thực hiện 19 bài kiểm tra chuẩn trên 41 mô hình LLM mã nguồn mở. Tất cả các đánh giá được thực hiện trên máy tính cá nhân, cho thấy hiệu suất của các mô hình khác nhau qua nhiều nhiệm vụ.

Khung đánh giá

Các loại bài kiểm tra

Các bài kiểm tra chuẩn được chia thành ba loại chính:

1. Lập luận & Toán học

  • Nhiệm vụ: gsm8k, bbh, arc_challenge, anli_r1/r2/r3, gpqa_main_zeroshot
  • Thước đo đánh giá: Trùng khớp chính xác, trùng khớp nghiêm ngặt, độ chính xác chuẩn hóa, v.v.

2. Kiến thức chung & Suy diễn ngôn ngữ tự nhiên (NLI)

  • Nhiệm vụ: hellaswag, piqa, winogrande, boolq, openbookqa, sciq, qnli
  • Thước đo đánh giá: Độ chính xác chuẩn hóa, độ chính xác, v.v.

3. Kiến thức & Đọc hiểu

  • Nhiệm vụ: mmlu, nq_open, drop, truthfulqa_mc1/mc2, triviaqa
  • Thước đo đánh giá: Độ chính xác, trùng khớp chính xác, điểm F1, v.v.

Giải thích các chỉ số chính

Quy ước đặt tên mô hình

  • Định dạng: Công ty_ModelName
  • Các mô hình đã được định lượng đánh dấu bằng: (8bit)

Thời gian đánh giá

  • Thời gian tổng: Thời gian hệ thống để hoàn thành tất cả các bài kiểm tra chuẩn
  • Thời gian sử dụng GPU: Thời gian tương đương của GPU RTX 5090 với 100% công suất sử dụng

Hệ thống điểm số

  • Điểm trung bình: Trung bình số học của tất cả các nhiệm vụ chuẩn
  • Phạm vi điểm: 0-1, điểm cao hơn cho thấy hiệu suất tốt hơn
  • Xếp hạng: Được tính dựa trên các điểm trung bình của nhiệm vụ

Kết quả kiểm tra - Bảng xếp hạng

Xếp hạng tổng thể (Top 10)

Xếp hạng Tên mô hình Thời gian tổng Thời gian sử dụng GPU Điểm trung bình
1 google_gemma-3-12b-it 15h 45m 14h 8m 0.6038
2 Qwen_Qwen3-14B (8bit) 29h 45m 17h 29m 0.5961
3 openchat_openchat-3.6-8b-20240522 7h 51m 6h 59m 0.5871
4 Qwen_Qwen3-8B 15h 31m 13h 44m 0.5859
5 Qwen_Qwen2.5-7B-Instruct 9h 36m 8h 33m 0.5788
6 Qwen_Qwen2.5-14B-Instruct (8bit) 52h 44m 29h 32m 0.5775
7 01-ai_Yi-1.5-9B 11h 43m 10h 26m 0.5676
8 Qwen_Qwen2.5-7B-Instruct-1M 11h 17m 10h 10m 0.5672
9 meta-llama_Llama-3.1-8B-Instruct 12h 19m 10h 52m 0.5653
10 01-ai_Yi-1.5-9B-Chat 13h 54m 12h 15m 0.5621

Điểm nổi bật về xếp hạng theo loại

Xếp hạng hiệu suất Lập luận & Toán học (Top 5)

  1. google_gemma-3-12b-it (0.6266)
  2. Qwen_Qwen3-8B (0.6214)
  3. Qwen_Qwen3-14B (8bit) (0.586)
  4. Qwen_Qwen3-4B (0.5712)
  5. Qwen_Qwen2.5-7B-Instruct (0.5541)

Xếp hạng Kiến thức chung & NLI (Top 5)

  1. Qwen_Qwen2.5-14B-Instruct (8bit) (0.7941)
  2. Qwen_Qwen3-14B (8bit) (0.7807)
  3. google_gemma-3-12b-it (0.7737)
  4. Qwen_Qwen2.5-7B-Instruct (0.773)
  5. openchat_openchat-3.6-8b-20240522 (0.7726)

Xếp hạng Kiến thức & Đọc hiểu (Top 5)

  1. 01-ai_Yi-1.5-9B (0.4369)
  2. openchat_openchat-3.6-8b-20240522 (0.4136)
  3. meta-llama_Llama-3.1-8B-Instruct (0.4127)
  4. 01-ai_Yi-1.5-6B (0.4063)
  5. mistralai_Mistral-7B-Instruct-v0.3 (0.4045)

Các phát hiện chính

Phân tích hiệu suất

  • Google Gemma-3-12B-IT đứng đầu bảng xếp hạng tổng thể, đặc biệt xuất sắc trong các nhiệm vụ lập luận và toán học.
  • Các mô hình dòng Qwen cho thấy hiệu suất mạnh mẽ trên tất cả các loại, đặc biệt trong lý luận kiến thức chung.
  • Các mô hình dòng Yi xuất sắc trong các nhiệm vụ kiến thức và đọc hiểu.
  • Các mô hình đã được định lượng (8bit) duy trì hiệu suất tốt trong khi giảm đáng kể yêu cầu về tài nguyên tính toán.

Phân tích hiệu quả

  • Các mô hình nhỏ hơn có thể cạnh tranh với các mô hình lớn hơn trong một số nhiệm vụ cụ thể.
  • Thời gian sử dụng GPU tương quan tích cực với kích thước và độ phức tạp của mô hình.
  • Một số mô hình quy mô vừa thể hiện hiệu quả chi phí tốt hơn.

Tài nguyên tiêu thụ của dự án

  • Thời gian chạy máy tổng thể: 18 ngày 8 giờ
  • Thời gian GPU tương đương: 14 ngày 23 giờ (RTX 5090 ở 100% công suất sử dụng)
  • Tác động môi trường: Được trung hòa carbon thông qua việc sử dụng phương tiện công cộng một cách tích cực 😊

Giá trị của dự án

Đánh giá toàn diện này cung cấp cho cộng đồng LLM mã nguồn mở:

  1. Các chuẩn so sánh hiệu suất khách quan
  2. Phân tích hiệu quả của các mô hình quy mô khác nhau
  3. Hướng dẫn chọn mô hình theo nhiệm vụ cụ thể
  4. Dữ liệu thực nghiệm về hiệu quả của kỹ thuật định lượng

Toàn bộ dữ liệu, script và nhật ký của dự án đã được mã nguồn mở, cung cấp tài nguyên tham khảo quý giá cho các nhà nghiên cứu và phát triển.

Thực hành tốt nhất

  • Luôn kiểm tra hiệu suất của các mô hình trên các nhiệm vụ cụ thể trước khi triển khai.
  • Xem xét sử dụng mô hình đã được định lượng để tiết kiệm tài nguyên.

Những cạm bẫy phổ biến

  • Không nên chỉ dựa vào điểm số trung bình mà không xem xét các nhiệm vụ cụ thể.
  • Cần cẩn thận với các mô hình nhỏ hơn mà có thể không đạt hiệu suất tốt trong mọi tình huống.

Mẹo hiệu suất

  • Tối ưu hóa môi trường máy tính của bạn để sử dụng GPU hiệu quả nhất có thể.
  • Thực hiện các bài kiểm tra hiệu suất thường xuyên để theo dõi hiệu suất của mô hình.

Khắc phục sự cố

  • Nếu mô hình không hoạt động như mong đợi, hãy kiểm tra các thông số đầu vào và cấu hình mô hình.
  • Đảm bảo rằng bạn đã cài đặt tất cả các thư viện và phiên bản cần thiết cho mô hình.

Nguồn dữ liệu: Bảng xếp hạng Hugging Face Spaces
Nguồn bài viết: CurateClick

Gợi ý câu hỏi phỏng vấn
Không có dữ liệu

Không có dữ liệu

Bài viết được đề xuất
Bài viết cùng tác giả

Bình luận

Chưa có bình luận nào

Chưa có bình luận nào