Giới thiệu dự án
Dự án này là một đánh giá quy mô lớn về các mô hình ngôn ngữ mã nguồn mở, sử dụng thư viện lm-evaluation-harness để thực hiện 19 bài kiểm tra chuẩn trên 41 mô hình LLM mã nguồn mở. Tất cả các đánh giá được thực hiện trên máy tính cá nhân, cho thấy hiệu suất của các mô hình khác nhau qua nhiều nhiệm vụ.
Khung đánh giá
Các loại bài kiểm tra
Các bài kiểm tra chuẩn được chia thành ba loại chính:
1. Lập luận & Toán học
- Nhiệm vụ: gsm8k, bbh, arc_challenge, anli_r1/r2/r3, gpqa_main_zeroshot
- Thước đo đánh giá: Trùng khớp chính xác, trùng khớp nghiêm ngặt, độ chính xác chuẩn hóa, v.v.
2. Kiến thức chung & Suy diễn ngôn ngữ tự nhiên (NLI)
- Nhiệm vụ: hellaswag, piqa, winogrande, boolq, openbookqa, sciq, qnli
- Thước đo đánh giá: Độ chính xác chuẩn hóa, độ chính xác, v.v.
3. Kiến thức & Đọc hiểu
- Nhiệm vụ: mmlu, nq_open, drop, truthfulqa_mc1/mc2, triviaqa
- Thước đo đánh giá: Độ chính xác, trùng khớp chính xác, điểm F1, v.v.
Giải thích các chỉ số chính
Quy ước đặt tên mô hình
- Định dạng: Công ty_ModelName
- Các mô hình đã được định lượng đánh dấu bằng: (8bit)
Thời gian đánh giá
- Thời gian tổng: Thời gian hệ thống để hoàn thành tất cả các bài kiểm tra chuẩn
- Thời gian sử dụng GPU: Thời gian tương đương của GPU RTX 5090 với 100% công suất sử dụng
Hệ thống điểm số
- Điểm trung bình: Trung bình số học của tất cả các nhiệm vụ chuẩn
- Phạm vi điểm: 0-1, điểm cao hơn cho thấy hiệu suất tốt hơn
- Xếp hạng: Được tính dựa trên các điểm trung bình của nhiệm vụ
Kết quả kiểm tra - Bảng xếp hạng
Xếp hạng tổng thể (Top 10)
| Xếp hạng | Tên mô hình | Thời gian tổng | Thời gian sử dụng GPU | Điểm trung bình |
|---|---|---|---|---|
| 1 | google_gemma-3-12b-it | 15h 45m | 14h 8m | 0.6038 |
| 2 | Qwen_Qwen3-14B (8bit) | 29h 45m | 17h 29m | 0.5961 |
| 3 | openchat_openchat-3.6-8b-20240522 | 7h 51m | 6h 59m | 0.5871 |
| 4 | Qwen_Qwen3-8B | 15h 31m | 13h 44m | 0.5859 |
| 5 | Qwen_Qwen2.5-7B-Instruct | 9h 36m | 8h 33m | 0.5788 |
| 6 | Qwen_Qwen2.5-14B-Instruct (8bit) | 52h 44m | 29h 32m | 0.5775 |
| 7 | 01-ai_Yi-1.5-9B | 11h 43m | 10h 26m | 0.5676 |
| 8 | Qwen_Qwen2.5-7B-Instruct-1M | 11h 17m | 10h 10m | 0.5672 |
| 9 | meta-llama_Llama-3.1-8B-Instruct | 12h 19m | 10h 52m | 0.5653 |
| 10 | 01-ai_Yi-1.5-9B-Chat | 13h 54m | 12h 15m | 0.5621 |
Điểm nổi bật về xếp hạng theo loại
Xếp hạng hiệu suất Lập luận & Toán học (Top 5)
- google_gemma-3-12b-it (0.6266)
- Qwen_Qwen3-8B (0.6214)
- Qwen_Qwen3-14B (8bit) (0.586)
- Qwen_Qwen3-4B (0.5712)
- Qwen_Qwen2.5-7B-Instruct (0.5541)
Xếp hạng Kiến thức chung & NLI (Top 5)
- Qwen_Qwen2.5-14B-Instruct (8bit) (0.7941)
- Qwen_Qwen3-14B (8bit) (0.7807)
- google_gemma-3-12b-it (0.7737)
- Qwen_Qwen2.5-7B-Instruct (0.773)
- openchat_openchat-3.6-8b-20240522 (0.7726)
Xếp hạng Kiến thức & Đọc hiểu (Top 5)
- 01-ai_Yi-1.5-9B (0.4369)
- openchat_openchat-3.6-8b-20240522 (0.4136)
- meta-llama_Llama-3.1-8B-Instruct (0.4127)
- 01-ai_Yi-1.5-6B (0.4063)
- mistralai_Mistral-7B-Instruct-v0.3 (0.4045)
Các phát hiện chính
Phân tích hiệu suất
- Google Gemma-3-12B-IT đứng đầu bảng xếp hạng tổng thể, đặc biệt xuất sắc trong các nhiệm vụ lập luận và toán học.
- Các mô hình dòng Qwen cho thấy hiệu suất mạnh mẽ trên tất cả các loại, đặc biệt trong lý luận kiến thức chung.
- Các mô hình dòng Yi xuất sắc trong các nhiệm vụ kiến thức và đọc hiểu.
- Các mô hình đã được định lượng (8bit) duy trì hiệu suất tốt trong khi giảm đáng kể yêu cầu về tài nguyên tính toán.
Phân tích hiệu quả
- Các mô hình nhỏ hơn có thể cạnh tranh với các mô hình lớn hơn trong một số nhiệm vụ cụ thể.
- Thời gian sử dụng GPU tương quan tích cực với kích thước và độ phức tạp của mô hình.
- Một số mô hình quy mô vừa thể hiện hiệu quả chi phí tốt hơn.
Tài nguyên tiêu thụ của dự án
- Thời gian chạy máy tổng thể: 18 ngày 8 giờ
- Thời gian GPU tương đương: 14 ngày 23 giờ (RTX 5090 ở 100% công suất sử dụng)
- Tác động môi trường: Được trung hòa carbon thông qua việc sử dụng phương tiện công cộng một cách tích cực 😊
Giá trị của dự án
Đánh giá toàn diện này cung cấp cho cộng đồng LLM mã nguồn mở:
- Các chuẩn so sánh hiệu suất khách quan
- Phân tích hiệu quả của các mô hình quy mô khác nhau
- Hướng dẫn chọn mô hình theo nhiệm vụ cụ thể
- Dữ liệu thực nghiệm về hiệu quả của kỹ thuật định lượng
Toàn bộ dữ liệu, script và nhật ký của dự án đã được mã nguồn mở, cung cấp tài nguyên tham khảo quý giá cho các nhà nghiên cứu và phát triển.
Thực hành tốt nhất
- Luôn kiểm tra hiệu suất của các mô hình trên các nhiệm vụ cụ thể trước khi triển khai.
- Xem xét sử dụng mô hình đã được định lượng để tiết kiệm tài nguyên.
Những cạm bẫy phổ biến
- Không nên chỉ dựa vào điểm số trung bình mà không xem xét các nhiệm vụ cụ thể.
- Cần cẩn thận với các mô hình nhỏ hơn mà có thể không đạt hiệu suất tốt trong mọi tình huống.
Mẹo hiệu suất
- Tối ưu hóa môi trường máy tính của bạn để sử dụng GPU hiệu quả nhất có thể.
- Thực hiện các bài kiểm tra hiệu suất thường xuyên để theo dõi hiệu suất của mô hình.
Khắc phục sự cố
- Nếu mô hình không hoạt động như mong đợi, hãy kiểm tra các thông số đầu vào và cấu hình mô hình.
- Đảm bảo rằng bạn đã cài đặt tất cả các thư viện và phiên bản cần thiết cho mô hình.
Nguồn dữ liệu: Bảng xếp hạng Hugging Face Spaces
Nguồn bài viết: CurateClick