Giới thiệu dự án

Dự án này là một đánh giá quy mô lớn về các mô hình ngôn ngữ mã nguồn mở, sử dụng thư viện lm-evaluation-harness để thực hiện 19 bài kiểm tra chuẩn trên 41 mô hình LLM mã nguồn mở. Tất cả các đánh giá được thực hiện trên máy tính cá nhân, cho thấy hiệu suất của các mô hình khác nhau qua nhiều nhiệm vụ.

Khung đánh giá

Các loại bài kiểm tra

Các bài kiểm tra chuẩn được chia thành ba loại chính:

1. Lập luận & Toán học

Nhiệm vụ: gsm8k, bbh, arc_challenge, anli_r1/r2/r3, gpqa_main_zeroshot
Thước đo đánh giá: Trùng khớp chính xác, trùng khớp nghiêm ngặt, độ chính xác chuẩn hóa, v.v.

2. Kiến thức chung & Suy diễn ngôn ngữ tự nhiên (NLI)

Nhiệm vụ: hellaswag, piqa, winogrande, boolq, openbookqa, sciq, qnli
Thước đo đánh giá: Độ chính xác chuẩn hóa, độ chính xác, v.v.

3. Kiến thức & Đọc hiểu

Nhiệm vụ: mmlu, nq_open, drop, truthfulqa_mc1/mc2, triviaqa
Thước đo đánh giá: Độ chính xác, trùng khớp chính xác, điểm F1, v.v.

Giải thích các chỉ số chính

Quy ước đặt tên mô hình

Định dạng: Công ty_ModelName
Các mô hình đã được định lượng đánh dấu bằng: (8bit)

Thời gian đánh giá

Thời gian tổng: Thời gian hệ thống để hoàn thành tất cả các bài kiểm tra chuẩn
Thời gian sử dụng GPU: Thời gian tương đương của GPU RTX 5090 với 100% công suất sử dụng

Hệ thống điểm số

Điểm trung bình: Trung bình số học của tất cả các nhiệm vụ chuẩn
Phạm vi điểm: 0-1, điểm cao hơn cho thấy hiệu suất tốt hơn
Xếp hạng: Được tính dựa trên các điểm trung bình của nhiệm vụ

Kết quả kiểm tra - Bảng xếp hạng

Xếp hạng tổng thể (Top 10)

Xếp hạng	Tên mô hình	Thời gian tổng	Thời gian sử dụng GPU	Điểm trung bình
1	google_gemma-3-12b-it	15h 45m	14h 8m	0.6038
2	Qwen_Qwen3-14B (8bit)	29h 45m	17h 29m	0.5961
3	openchat_openchat-3.6-8b-20240522	7h 51m	6h 59m	0.5871
4	Qwen_Qwen3-8B	15h 31m	13h 44m	0.5859
5	Qwen_Qwen2.5-7B-Instruct	9h 36m	8h 33m	0.5788
6	Qwen_Qwen2.5-14B-Instruct (8bit)	52h 44m	29h 32m	0.5775
7	01-ai_Yi-1.5-9B	11h 43m	10h 26m	0.5676
8	Qwen_Qwen2.5-7B-Instruct-1M	11h 17m	10h 10m	0.5672
9	meta-llama_Llama-3.1-8B-Instruct	12h 19m	10h 52m	0.5653
10	01-ai_Yi-1.5-9B-Chat	13h 54m	12h 15m	0.5621

Điểm nổi bật về xếp hạng theo loại

Xếp hạng hiệu suất Lập luận & Toán học (Top 5)

google_gemma-3-12b-it (0.6266)
Qwen_Qwen3-8B (0.6214)
Qwen_Qwen3-14B (8bit) (0.586)
Qwen_Qwen3-4B (0.5712)
Qwen_Qwen2.5-7B-Instruct (0.5541)

Xếp hạng Kiến thức chung & NLI (Top 5)

Qwen_Qwen2.5-14B-Instruct (8bit) (0.7941)
Qwen_Qwen3-14B (8bit) (0.7807)
google_gemma-3-12b-it (0.7737)
Qwen_Qwen2.5-7B-Instruct (0.773)
openchat_openchat-3.6-8b-20240522 (0.7726)

Xếp hạng Kiến thức & Đọc hiểu (Top 5)

01-ai_Yi-1.5-9B (0.4369)
openchat_openchat-3.6-8b-20240522 (0.4136)
meta-llama_Llama-3.1-8B-Instruct (0.4127)
01-ai_Yi-1.5-6B (0.4063)
mistralai_Mistral-7B-Instruct-v0.3 (0.4045)

Các phát hiện chính

Phân tích hiệu suất

Google Gemma-3-12B-IT đứng đầu bảng xếp hạng tổng thể, đặc biệt xuất sắc trong các nhiệm vụ lập luận và toán học.
Các mô hình dòng Qwen cho thấy hiệu suất mạnh mẽ trên tất cả các loại, đặc biệt trong lý luận kiến thức chung.
Các mô hình dòng Yi xuất sắc trong các nhiệm vụ kiến thức và đọc hiểu.
Các mô hình đã được định lượng (8bit) duy trì hiệu suất tốt trong khi giảm đáng kể yêu cầu về tài nguyên tính toán.

Phân tích hiệu quả

Các mô hình nhỏ hơn có thể cạnh tranh với các mô hình lớn hơn trong một số nhiệm vụ cụ thể.
Thời gian sử dụng GPU tương quan tích cực với kích thước và độ phức tạp của mô hình.
Một số mô hình quy mô vừa thể hiện hiệu quả chi phí tốt hơn.

Tài nguyên tiêu thụ của dự án

Thời gian chạy máy tổng thể: 18 ngày 8 giờ
Thời gian GPU tương đương: 14 ngày 23 giờ (RTX 5090 ở 100% công suất sử dụng)
Tác động môi trường: Được trung hòa carbon thông qua việc sử dụng phương tiện công cộng một cách tích cực 😊

Giá trị của dự án

Đánh giá toàn diện này cung cấp cho cộng đồng LLM mã nguồn mở:

Các chuẩn so sánh hiệu suất khách quan
Phân tích hiệu quả của các mô hình quy mô khác nhau
Hướng dẫn chọn mô hình theo nhiệm vụ cụ thể
Dữ liệu thực nghiệm về hiệu quả của kỹ thuật định lượng

Toàn bộ dữ liệu, script và nhật ký của dự án đã được mã nguồn mở, cung cấp tài nguyên tham khảo quý giá cho các nhà nghiên cứu và phát triển.

Thực hành tốt nhất

Luôn kiểm tra hiệu suất của các mô hình trên các nhiệm vụ cụ thể trước khi triển khai.
Xem xét sử dụng mô hình đã được định lượng để tiết kiệm tài nguyên.

Những cạm bẫy phổ biến

Không nên chỉ dựa vào điểm số trung bình mà không xem xét các nhiệm vụ cụ thể.
Cần cẩn thận với các mô hình nhỏ hơn mà có thể không đạt hiệu suất tốt trong mọi tình huống.

Mẹo hiệu suất

Tối ưu hóa môi trường máy tính của bạn để sử dụng GPU hiệu quả nhất có thể.
Thực hiện các bài kiểm tra hiệu suất thường xuyên để theo dõi hiệu suất của mô hình.

Khắc phục sự cố

Nếu mô hình không hoạt động như mong đợi, hãy kiểm tra các thông số đầu vào và cấu hình mô hình.
Đảm bảo rằng bạn đã cài đặt tất cả các thư viện và phiên bản cần thiết cho mô hình.

Nguồn dữ liệu: Bảng xếp hạng Hugging Face Spaces
Nguồn bài viết: CurateClick

Báo cáo kiểm tra hiệu suất mô hình ngôn ngữ mã nguồn mở