Tóm tắt các điểm chính
- Humanity's Last Exam (HLE) là benchmark AI được thiết kế để đo lường năng lực suy luận thực sự của LLM, không chỉ khả năng pattern matching hay ghi nhớ.
- HLE ra đời vì các benchmark cũ như MMLU đã bão hòa — model đạt trên 90%, khiến việc đo lường sự khác biệt có ý nghĩa trở nên bất khả.
- Benchmark bao gồm 2.500 câu hỏi công khai và khoảng 500 câu hỏi holdout, được crowdsource từ chuyên gia nhiều lĩnh vực học thuật với quy trình kiểm duyệt nghiêm ngặt.
- Các model frontier hiện tại vẫn đạt điểm thấp trên HLE nhưng lại thể hiện độ tự tin cao — một dấu hiệu rõ ràng của hiện tượng hallucination.
Humanity's Last Exam là gì?
Humanity's Last Exam (HLE) là benchmark được thiết kế để đo lường năng lực suy luận của LLM, chứ không chỉ khả năng pattern matching. Mục tiêu của HLE là đánh giá mức độ model xử lý các bài toán cấp chuyên gia trên nhiều lĩnh vực học thuật khác nhau.Khi các LLM ngày càng tiến bộ, các nhà nghiên cứu dựa vào tập hợp câu hỏi đánh giá — gọi là benchmark — để so sánh hiệu suất và theo dõi tiến độ phát triển. HLE được mô tả trong paper nghiên cứu như "benchmark closed-ended cuối cùng cho các kỹ năng học thuật rộng."
Tại sao cần một "Kỳ thi cuối cùng"?
Với hàng loạt benchmark đã tồn tại, tại sao lại cần thêm một cái nữa? Câu trả lời nằm ở hiện tượng bão hòa benchmark.Các benchmark từng thách thức LLM như MMLU giờ đã bão hòa, với model thường đạt trên 90%. Đến điểm này, những benchmark cũ không còn đo lường được sự khác biệt có ý nghĩa giữa các model.
HLE là benchmark thế hệ mới, nâng mức độ khó bằng cách tập hợp các câu hỏi do chuyên gia tạo ra, đòi hỏi suy luận nhiều bước (multi-step reasoning), không chỉ đơn thuần recall hay pattern-matching bề mặt.
Hãy nghĩ thế này: nếu một kỳ thi mà ai cũng đạt điểm gần tuyệt đối, thì kỳ thi đó không còn phân biệt được ai giỏi hơn ai. HLE được tạo ra để giải quyết đúng vấn đề này.
HLE được phát triển như thế nào?
Đội ngũ và đối tác
Cuối năm 2024, Centre for AI Safety (tổ chức phi lợi nhuận về AI safety) hợp tác với Scale AI (công ty dữ liệu) để phát triển benchmark AI khó hơn. Dan Hendrycks dẫn dắt dự án.Phương pháp crowdsource
Đội ngũ crowdsource các câu hỏi cấp graduate từ nhiều ngành học thuật, với phần thưởng đáng kể:- Top 50 contributor: mỗi người nhận $5.000
- 500 contributor tiếp theo: mỗi người nhận $500
Humanity's Last Exam bao gồm những gì?
Cấu trúc câu hỏi
HLE bao gồm 2.500 câu hỏi công khai và khoảng 500 câu hỏi trong holdout set riêng.Mỗi câu hỏi phải đáp ứng các tiêu chí:
- Nguyên bản (original)
- Có một đáp án đúng duy nhất
- Chống được tìm kiếm web hoặc tra cứu database đơn giản
Phân loại định dạng
| Định dạng | Tỷ lệ |
|---|---|
| Exact-match answer | ~76% |
| Multiple choice | ~24% |
| Multimodal (text + image) | ~14% |
Quy trình kiểm duyệt nghiêm ngặt
Đội ngũ HLE có quy trình vetting stringent cho các câu hỏi:- Bước 1: Câu hỏi phải làm khó được frontier LLM → Khoảng 70.000 câu hỏi đạt tiêu chí này
- Bước 2: Expert peer reviewer tinh chỉnh và lọc xuống còn 13.000 câu hỏi
- Bước 3: Organizer và expert reviewer phê duyệt thủ công 6.000 câu hỏi
- Bước 4: Chia pool thành public set (2.500 câu) và holdout set (~500 câu)
Những chỉ trích đối với Humanity's Last Exam
Không có benchmark nào hoàn hảo, và HLE cũng đối mặt với những chỉ trích xác đáng.Vấn đề hallucination
Kết quả ban đầu cho thấy các frontier model đạt điểm thấp trên HLE nhưng lại thể hiện độ tự tin cao. Khoảng cách này là dấu hiệu rõ ràng của hiện tượng hallucination — model tự tin đưa ra câu trả lời sai.Quan ngại về chất lượng đáp án
Future House, một lab nghiên cứu phi lợi nhuận, công bố blog với tiêu đề đáng chú ý: "About 30% of Humanity's Last Exam chemistry/biology answers are likely wrong."Phân tích của họ tập trung vào protocol review:
- Người viết câu hỏi claim đáp án đúng
- Reviewer chỉ được 5 phút để review tính đúng đắn của đáp án
- Quy trình này để lọt những đáp án quá phức tạp, gượng ép, hoặc mơ hồ — thường conflict với literature khoa học
Phản hồi từ đội ngũ HLE
Maintainer của HLE đã phản hồi bằng cách commission three-expert review cho subset bị tranh cãi. Tính đến tháng 9/2025, họ có kế hoạch công bố rolling review process cho HLE.Bức tranh toàn cảnh AI Benchmark
HLE nằm trong một hệ sinh thái benchmark rộng lớn hơn, mỗi loại test các khía cạnh khác nhau của năng lực LLM.Benchmark Knowledge & Reasoning
| Benchmark | Mô tả |
|---|---|
| MMLU | Test zero-shot performance trên 57 môn học khác nhau |
| MMLU-Pro/MMLU Pro+ | Tăng độ phức tạp câu hỏi, tập trung higher-order reasoning |
| GPQA (Google Proof Q&A) | Benchmark STEM cấp graduate, "Google-proof", 448 câu hỏi multiple-choice |
| HLE | Câu hỏi cấp chuyên gia được curate, nhấn mạnh reasoning over recall |
Benchmark Multimodal Understanding
| Benchmark | Mô tả |
|---|---|
| MMMU | ~1.500 câu hỏi multimodal, đa ngành, từ exam, quiz, và textbook |
| MMMU-Pro | Loại bỏ câu hỏi giải được bằng text-only model, thêm vision-only setting |
Benchmark Software Engineering & Tool Use
| Benchmark | Mô tả |
|---|---|
| SWE-bench | Xây dựng từ GitHub issue thực tế từ 12 Python repository |
| SWE-bench Verified | Phiên bản cải tiến với test rõ ràng hơn, issue description chính xác hơn |
| SWE-bench-Live | Phiên bản scalable, cập nhật liên tục với 1.319 task trên 93 repo |
Framework đánh giá toàn diện
Stanford's Center for Research on Foundation Models (CRFM) phát triển HELM (Holistic Evaluation of Language Models) để hỗ trợ đánh giá AI có trách nhiệm.HELM đánh giá model trên nhiều scenario chuẩn hóa và nhiều dimension: không chỉ accuracy, mà còn calibration, robustness, và toxicity.
Gia đình HELM bao gồm:
- HELM Capabilities: Leaderboard general-purpose
- HELM Audio: Evaluation cho audio và speech
- HELM Lite: Subset nhỏ hơn, nhanh hơn cho quick comparison
- HELM Finance: Tailored cho financial task
- MedHELM: Evaluation cho healthcare reasoning và safety
Framework Safety & Dangerous-Capability
| Framework | Mô tả |
|---|---|
| METR | Tổ chức phi lợi nhuận đánh giá capability nguy hiểm tiềm tàng: cyberattack, nỗ lực tránh shutdown, khả năng tự động hóa AI R&D |
| Google DeepMind Frontier Safety Framework | Định nghĩa Critical Capability Levels (CCL), monitor liệu frontier model có tiếp cận chúng, triển khai mitigation plan khi cần |
Các AI Model hiện tại đạt điểm bao nhiêu?
Nhiều public leaderboard theo dõi LLM performance trên các metric khác nhau. Dưới đây là một số điểm số tính đến tháng 12/2025:Leaderboard theo task
| Task | Model dẫn đầu | Nguồn |
|---|---|---|
| Humanity's Last Exam | Gemini 3 Pro | Vellum Leaderboard |
| Multimodal Reasoning | Gemini 3 Pro | Kaggle MMLU-Pro Leaderboard |
| Coding/Software (SWE-bench) | Claude Sonnet 4.5 | Vellum Leaderboard |
| Agentic/Long-horizon Tasks | Claude Sonnet 4.5 | Vellum Leaderboard |
Safety Leaderboard
| Metric | Model dẫn đầu |
|---|---|
| PropensityBench (lựa chọn giữa hành vi an toàn/harmful) | OpenAI o3-2024-04-18 |
| Frontier Risk Evaluation for National Security | GPT-oss-120b |
| Khả năng chống áp lực nói dối | Claude Sonnet-4.5 |
Các leaderboard đáng theo dõi
- Scale LLM Leaderboards: Agentic behavior, safety, frontier performance
- LLM Stats: Image generation, video generation, text-to-speech, embeddings
- Vellum LLM Leaderboard: Reasoning và coding
- Artificial Analysis.AI: Intelligence, price, speed, latency
- Hugging Face Open LLM Leaderboard: Kết quả chi tiết cho nhiều model
HLE được sử dụng như thế nào trong thực tế?
Đối với research team
HLE cung cấp phương pháp đánh giá chuẩn hóa trên nhiều domain. Nó làm nổi bật điểm mạnh và điểm yếu của model, revealing khoảng cách giữa model và human expert performance. Team có thể sử dụng những pattern này để định hướng phát triển model và focused post-training.Đối với policymaker
HLE cung cấp metric công khai, toàn cầu về tiến bộ AI reasoning. Nó tạo ra điểm tham chiếu chung giữa các quốc gia và cơ quan quản lý, có thể anchor các cuộc thảo luận về threshold, oversight, và governance trong thực tế — không phải hype.Tổng kết
AI benchmark định hình cách chúng ta đo lường tiến bộ AI. Khi các benchmark cũ đã bão hòa, nhu cầu về benchmark mới tập trung vào reasoning, không chỉ recall hay pattern matching, trở nên rõ ràng.Humanity's Last Exam cố gắng lấp đầy khoảng trống đó bằng cách crowdsource câu hỏi cấp graduate từ chuyên gia khắp toàn cầu để expose những limitation của LLM. Đây không phải là lời cuối cùng, nhưng nó làm rõ AI đang đứng ở đâu so với năng lực suy luận của chuyên gia con người.
Một điều thú vị: ngay cả khi được gọi là "Kỳ thi cuối cùng của nhân loại," HLE rất có thể sẽ bị các model tương lai vượt qua. Và khi đó, cộng đồng AI sẽ lại cần một benchmark mới khó hơn. Đó là vòng lặp không ngừng của tiến bộ — và cũng là lý do lĩnh vực này luôn hấp dẫn.
Nguồn: Infinity News