Humanity's Last Exam là gì?

Tóm tắt các điểm chính

Humanity's Last Exam (HLE) là benchmark AI được thiết kế để đo lường năng lực suy luận thực sự của LLM, không chỉ khả năng pattern matching hay ghi nhớ.
HLE ra đời vì các benchmark cũ như MMLU đã bão hòa — model đạt trên 90%, khiến việc đo lường sự khác biệt có ý nghĩa trở nên bất khả.
Benchmark bao gồm 2.500 câu hỏi công khai và khoảng 500 câu hỏi holdout, được crowdsource từ chuyên gia nhiều lĩnh vực học thuật với quy trình kiểm duyệt nghiêm ngặt.
Các model frontier hiện tại vẫn đạt điểm thấp trên HLE nhưng lại thể hiện độ tự tin cao — một dấu hiệu rõ ràng của hiện tượng hallucination.

Humanity's Last Exam là gì?

Humanity's Last Exam (HLE) là benchmark được thiết kế để đo lường năng lực suy luận của LLM, chứ không chỉ khả năng pattern matching. Mục tiêu của HLE là đánh giá mức độ model xử lý các bài toán cấp chuyên gia trên nhiều lĩnh vực học thuật khác nhau.

Khi các LLM ngày càng tiến bộ, các nhà nghiên cứu dựa vào tập hợp câu hỏi đánh giá — gọi là benchmark — để so sánh hiệu suất và theo dõi tiến độ phát triển. HLE được mô tả trong paper nghiên cứu như "benchmark closed-ended cuối cùng cho các kỹ năng học thuật rộng."

Tại sao cần một "Kỳ thi cuối cùng"?

Với hàng loạt benchmark đã tồn tại, tại sao lại cần thêm một cái nữa? Câu trả lời nằm ở hiện tượng bão hòa benchmark.

Các benchmark từng thách thức LLM như MMLU giờ đã bão hòa, với model thường đạt trên 90%. Đến điểm này, những benchmark cũ không còn đo lường được sự khác biệt có ý nghĩa giữa các model.

HLE là benchmark thế hệ mới, nâng mức độ khó bằng cách tập hợp các câu hỏi do chuyên gia tạo ra, đòi hỏi suy luận nhiều bước (multi-step reasoning), không chỉ đơn thuần recall hay pattern-matching bề mặt.

Hãy nghĩ thế này: nếu một kỳ thi mà ai cũng đạt điểm gần tuyệt đối, thì kỳ thi đó không còn phân biệt được ai giỏi hơn ai. HLE được tạo ra để giải quyết đúng vấn đề này.

HLE được phát triển như thế nào?

Đội ngũ và đối tác

Cuối năm 2024, Centre for AI Safety (tổ chức phi lợi nhuận về AI safety) hợp tác với Scale AI (công ty dữ liệu) để phát triển benchmark AI khó hơn. Dan Hendrycks dẫn dắt dự án.

Phương pháp crowdsource

Đội ngũ crowdsource các câu hỏi cấp graduate từ nhiều ngành học thuật, với phần thưởng đáng kể:

Top 50 contributor: mỗi người nhận $5.000
500 contributor tiếp theo: mỗi người nhận $500

Kết quả là một pool lớn câu hỏi cấp chuyên gia trên nhiều môn học: toán học, khoa học máy tính, văn học, phân tích âm nhạc, và lịch sử.

Humanity's Last Exam bao gồm những gì?

Cấu trúc câu hỏi

HLE bao gồm 2.500 câu hỏi công khai và khoảng 500 câu hỏi trong holdout set riêng.

Mỗi câu hỏi phải đáp ứng các tiêu chí:

Nguyên bản (original)
Có một đáp án đúng duy nhất
Chống được tìm kiếm web hoặc tra cứu database đơn giản

Phân loại định dạng

Định dạng	Tỷ lệ
Exact-match answer	~76%
Multiple choice	~24%
Multimodal (text + image)	~14%

Quy trình kiểm duyệt nghiêm ngặt

Đội ngũ HLE có quy trình vetting stringent cho các câu hỏi:

Bước 1: Câu hỏi phải làm khó được frontier LLM → Khoảng 70.000 câu hỏi đạt tiêu chí này
Bước 2: Expert peer reviewer tinh chỉnh và lọc xuống còn 13.000 câu hỏi
Bước 3: Organizer và expert reviewer phê duyệt thủ công 6.000 câu hỏi
Bước 4: Chia pool thành public set (2.500 câu) và holdout set (~500 câu)

Những chỉ trích đối với Humanity's Last Exam

Không có benchmark nào hoàn hảo, và HLE cũng đối mặt với những chỉ trích xác đáng.

Vấn đề hallucination

Kết quả ban đầu cho thấy các frontier model đạt điểm thấp trên HLE nhưng lại thể hiện độ tự tin cao. Khoảng cách này là dấu hiệu rõ ràng của hiện tượng hallucination — model tự tin đưa ra câu trả lời sai.

Quan ngại về chất lượng đáp án

Future House, một lab nghiên cứu phi lợi nhuận, công bố blog với tiêu đề đáng chú ý: "About 30% of Humanity's Last Exam chemistry/biology answers are likely wrong."

Phân tích của họ tập trung vào protocol review:

Người viết câu hỏi claim đáp án đúng
Reviewer chỉ được 5 phút để review tính đúng đắn của đáp án
Quy trình này để lọt những đáp án quá phức tạp, gượng ép, hoặc mơ hồ — thường conflict với literature khoa học

Phản hồi từ đội ngũ HLE

Maintainer của HLE đã phản hồi bằng cách commission three-expert review cho subset bị tranh cãi. Tính đến tháng 9/2025, họ có kế hoạch công bố rolling review process cho HLE.

Bức tranh toàn cảnh AI Benchmark

HLE nằm trong một hệ sinh thái benchmark rộng lớn hơn, mỗi loại test các khía cạnh khác nhau của năng lực LLM.

Benchmark Knowledge & Reasoning

Benchmark	Mô tả
MMLU	Test zero-shot performance trên 57 môn học khác nhau
MMLU-Pro/MMLU Pro+	Tăng độ phức tạp câu hỏi, tập trung higher-order reasoning
GPQA (Google Proof Q&A)	Benchmark STEM cấp graduate, "Google-proof", 448 câu hỏi multiple-choice
HLE	Câu hỏi cấp chuyên gia được curate, nhấn mạnh reasoning over recall

Benchmark Multimodal Understanding

Benchmark	Mô tả
MMMU	~1.500 câu hỏi multimodal, đa ngành, từ exam, quiz, và textbook
MMMU-Pro	Loại bỏ câu hỏi giải được bằng text-only model, thêm vision-only setting

Benchmark Software Engineering & Tool Use

Benchmark	Mô tả
SWE-bench	Xây dựng từ GitHub issue thực tế từ 12 Python repository
SWE-bench Verified	Phiên bản cải tiến với test rõ ràng hơn, issue description chính xác hơn
SWE-bench-Live	Phiên bản scalable, cập nhật liên tục với 1.319 task trên 93 repo

Framework đánh giá toàn diện

Stanford's Center for Research on Foundation Models (CRFM) phát triển HELM (Holistic Evaluation of Language Models) để hỗ trợ đánh giá AI có trách nhiệm.

HELM đánh giá model trên nhiều scenario chuẩn hóa và nhiều dimension: không chỉ accuracy, mà còn calibration, robustness, và toxicity.

Gia đình HELM bao gồm:

HELM Capabilities: Leaderboard general-purpose
HELM Audio: Evaluation cho audio và speech
HELM Lite: Subset nhỏ hơn, nhanh hơn cho quick comparison
HELM Finance: Tailored cho financial task
MedHELM: Evaluation cho healthcare reasoning và safety

Framework Safety & Dangerous-Capability

Framework	Mô tả
METR	Tổ chức phi lợi nhuận đánh giá capability nguy hiểm tiềm tàng: cyberattack, nỗ lực tránh shutdown, khả năng tự động hóa AI R&D
Google DeepMind Frontier Safety Framework	Định nghĩa Critical Capability Levels (CCL), monitor liệu frontier model có tiếp cận chúng, triển khai mitigation plan khi cần

Các AI Model hiện tại đạt điểm bao nhiêu?

Nhiều public leaderboard theo dõi LLM performance trên các metric khác nhau. Dưới đây là một số điểm số tính đến tháng 12/2025:

Leaderboard theo task

Task	Model dẫn đầu	Nguồn
Humanity's Last Exam	Gemini 3 Pro	Vellum Leaderboard
Multimodal Reasoning	Gemini 3 Pro	Kaggle MMLU-Pro Leaderboard
Coding/Software (SWE-bench)	Claude Sonnet 4.5	Vellum Leaderboard
Agentic/Long-horizon Tasks	Claude Sonnet 4.5	Vellum Leaderboard

Safety Leaderboard

Metric	Model dẫn đầu
PropensityBench (lựa chọn giữa hành vi an toàn/harmful)	OpenAI o3-2024-04-18
Frontier Risk Evaluation for National Security	GPT-oss-120b
Khả năng chống áp lực nói dối	Claude Sonnet-4.5

Các leaderboard đáng theo dõi

Scale LLM Leaderboards: Agentic behavior, safety, frontier performance
LLM Stats: Image generation, video generation, text-to-speech, embeddings
Vellum LLM Leaderboard: Reasoning và coding
Artificial Analysis.AI: Intelligence, price, speed, latency
Hugging Face Open LLM Leaderboard: Kết quả chi tiết cho nhiều model

HLE được sử dụng như thế nào trong thực tế?

Đối với research team

HLE cung cấp phương pháp đánh giá chuẩn hóa trên nhiều domain. Nó làm nổi bật điểm mạnh và điểm yếu của model, revealing khoảng cách giữa model và human expert performance. Team có thể sử dụng những pattern này để định hướng phát triển model và focused post-training.

Đối với policymaker

HLE cung cấp metric công khai, toàn cầu về tiến bộ AI reasoning. Nó tạo ra điểm tham chiếu chung giữa các quốc gia và cơ quan quản lý, có thể anchor các cuộc thảo luận về threshold, oversight, và governance trong thực tế — không phải hype.

Tổng kết

AI benchmark định hình cách chúng ta đo lường tiến bộ AI. Khi các benchmark cũ đã bão hòa, nhu cầu về benchmark mới tập trung vào reasoning, không chỉ recall hay pattern matching, trở nên rõ ràng.

Humanity's Last Exam cố gắng lấp đầy khoảng trống đó bằng cách crowdsource câu hỏi cấp graduate từ chuyên gia khắp toàn cầu để expose những limitation của LLM. Đây không phải là lời cuối cùng, nhưng nó làm rõ AI đang đứng ở đâu so với năng lực suy luận của chuyên gia con người.

Một điều thú vị: ngay cả khi được gọi là "Kỳ thi cuối cùng của nhân loại," HLE rất có thể sẽ bị các model tương lai vượt qua. Và khi đó, cộng đồng AI sẽ lại cần một benchmark mới khó hơn. Đó là vòng lặp không ngừng của tiến bộ — và cũng là lý do lĩnh vực này luôn hấp dẫn.

Nguồn: Infinity News

Humanity's Last Exam là gì?

Tóm tắt các điểm chính