Điểm chính cần nắm
- MMLU (Massive Multitask Language Understanding) là tiêu chuẩn đánh giá toàn diện được thiết kế để đo lường kiến thức và khả năng giải quyết vấn đề của mô hình ngôn ngữ lớn trên 57 lĩnh vực khác nhau.
- MMLU đánh giá mô hình trong điều kiện không có ví dụ (zero-shot) hoặc ít ví dụ (few-shot), kiểm tra khả năng tổng quát hóa kiến thức thay vì ghi nhớ máy móc.
- Điểm MMLU đã trở thành chỉ số quan trọng để so sánh các mô hình AI, với các mô hình hàng đầu hiện nay đạt khoảng 90% — ngang hoặc vượt mức chuyên gia con người.
- Các phiên bản nâng cao như MMLU-Pro và MMLU-CF được phát triển để khắc phục hạn chế của bản gốc, tập trung vào suy luận phức tạp hơn và ngăn chặn ô nhiễm dữ liệu.
MMLU là gì?
MMLU (Massive Multitask Language Understanding) — tạm dịch: Hiểu ngôn ngữ đa tác vụ quy mô lớn — là tiêu chuẩn đánh giá toàn diện được thiết kế để đo lường kiến thức và khả năng giải quyết vấn đề của mô hình ngôn ngữ lớn trên phạm vi rộng và đa dạng các chủ đề. Bộ tiêu chuẩn này bao gồm các câu hỏi trắc nghiệm trải dài 57 tác vụ khác nhau, bao gồm toán học sơ cấp, lịch sử Hoa Kỳ, khoa học máy tính, luật, và nhiều lĩnh vực khác.Ý tưởng cốt lõi đằng sau MMLU là kiểm tra kiến thức đã thu được và kỹ năng suy luận của mô hình trong điều kiện không có ví dụ hoặc ít ví dụ, nghĩa là mô hình phải trả lời câu hỏi với rất ít hoặc không có ví dụ cụ thể cho tác vụ đó. Cách tiếp cận này nhằm đo lường mức độ mô hình có thể hiểu và áp dụng kiến thức từ giai đoạn huấn luyện trước vào các tác vụ chưa được tinh chỉnh cụ thể, phản ánh hình thức trí tuệ tổng quát và mạnh mẽ hơn.
Tại sao MMLU quan trọng cho nghiên cứu và phát triển AI?
Khung đánh giá MMLU có ý nghĩa sâu sắc cho nghiên cứu và phát triển AI vì nhiều lý do then chốt.Đầu tiên là đánh giá kiến thức toàn diện. Không giống các tiêu chuẩn trước đó có thể tập trung vào kỹ năng ngôn ngữ hẹp hơn, MMLU kiểm tra phổ rộng kiến thức thế giới và chuyên môn chuyên biệt, cung cấp cái nhìn toàn diện hơn về năng lực của mô hình ngôn ngữ lớn.
Thứ hai là thúc đẩy cải tiến mô hình. Bằng cách đặt ra tiêu chuẩn cao cho kiến thức tổng quát, MMLU đã thúc đẩy đổi mới trong kiến trúc mô hình, chiến lược huấn luyện trước và kỹ thuật tinh chỉnh. Các nhà nghiên cứu và phát triển nỗ lực cải thiện điểm MMLU của mô hình như minh chứng cho tiến bộ của họ.
Thứ ba là so sánh chuẩn hóa. MMLU cung cấp thước đo chuẩn hóa để so sánh các mô hình ngôn ngữ lớn khác nhau, cho phép cộng đồng AI theo dõi tiến độ, xác định mô hình dẫn đầu và hiểu điểm mạnh và điểm yếu của các cách tiếp cận khác nhau.
Thứ tư là thăm dò sự hiểu biết thực sự. Bản chất đánh giá không có ví dụ và ít ví dụ giúp phân biệt giữa các mô hình đã thực sự học các khái niệm và những mô hình có thể đang quá khớp với dữ liệu huấn luyện cụ thể hoặc định dạng tiêu chuẩn.
Cuối cùng là xác định điểm yếu. Hiệu suất trên 57 tác vụ đa dạng trong bộ dữ liệu MMLU có thể làm nổi bật các lĩnh vực mà mô hình hiện tại xuất sắc hoặc thất bại, hướng dẫn nỗ lực nghiên cứu tương lai để giải quyết những khoảng trống này. Ví dụ, điểm thấp nhất quán trong các môn đòi hỏi suy luận nhiều bước phức tạp có thể chỉ ra nhu cầu về các cách tiếp cận thuật toán mới.
Bối cảnh lịch sử và sự phát triển của MMLU
Sự xuất hiện của MMLU được hiểu rõ nhất khi nhìn vào quá trình tiến hóa của đánh giá mô hình ngôn ngữ và động lực thúc đẩy việc tạo ra nó.MMLU được giới thiệu bởi Dan Hendrycks và nhóm nghiên cứu trong bài báo năm 2020 có tiêu đề "Measuring Massive Multitask Language Understanding" (Đo lường hiểu ngôn ngữ đa tác vụ quy mô lớn). Động lực chính là quan sát rằng các tiêu chuẩn hiện có đang trở nên bão hòa bởi các mô hình ngôn ngữ lớn cải tiến nhanh chóng.
Các mô hình đạt hiệu suất ngang hoặc thậm chí vượt con người trên các tiêu chuẩn như GLUE và SuperGLUE, nhưng không phải lúc nào cũng rõ ràng liệu điều này có chuyển thành sự hiểu biết rộng, giống con người về thế giới hay không.
Các nhà tạo ra MMLU tìm cách phát triển một bài kiểm tra thách thức và toàn diện hơn có thể đánh giá chiều sâu kiến thức, bao phủ phạm vi rộng các chủ đề, đòi hỏi suy luận, và khó bị "gian lận". Mục tiêu là tạo ra đánh giá có thể phân biệt tốt hơn năng lực của các mô hình ngôn ngữ lớn ngày càng mạnh mẽ và cung cấp con đường rõ ràng hơn hướng tới các hệ thống thông minh tổng quát hơn.
Sự tiến hóa của các tiêu chuẩn đánh giá mô hình ngôn ngữ
MMLU đại diện cho bước tiến đáng kể trong quá trình tiến hóa của các tiêu chuẩn đánh giá hiểu ngôn ngữ tự nhiên.Các đánh giá hiểu ngôn ngữ tự nhiên ban đầu thường tập trung vào các tác vụ riêng lẻ như phân tích cảm xúc, nhận dạng thực thể có tên hoặc dịch máy, mỗi tác vụ có bộ dữ liệu và thước đo riêng.
GLUE (General Language Understanding Evaluation) được giới thiệu năm 2018 như một bộ sưu tập gồm chín tác vụ hiểu ngôn ngữ tự nhiên đa dạng, được thiết kế để cung cấp thước đo số đơn cho hiệu suất mô hình tổng thể. Nó trở thành tiêu chuẩn trong một thời gian nhưng nhanh chóng bị các mô hình vượt qua.
SuperGLUE được phát triển năm 2019 như phiên bản kế nhiệm thách thức hơn của GLUE, với các tác vụ khó hơn và đường cơ sở con người toàn diện hơn. Tuy nhiên, ngay cả SuperGLUE cũng thấy các mô hình nhanh chóng tiếp cận hiệu suất con người.
MMLU cải tiến so với các tiêu chuẩn trước theo nhiều cách quan trọng. Với 57 tác vụ, bộ dữ liệu MMLU rộng hơn nhiều và bao phủ phạm vi rộng hơn nhiều các chủ đề học thuật và chuyên nghiệp so với GLUE (9 tác vụ) hoặc SuperGLUE (8 tác vụ + bộ dữ liệu chẩn đoán). Sự rộng lớn này khiến các mô hình khó chuyên môn hóa và khuyến khích kiến thức tổng quát hơn.
Trong khi GLUE/SuperGLUE kiểm tra các hiện tượng ngôn ngữ khác nhau, MMLU trực tiếp đánh giá kiến thức trong các lĩnh vực cụ thể như luật, y học và đạo đức, đòi hỏi nhiều hơn chỉ xử lý ngôn ngữ.
MMLU ưu tiên đánh giá mô hình với ví dụ cụ thể tác vụ tối thiểu. Điều này tương phản với nhiều tác vụ trong GLUE/SuperGLUE, nơi mô hình thường được tinh chỉnh trên các bộ huấn luyện cụ thể tác vụ. Điều này khiến đánh giá MMLU trở thành bài kiểm tra tốt hơn về khả năng tổng quát hóa của mô hình từ huấn luyện trước.
Các câu hỏi trong MMLU thường được thiết kế để thách thức ngay cả với con người, đặc biệt trong các lĩnh vực chuyên biệt, cung cấp đường chạy dài hơn để đo lường tiến bộ AI.
Khung kiến trúc của MMLU
Để thực sự đánh giá cao tiêu chuẩn MMLU, điều cần thiết là hiểu cấu trúc cơ bản và cách nó đánh giá mô hình ngôn ngữ.Thành phần bộ dữ liệu và phạm vi chủ đề
Sức mạnh của đánh giá MMLU nằm ở bộ dữ liệu được tuyển chọn tỉ mỉ, được thiết kế để vừa rộng vừa sâu.Bộ dữ liệu MMLU không phải là thực thể nguyên khối mà là bộ sưu tập gồm 57 tác vụ riêng biệt, mỗi tác vụ tương ứng với một lĩnh vực chủ đề cụ thể. Các chủ đề này cố ý đa dạng, trải dài nhiều danh mục chính: Nhân văn (triết học, lịch sử, văn học...), Khoa học xã hội (kinh tế, tâm lý, xã hội học...), STEM (toán học, vật lý, khoa học máy tính...), và Chủ đề chuyên nghiệp/Khác (y học, luật, đạo đức...).
Mỗi tác vụ trong bộ dữ liệu MMLU bao gồm các câu hỏi trắc nghiệm. Thông thường, mỗi câu hỏi trình bày một vấn đề hoặc truy vấn theo sau là bốn câu trả lời có thể, một trong số đó là đúng. Các câu hỏi được thiết kế để kiểm tra kiến thức ở nhiều mức độ khó khác nhau, từ trung học đến đại học và thậm chí cấp chuyên gia chuyên nghiệp.
Ví dụ, một câu hỏi trong chủ đề "Y học chuyên nghiệp" sẽ đòi hỏi mức kiến thức được kỳ vọng từ một chuyên gia y tế, khiến nó trở thành bài kiểm tra thách thức ngay cả với các mô hình ngôn ngữ lớn có năng lực cao. Khối lượng và sự đa dạng tuyệt đối của các câu hỏi đảm bảo rằng mô hình không thể đơn giản dựa vào việc ghi nhớ câu trả lời mà phải sở hữu sự hiểu biết thực sự về chủ đề để đạt điểm cao.
Các câu hỏi trong bộ dữ liệu MMLU được lấy từ nhiều tài liệu thực tế để đảm bảo tính liên quan và độ khó. Các nguồn này bao gồm sách giáo khoa, các bài kiểm tra chuẩn hóa, câu hỏi thi đố vui, và tài nguyên giáo dục trực tuyến. Chiến lược lấy nguồn này đảm bảo rằng các câu hỏi phản ánh loại thách thức kiến thức và suy luận gặp phải trong môi trường học thuật và chuyên nghiệp.
Phương pháp đánh giá: Học không có ví dụ và ít ví dụ
Một khía cạnh quan trọng của ý nghĩa MMLU và sức mạnh đánh giá của nó nằm ở việc sử dụng các mô hình học không có ví dụ và ít ví dụ. Các phương pháp này rất quan trọng để kiểm tra khả năng tổng quát hóa kiến thức của mô hình mà không cần huấn luyện cụ thể tác vụ mở rộng.Đánh giá không có ví dụ (Zero-shot)
Trong cài đặt không có ví dụ, mô hình ngôn ngữ lớn được trình bày các câu hỏi từ một tác vụ MMLU cụ thể (ví dụ: "Đại số trừu tượng" hoặc "Kịch bản đạo đức") mà không thấy bất kỳ ví dụ nào từ tác vụ cụ thể đó trong giai đoạn tinh chỉnh hoặc trong prompt.Mô hình phải hiểu câu hỏi và chọn câu trả lời trắc nghiệm đúng chỉ dựa trên kiến thức đã huấn luyện trước. Ví dụ, prompt có thể đơn giản là:
Sau đây là các câu hỏi trắc nghiệm (với câu trả lời) về [tên chủ đề].
[Câu hỏi]
A) [Lựa chọn A]
B) [Lựa chọn B]
C) [Lựa chọn C]
D) [Lựa chọn D]
Đáp án:
Mô hình sau đó được kỳ vọng cung cấp chữ cái của lựa chọn đúng. Cài đặt này kiểm tra nghiêm ngặt khả năng tổng quát hóa sự hiểu biết của mô hình sang các lĩnh vực và phong cách câu hỏi hoàn toàn mới.
Đánh giá ít ví dụ (Few-shot)
Trong cài đặt ít ví dụ, mô hình được cung cấp một số lượng nhỏ ví dụ (thường là năm, do đó "5-shot") từ tác vụ MMLU cụ thể trực tiếp trong prompt trước khi gặp câu hỏi kiểm tra thực tế.Các ví dụ này bao gồm một câu hỏi, các lựa chọn trắc nghiệm và câu trả lời đúng. Mô hình sử dụng các ví dụ ít này để hiểu ngữ cảnh, phong cách và suy luận được kỳ vọng cho tác vụ trước khi cố gắng câu hỏi mới, chưa thấy. Điều này kiểm tra khả năng học nhanh, trong ngữ cảnh và thích ứng của mô hình.
Tầm quan trọng của các phương pháp này trong đánh giá MMLU là chúng phản ánh cách con người thường tiếp cận vấn đề mới — hoặc bằng cách áp dụng kiến thức hiện có vào điều gì đó hoàn toàn mới (không có ví dụ) hoặc bằng cách học nhanh từ một vài ví dụ (ít ví dụ).
Bằng cách đánh giá mô hình trong cả cài đặt không có ví dụ và ít ví dụ, MMLU cung cấp bức tranh toàn diện hơn về tính linh hoạt và khả năng học của chúng, rất quan trọng để xây dựng hệ thống AI thực sự hữu ích và có thể thích ứng.
Chỉ số hiệu suất và sự tiến hóa của mô hình
Sự tiến hóa của mô hình ngôn ngữ trên tiêu chuẩn MMLU làm nổi bật sự phát triển nhanh chóng của AI.Hiệu suất mô hình ban đầu
Được giới thiệu vào cuối năm 2020, MMLU nhanh chóng tiết lộ các hạn chế trong các mô hình ngôn ngữ lớn tiên tiến hiện có. Các cuộc gặp gỡ ban đầu với bộ dữ liệu MMLU rất khó khăn. Điểm MMLU ban đầu cho hầu hết các mô hình đương thời vào khoảng 25-30%, trong khi GPT-3 lớn nhất đạt khoảng 44%.Như có thể thấy, ngay cả các mô hình có năng lực như các phiên bản GPT-3 ban đầu cũng gặp khó khăn, cho thấy sự hiểu biết rộng, giống con người còn xa vời. Các thách thức chính bao gồm thiếu hụt kiến thức chuyên biệt (ví dụ: luật, y học), suy luận phức tạp hạn chế, mong manh trong kịch bản không có ví dụ/ít ví dụ, và dễ bị lừa bởi các lựa chọn nhiễu trong câu hỏi.
Kể từ khi MMLU ra mắt, hiệu suất mô hình ngôn ngữ lớn đã tăng vọt. Tiến bộ này bắt nguồn từ đổi mới kiến trúc, tăng quy mô mô hình, dữ liệu huấn luyện tốt hơn và các phương pháp tinh chỉnh như tinh chỉnh theo hướng dẫn và học tăng cường từ phản hồi con người (RLHF). Do đó, điểm MMLU đã tăng dốc.
Hiệu suất con người so với mô hình
MMLU đặt hiệu suất AI bên cạnh trí tuệ con người một cách quan trọng. Nghiên cứu MMLU gốc đặt độ chính xác chuyên gia con người vào khoảng 90%. Ban đầu, các mô hình ngôn ngữ lớn tụt hậu đáng kể. Tuy nhiên, các mô hình mới nhất đã thu hẹp đáng kể khoảng cách này.Các mô hình dẫn đầu hiện nay báo cáo điểm MMLU đáp ứng hoặc vượt nhẹ mức chuẩn chuyên gia con người trung bình. Điều quan trọng cần lưu ý là "chuyên gia con người" là một phạm vi, và hiệu suất mô hình thay đổi theo chủ đề. Ví dụ, mô hình GPT-4.1 gần đây báo cáo điểm 90,2% trên MMLU, và Claude 4 Opus đạt 88,8%.
Mặc dù ấn tượng, vượt qua điểm trung bình không đồng nghĩa với sự hiểu biết giống con người, ý thức thông thường hoặc sáng tạo. Mô hình vẫn có thể mong manh hoặc gặp khó khăn với suy luận mới lạ. Điểm không có ví dụ, bài kiểm tra thuần túy hơn về tổng quát hóa, cũng đã cải thiện nhưng thường tụt hậu so với kết quả ít ví dụ.
Việc đạt được và đôi khi vượt qua điểm MMLU chuyên gia con người có ý nghĩa sâu sắc: nó xác nhận tiến bộ AI, tăng cường tiện ích thực tế trong các lĩnh vực đòi hỏi kiến thức chuyên sâu, thúc đẩy phát triển các tiêu chuẩn thách thức hơn (như MMLU-Pro), và nâng cao đối thoại đạo đức và xã hội về vai trò của AI.
Các phiên bản phái sinh và nâng cao: MMLU-Pro và MMLU-CF
Trong khi tiêu chuẩn MMLU gốc đã tiến bộ đáng kể đánh giá mô hình ngôn ngữ lớn, các hạn chế của nó trở nên rõ ràng với tiến bộ nhanh chóng của AI. Điều này dẫn đến các phiên bản phái sinh như MMLU-Pro và MMLU-CF, nhằm đánh giá nghiêm ngặt hơn.Hạn chế của MMLU gốc
MMLU gốc đối mặt với một số thách thức khi mô hình trở nên tinh vi hơn.Một mối quan ngại lớn là các câu hỏi bộ dữ liệu MMLU có sẵn công khai có thể nằm trong dữ liệu huấn luyện mô hình ngôn ngữ lớn, thổi phồng điểm MMLU và không phản ánh khả năng tổng quát hóa thực sự. Một số câu hỏi trong bất kỳ tiêu chuẩn lớn nào có thể bị lỗi, mơ hồ hoặc lỗi thời, ảnh hưởng đến độ tin cậy đánh giá MMLU. Khi các mô hình hàng đầu gần đạt điểm hoàn hảo, khả năng phân biệt năng lực suy luận tiên tiến của MMLU giảm đi, thúc đẩy yêu cầu về các tác vụ phức tạp hơn.
Bộ câu hỏi cố định không phát triển theo tiến bộ mô hình hoặc lĩnh vực kiến thức mới. Là trắc nghiệm, MMLU không kiểm tra khả năng tạo sinh, giải thích hoặc sáng tạo quan trọng của mô hình ngôn ngữ lớn.
MMLU-Pro: Nâng cao tiêu chuẩn cho suy luận
MMLU-Pro được phát triển để kiểm tra suy luận sâu hơn với các câu hỏi thách thức hơn. MMLU-Pro tăng độ khó đánh giá bằng cách tập trung vào các câu hỏi đòi hỏi hiểu biết sâu sắc và suy luận tinh vi.Các cải tiến chính bao gồm tăng độ phức tạp câu hỏi, tập trung vào tư duy bậc cao, giảm khả năng bị đánh lừa bởi các manh mối bề mặt, và trần cao hơn cho các mô hình hàng đầu. MMLU-Pro phản ánh nỗ lực liên tục để đảm bảo các tiêu chuẩn thúc đẩy tiến bộ suy luận AI.
MMLU-CF: Chống ô nhiễm dữ liệu
MMLU-CF (Contamination-Free) — không ô nhiễm — đặc biệt giải quyết vấn đề ô nhiễm dữ liệu trong đánh giá mô hình ngôn ngữ lớn. MMLU-CF nhằm cung cấp đánh giá MMLU với các câu hỏi rất khó có khả năng nằm trong dữ liệu huấn luyện mô hình.Các chiến lược bao gồm tạo câu hỏi mới, đương thời được tuyển chọn để tránh trùng lặp với nội dung web hiện có hoặc các bộ huấn luyện đã biết, có thể sử dụng tài liệu gần đây, không công khai hoặc tạo bởi chuyên gia. Sử dụng kỹ thuật tinh vi để quét kho web và bộ dữ liệu huấn luyện để loại trừ các câu hỏi có khả năng bị lộ. Sử dụng các bài kiểm tra được cập nhật thường xuyên hơn hoặc được tạo động để khó đưa các mục tiêu chuẩn vào dữ liệu huấn luyện hơn.
MMLU-CF quan trọng cho tính toàn vẹn tiêu chuẩn. Điểm MMLU cao trên phiên bản không ô nhiễm chỉ ra đáng tin cậy hơn khả năng tổng quát hóa và suy luận thực sự, không phải ghi nhớ. Điều này rất quan trọng để theo dõi chính xác tiến bộ AI và so sánh mô hình công bằng.
Ý nghĩa lý thuyết và thực tiễn
Việc tạo ra và chấp nhận rộng rãi tiêu chuẩn MMLU đã tác động đáng kể đến lĩnh vực AI, định hình cả nghiên cứu lý thuyết và ứng dụng thực tế.Tác động đến nghiên cứu AI
MMLU đã định hình đáng kể hướng nghiên cứu AI. Bằng cách đặt tiêu chuẩn cao cho kiến thức rộng và suy luận, nó đã thúc đẩy đổi mới trong kiến trúc mô hình và phương pháp huấn luyện.Các nhà nghiên cứu liên tục khám phá cách mới để cải thiện điểm MMLU của mô hình, dẫn đến tiến bộ trong các lĩnh vực như kiến trúc có thể mở rộng và hiệu quả, chiến lược huấn luyện trước được nâng cao, tinh chỉnh hướng dẫn và căn chỉnh, và tập trung vào độ bền và tổng quát hóa.
Ứng dụng thực tế
Các năng lực đạt được bằng cách phấn đấu đánh giá MMLU tốt hơn chuyển trực tiếp thành ứng dụng thực tế mạnh mẽ và đáng tin cậy hơn.Các mô hình hoạt động tốt trên MMLU thường giỏi hơn ở các tác vụ đòi hỏi hiểu biết sâu và suy luận, mở cửa trong nhiều ngành như y tế, giáo dục, dịch vụ pháp lý, khám phá khoa học, và chăm sóc khách hàng.
Tiến bộ phản ánh trong điểm MMLU củng cố tiện ích ngày càng tăng của mô hình ngôn ngữ lớn trong các lĩnh vực này.
Hướng đi tương lai
Hành trình đánh giá mô hình ngôn ngữ còn xa mới kết thúc. MMLU và các phiên bản phái sinh của nó chỉ ra một số xu hướng và thách thức mới nổi.Các tiêu chuẩn tương lai có thể sẽ kết hợp các định dạng đánh giá đa dạng hơn, bao gồm trả lời câu hỏi mở, đối thoại tương tác và hoàn thành tác vụ trong môi trường mô phỏng để đánh giá phạm vi rộng hơn năng lực AI.
Khi AI hướng tới hiểu và tạo nội dung trên văn bản, hình ảnh, âm thanh và video, các tiêu chuẩn sẽ cần phát triển để đánh giá các kỹ năng đa phương thức này.
Có sự nhấn mạnh ngày càng tăng vào phát triển các tiêu chuẩn kiểm tra nghiêm ngặt an toàn mô hình, công bằng, thiên vị và căn chỉnh đạo đức. Đảm bảo tính toàn vẹn tiêu chuẩn thông qua các phương pháp như trong MMLU-CF sẽ vẫn là thách thức chính.
Tổng kết
Tiêu chuẩn MMLU đã định hình lại không thể phủ nhận cách chúng ta đo lường và thúc đẩy tiến bộ trong mô hình ngôn ngữ lớn. Từ bộ dữ liệu MMLU toàn diện đến các phương pháp đánh giá MMLU thách thức, nó đẩy AI hướng tới kiến thức rộng hơn và suy luận sâu hơn. Khi mô hình tiếp tục phát triển, các tiêu chuẩn hướng dẫn chúng cũng sẽ phát triển, đảm bảo tương lai của AI ngày càng có năng lực và đa dạng.Một điểm đáng suy ngẫm: MMLU như một "cuộc thi trí tuệ" cho AI — nhưng giống như bất kỳ cuộc thi nào, điểm cao không đảm bảo "thông minh" theo nghĩa con người hiểu. Một sinh viên có thể đạt điểm tuyệt đối trong kỳ thi mà vẫn thiếu kỹ năng thực hành. Tương tự, mô hình AI có thể "đậu" MMLU nhưng vẫn mắc những sai lầm ngớ ngẩn trong tình huống thực tế. Đó là lý do tại sao các tiêu chuẩn như MMLU-Pro và MMLU-CF tiếp tục được phát triển — không phải để thay thế MMLU, mà để bổ sung góc nhìn đa chiều hơn về năng lực AI thực sự.
Nguồn: Infinity News