Claude Opus 4.6: Tính năng, benchmark và đánh giá chi tiết

Tóm tắt các điểm chính

Claude Opus 4.6 dẫn đầu bảng xếp hạng trong agentic coding và lý luận phức tạp với context window 1 triệu tokens
Agent teams cho phép tạo nhiều Claude instances độc lập làm việc song song, mỗi agent có context window riêng
Conversation compaction tự động tóm tắt cuộc hội thoại khi đạt ngưỡng tokens, giúp duy trì hiệu suất trong các workflow dài
Adaptive thinking và effort parameters cho phép model tự điều chỉnh mức độ suy luận dựa trên độ phức tạp của prompt
Dẫn đầu 4 benchmark quan trọng: Terminal-Bench 2.0, Humanity's Last Exam, GDPval-AA và BrowseComp

Tin đồn về bản phát hành tiếp theo của Anthropic đã lan tràn trong vài ngày qua. Trong khi nhiều người mong đợi Claude Sonnet 5, bản phát hành đầu tiên của năm lại có dạng Claude Opus 4.6.

Với context window 1 triệu tokens, adaptive thinking, conversation compaction và một loạt benchmark dẫn đầu, Claude Opus 4.6 là một cải tiến đáng kể so với Opus 4.5. Như Anthropic gọi nó, họ đã nâng cấp mô hình thông minh nhất của mình. Bên cạnh mô hình, Anthropic cũng ra mắt agent teams trong Claude Code và Claude in PowerPoint.

Trong bài viết này, chúng ta sẽ đề cập đến mọi thứ mới với Claude Opus 4.6, xem xét các tính năng mới, khám phá các benchmark và đưa ra đánh giá chi tiết.

Claude Opus 4.6 là gì?

Claude Opus 4.6 là mô hình ngôn ngữ lớn mới nhất từ Anthropic. Tiếp nối từ Opus 4.5, nó đại diện cho một bản nâng cấp đáng kể cho tầng mô hình "thông minh nhất" của công ty.

Từ blog phát hành, Anthropic tuyên bố mô hình có trọng tâm lớn hơn vào agentic coding, lý luận sâu và tự sửa lỗi. Điều này có nghĩa là có sự chuyển đổi từ hành động sang hành động bền vững.

Opus 4.6 được thiết kế để lập kế hoạch cẩn thận hơn, có sự mạch lạc được cải thiện trong các khoảng thời gian dài hơn, và xác định lỗi trong hoạt động của chính nó. Tất cả điều này có nghĩa là Claude Opus 4.6 dẫn đầu một số benchmark, bao gồm điểm cao nhất trên đánh giá coding Terminal-Bench 2.0 và đánh bại tất cả các mô hình tiên tiến khác trên Humanity's Last Exam.

Một trong những điều nổi bật nhất là context window được cải thiện trong Claude Opus 4.6. Với 1 triệu tokens trong phiên bản beta, điều này đưa mô hình mới ngang hàng với Gemini 3, có nghĩa là nó có thể xử lý nhiều thông tin hơn mà không đánh mất ngữ cảnh.

Có gì mới với Claude Opus 4.6?

Có một số tính năng mới đáng chú ý trong Claude Opus 4.6, nhiều tính năng trong số đó tập trung vào quy trình agentic workflows. Hãy cùng xem xét một số điểm chính:

Agent teams

Agent teams là một cải tiến so với "subagents" mà chúng ta thấy trong các phiên bản trước của Claude. Agent teams cho phép bạn tạo ra nhiều Claude instances hoàn toàn độc lập có thể làm việc song song. Một phiên là agent "lead" điều phối mọi thứ, trong khi các "teammates" xử lý việc thực thi thực sự.

Điều thú vị nhất là mỗi thành viên trong nhóm có context window riêng, cho phép thực thi kỹ lưỡng hơn. Mỗi teammate cũng có thể giao tiếp trực tiếp với những người khác trong nhóm.

Tất nhiên, tính năng này đi kèm với một nhược điểm tiềm ẩn - chi phí. Vì mỗi agent có context window riêng, bạn có thể nhanh chóng bắt đầu tiêu hao tokens của mình. Do đó, Anthropic khuyến nghị rằng bạn nên sử dụng chúng cho các tình huống khi có mức độ phức tạp cao hơn.

Conversation compaction

Một tính năng tiện lợi của Claude Opus 4.6 là context compaction. Nâng cấp chất lượng cuộc sống này giúp tránh các vấn đề khi bạn đang chạy các workflow dài đạt tối đa context windows. Thông thường, bạn sẽ gặp phải bức tường ngữ cảnh nơi hiệu suất bắt đầu suy giảm.

Với conversation compaction, Claude Opus 4.6 có thể tự động phát hiện khi cuộc hội thoại đang đạt đến ngưỡng tokens và tóm tắt cuộc hội thoại hiện có thành một khối ngắn gọn (compaction block).

Tính năng này sẽ giúp bảo tồn những điều cốt yếu của các tương tác của bạn đồng thời giải phóng không gian để tiếp tục công việc của bạn. Nếu bạn đang lên kế hoạch sử dụng các agents định hướng tác vụ cần chạy trong thời gian dài, điều này có thể giữ chúng đi đúng hướng với bộ nhớ được cải thiện đáng kể.

Adaptive thinking và effort

Có hai tính năng của Claude Opus 4.6 xác định liệu nó có cần sử dụng extended thinking hay không và nó cố gắng mạnh mẽ như thế nào với suy nghĩ đó.

Adaptive thinking cho phép mô hình xác định mức độ phức tạp của prompt của bạn. Dựa trên sự đơn giản hoặc phức tạp, nó sẽ quyết định có sử dụng extended thinking hay không. Thay vì có cài đặt thủ công về số lượng tokens nó sử dụng cho việc này, Claude sẽ điều chỉnh ngân sách của nó dựa trên độ phức tạp của từng yêu cầu.

Tham số effort cho phép bạn đặt mức độ háo hức hoặc thận trọng của Claude về việc chi tiêu tokens. Về cơ bản, nó có nghĩa là bạn có thể cân bằng hiệu quả tokens và mức độ kỹ lưỡng của các phản hồi.

Khi sử dụng Claude Opus 4.6 trong API, bạn có thể đặt các tham số này thủ công. Ví dụ:

Max effort: Claude luôn sử dụng extended thinking, và không có ràng buộc về độ sâu.

High effort: Với cài đặt mặc định này, Claude luôn suy nghĩ và cung cấp lý luận sâu.

Medium effort: Điều này kích hoạt suy nghĩ vừa phải, và nó có thể bỏ qua suy nghĩ cho các truy vấn đơn giản nhất.

Low effort: Claude bỏ qua suy nghĩ cho các tác vụ đơn giản và giảm thiểu suy nghĩ để ưu tiên tốc độ.

Claude in PowerPoint

Gần đây chúng ta đã đề cập đến Claude in Excel, cho thấy cách add-on có thể giúp bạn với các tác vụ khác nhau trong bảng điều khiển bên của bảng tính Excel của bạn. Cũng như cải thiện chức năng của công cụ này, Anthropic đã công bố Claude in PowerPoint.

Sự tích hợp này tôn trọng slide masters, fonts và layouts của bạn. Bạn có thể cung cấp cho nó một template doanh nghiệp và yêu cầu nó xây dựng một phần cụ thể, hoặc chọn một slide và yêu cầu nó chuyển đổi văn bản dày đặc thành một sơ đồ gốc, có thể chỉnh sửa.

Sự nhấn mạnh vào việc tạo các đối tượng PowerPoint có thể chỉnh sửa thay vì chỉ "hình ảnh của các slide" làm cho đây là một công cụ năng suất thực sự thay vì chỉ là một trình tạo khái niệm.

Claude in PowerPoint hiện đang trong research preview cho người dùng Max và Enterprise.

Claude Opus 4.6 Benchmarks

Opus 4.6 là người dẫn đầu không thể tranh cãi trong ít nhất bốn benchmark quan trọng: Terminal-Bench 2.0, Humanity's Last Exam, GDPval-AA và BrowseComp.

Terminal-Bench 2.0 là một benchmark agentic coding; Humanity's Last Exam là một bài kiểm tra lý luận phức tạp; GDPval-AA kiểm tra hiệu suất của công việc tri thức; BrowseComp đo lường khả năng của mô hình trong việc tìm thông tin khó tìm trực tuyến.

Terminal-Bench 2.0

Các mô hình Claude có danh tiếng xứng đáng là một trong những coder tốt nhất. Vì vậy, hãy bắt đầu bằng cách xem xét kết quả của benchmark Terminal-Bench 2.0.

Nếu biểu đồ có vẻ làm nổi bật Opus 4.6 so với GPT-5.2-codex – chà, điều đó chắc chắn là có chủ ý. Anthropic đã thách thức trực tiếp OpenAI trong một số lĩnh vực gần đây, và nó đang tạo ra trường hợp sử dụng doanh nghiệp.

Humanity's Last Exam

Humanity's Last Exam là một trong những benchmark nổi tiếng nhất, và đó là một benchmark mà tất cả chúng ta theo dõi chặt chẽ. Nó đo lường khả năng lý luận tổng quát của một mô hình.

Biểu đồ sau đây cho thấy sự thành công của các mô hình tiên tiến khác nhau trên benchmark HLE cả có và không có công cụ. ('Với công cụ' có nghĩa là mô hình được phép sử dụng các khả năng bên ngoài như tìm kiếm web và thực thi code.)

Biểu đồ này có thể tốt hơn dưới dạng hai biểu đồ. Điểm nhỏ đó sang một bên, điểm chính rõ ràng: Opus 4.6 là người dẫn đầu trong cả hai danh mục 'có công cụ' và 'không có công cụ'[3].

GDPval-AA

GDPval-AA (như tên gọi cho thấy) là một bài kiểm tra về những gì được coi là công việc tri thức có giá trị kinh tế. Hãy nghĩ về những thứ như chạy các mô hình tài chính hoặc thực hiện nghiên cứu.

GDPval-AA và các benchmark tương tự khác chỉ ngày càng trở nên quan trọng hơn vì chúng thực sự đo lường các loại công việc mà các doanh nghiệp thực sự đang trả tiền. Sự thành công của Opus 4.6 trên GDPval-AA cũng là một thách thức trực tiếp khác đối với bộ mô hình GPT vì OpenAI và Anthropic đang cạnh tranh cho rất nhiều khách hàng giống nhau[4].

BrowseComp

BrowseComp là benchmark cuối cùng đáng đề cập từ bản phát hành. Nó đo lường khả năng của mô hình trong việc theo dõi thông tin khó tìm trực tuyến. Một chút lịch sử: OpenAI thực sự đã phát triển BrowseComp để thể hiện khả năng tìm kiếm của các mô hình của chính họ.

Trong một động thái nhọn nồi, trong bản phát hành này, Anthropic đã liên kết trực tiếp đến thông báo tháng 4 năm 2025 của OpenAI về việc phát triển BrowseComp khi làm nổi bật rằng Opus 4.6 đứng đầu bảng xếp hạng trên đó. Đó là một động thái hơi mỉa mai, trích dẫn ngược lại benchmark của chính OpenAI như vậy[5].

Giá và tính khả dụng của Claude 4.6

Opus 4.6 có sẵn rộng rãi vào thời điểm bài viết này. Tuy nhiên, bạn không thể truy cập Opus 4.6 mà không nâng cấp lên tài khoản pro, đi kèm với các lợi ích khác, như cho phép bạn sử dụng Claude in Excel.

Giá của Claude Opus 4.6

Nếu bạn là nhà phát triển, bạn nên sử dụng claude-opus-4-6 trong Claude API. Giá không thay đổi: Vẫn là $5/$25 mỗi triệu tokens. Nếu bạn bối rối về hai con số, hãy biết rằng con số đầu tiên là những gì bạn trả để gửi tokens đến mô hình (ý tôi là prompts của bạn), và con số thứ hai là những gì bạn trả cho các tokens nó tạo ra lại (các phản hồi).

Kết luận

Claude Opus 4.6 đứng đầu bảng xếp hạng trên các benchmark quan trọng như GPDVal-AA, đo lường mô hình thực hiện tốt như thế nào trên các tác vụ quan trọng về mặt kinh tế, điều mà các khách hàng doanh nghiệp lớn quan tâm. OpenAI có thể bị lung lay bởi sự phát triển này bởi vì chỉ vài giờ trước khi phát hành Opus 4.6, họ đã công bố OpenAI Frontier, một nền tảng doanh nghiệp mới để xây dựng, triển khai và quản lý AI agents trong sản xuất.

Nói cách khác, thay vì cạnh tranh trên các benchmark mô hình, Frontier cho chúng ta thấy rằng OpenAI đang tập trung vào cơ sở hạ tầng xung quanh bộ mô hình của nó, đặc biệt là bằng cách cung cấp cho AI agents bối cảnh kinh doanh được chia sẻ, quyền và khả năng nhận và học từ phản hồi theo thời gian. Mất vị trí trên các benchmark, OpenAI đang báo hiệu rằng nền tảng của nó được định vị tốt hơn để thực sự làm cho các agents hữu ích trong một công ty.

Liệu đó là một trụ chiến lược hay một sự thừa nhận ngầm rằng họ đang thua cuộc đua mô hình là tùy thuộc vào bạn để quyết định.

Nhìn chung, chúng ta ấn tượng với những gì Anthropic cung cấp với Claude Opus 4.6, và chúng ta mong chờ được thực hành với agent teams. Nếu bạn muốn tìm hiểu thêm về gia đình Claude, hãy chắc chắn kiểm tra khóa học Introduction to Claude Models.

Nguồn: Infinity News