GPT-5.3 Codex: Từ trợ lý lập trình đến AI agent đa năng

Tóm tắt các điểm chính

GPT-5.3-Codex hợp nhất GPT-5.2 và GPT-5.2-Codex thành một agent đa năng, xử lý cả công việc lập trình lẫn tri thức
Tăng gần gấp đôi điểm số trên OSWorld-Verified (64,7%) và dẫn đầu Terminal-Bench 2.0 với 75,1%, vượt Claude Opus 4.6
Tính năng cộng tác thời gian thực cho phép điều khiển và can thiệp giữa chừng mà không làm gián đoạn quy trình
Nhanh hơn 25% nhờ cải tiến cơ sở hạ tầng, được tối ưu hóa đặc biệt cho phần cứng NVIDIA GB200 NVL72
Mô hình đầu tiên được phân loại "khả năng cao" về phát hiện lỗ hổng bảo mật theo Preparedness Framework của OpenAI

Trong thể thao, người ta gọi đây là một pha phản công. Chỉ 30 phút sau khi Anthropic công bố mô hình Claude Opus 4.6 mới, OpenAI cũng đã tung ra một bản cập nhật lớn[1].

Mô hình GPT-5.3-Codex mới của họ thay thế cả GPT-5.2 và GPT-5.2-Codex, hai phiên bản đều được phát hành vào tháng 12 năm 2025. Trọng tâm chính là kết hợp điểm mạnh của hai mô hình cũ này để cung cấp trải nghiệm agent tổng quát hơn. Kết hợp với ứng dụng Codex dành cho macOS được giới thiệu chỉ vài ngày trước đó, nó còn cho phép cộng tác tương tác, thời gian thực mà không có nguy cơ mất ngữ cảnh.

Trong bài viết này, chúng ta sẽ tìm hiểu tất cả các tính năng mới, xem xét các benchmark và xem GPT-5.3-Codex hoạt động như thế nào trong một vài ví dụ thực tế. Chúng ta cũng sẽ cố gắng đánh giá hiệu suất thực tế của mô hình và so sánh nó với Claude Opus 4.6 của Anthropic.

GPT-5.3 Codex là gì?

GPT-5.3-Codex là mô hình ngôn ngữ lớn mới nhất của OpenAI, kế thừa GPT-5.2 và GPT-5.2-Codex. Trái ngược với hai mô hình cũ này, phiên bản mới áp dụng một cách tiếp cận hoàn toàn khác.

Trong khi ở các mô hình GPT-5.2 có sự phân biệt rõ ràng giữa coding agent và reasoning LLM, GPT-5.3-Codex đã hợp nhất chúng và được giới thiệu như một agent đa năng xuất sắc ở cả hai khía cạnh. Mô hình này không chỉ hướng đến việc viết hàm mà còn hiểu được cách thức làm việc xung quanh code - từ cập nhật phiếu Jira, viết tài liệu đến quản lý quy trình triển khai.

Về hiệu năng, mô hình mới gần như tăng gấp đôi điểm số trong benchmark OSWorld-Verified và thiết lập kỷ lục mới cho cả SWE-Bench Pro và Terminal-Bench. Ngoài ra, OpenAI tập trung vào hiệu suất và tuyên bố rằng mô hình mới nhanh hơn 25% nhờ những cải tiến về cơ sở hạ tầng và inference stack.

Một điểm đáng chú ý là OpenAI dường như đã sử dụng GPT-5.3-Codex để chủ động gỡ lỗi và quản lý sản phẩm của chính mình. Trong khi các mô hình tiên tiến khác như Gemini 3 tự tạo dữ liệu huấn luyện, Codex đã tiến thêm một bước bằng cách đóng vai trò là kỹ sư đảm bảo độ tin cậy của hệ thống (site reliability engineer) - giám sát các lần chạy huấn luyện của chính nó, chẩn đoán lỗi cơ sở hạ tầng và viết script để tự động mở rộng quy mô cụm GPU trong quá trình khởi chạy.

Các tính năng chính của GPT-5.3 Codex

Phiên bản GPT-5.3-Codex tập trung vào việc hỗ trợ các quy trình làm việc tổng quát của agent. Hãy cùng xem xét một số tính năng chính.

Agent công việc đa năng

Trái ngược với phiên bản tiền nhiệm, GPT-5.3-Codex được thiết kế để trở thành một agent công việc đa năng. Mục tiêu là vượt ra ngoài phạm vi IDE, với mô hình này xử lý hiệu quả cả "công việc tri thức" lẫn "công việc lập trình".

Mô hình mới được xây dựng để hỗ trợ mọi công việc trong suốt vòng đời phát triển phần mềm. Về mặt kỹ thuật và vận hành, nó xử lý các công việc phức tạp như gỡ lỗi, kiểm thử, triển khai và giám sát hệ thống liên tục. Về sản phẩm và lập kế hoạch, nó hỗ trợ khía cạnh chiến lược của quá trình phát triển bằng cách viết tài liệu yêu cầu sản phẩm và hỗ trợ nghiên cứu người dùng. Còn về phân tích và truyền đạt, nó quản lý các "kỹ năng mềm" trong phát triển phần mềm, bao gồm chỉnh sửa nội dung và theo dõi các chỉ số dự án.

Tính linh hoạt này cho phép GPT-5.3-Codex thực hiện các quy trình làm việc từ đầu đến cuối. Ví dụ, mô hình có thể viết một truy vấn SQL, lấy dữ liệu, và sau đó tạo báo cáo PDF hoặc bản trình bày dựa trên dữ liệu đó thông qua các lời gọi công cụ.

Cộng tác tương tác thời gian thực

Tính năng cộng tác tương tác là lợi thế lớn nhất của ứng dụng Codex và có tiềm năng tạo ra sự khác biệt đáng kể nhất trong công việc hàng ngày. Nó giúp bạn luôn nắm bắt được tiến trình và cho phép bạn can thiệp trong thời gian thực.

Về cơ bản, GPT-5.3-Codex liên tục cho bạn biết nó đang làm gì và cung cấp cơ hội để bạn điều chỉnh hướng đi đúng đắn rất lâu trước khi nhận được kết quả cuối cùng. Thay vì chờ đợi, bạn có thể đặt câu hỏi, đưa ra phản hồi hoặc bổ sung ngữ cảnh cho yêu cầu ban đầu. Sau đó, mô hình sẽ phản hồi lại và thích ứng ngay trong quá trình xử lý.

Hiện tại, ứng dụng Codex chỉ khả dụng cho macOS. Bạn có thể bật tính năng điều khiển (steering) trong cài đặt ứng dụng tại mục General > Follow-up behavior.

Trọng tâm an ninh mạng

OpenAI cũng chuyển trọng tâm sang an ninh mạng, đặc biệt là phát hiện lỗ hổng bảo mật. GPT-5.3-Codex là mô hình đầu tiên được phân loại "khả năng cao" (high capability) theo Preparedness Framework của OpenAI, có nghĩa là nó được huấn luyện đặc biệt để xác định và khắc phục các lỗ hổng phần mềm.

Để cân bằng sức mạnh này với an toàn, OpenAI đã triển khai một defensive stack được thiết kế để ngăn chặn việc lạm dụng, chẳng hạn như tự động hóa các cuộc tấn công mạng. Hệ thống này bao gồm đào tạo an toàn, giám sát thời gian thực và Trusted Access for Cyber - một chương trình thí điểm giới hạn quyền truy cập vào các khả năng nâng cao chỉ dành cho các nhà nghiên cứu đã được xác minh.

Hơn nữa, OpenAI đang đầu tư mạnh vào hệ sinh thái, ra mắt security agent Aardvark (hiện đang trong giai đoạn beta) và cam kết 10 triệu đô la tín dụng API để hỗ trợ những người duy trì mã nguồn mở bằng các công cụ quét mã miễn phí.

GPT-5.3 Codex Benchmarks

Mặc dù chúng ta vẫn đang chờ đợi kết quả được xác minh từ nhiều benchmark hiện đại nhất, thông báo này đã nêu bật điểm số ở một số lĩnh vực: quy trình làm việc của agent (OSWorld-Verified), lập trình tổng quát (SWE-Bench Pro), lập trình agent (Terminal-Bench 2.0) và lý luận (GDPval).

Quy trình làm việc của agent

OSWorld-Verified là tiêu chuẩn vàng để kiểm tra khả năng vận hành máy tính như con người của AI. Nó vượt xa khả năng xử lý văn bản đơn giản bằng cách đặt AI vào một máy ảo thực sự và yêu cầu nó hoàn thành các nhiệm vụ mở bằng chuột, bàn phím và các ứng dụng GUI (ví dụ: "Mở LibreOffice, tạo bảng tính với dữ liệu này và lưu nó dưới dạng PDF").

GPT-5.3-Codex đạt 64,7% trong benchmark OSWorld-Verified[2]. Đây là mức tăng đáng kinh ngạc 26,5 điểm phần trăm so với phiên bản tiền nhiệm GPT-5.2-Codex. Kết quả ấn tượng này phản ánh sự tập trung của OpenAI vào việc tạo ra trải nghiệm tổng quát hơn, mang tính agent hơn cho GPT-5.3-Codex, được tối ưu hóa để đạt hiệu suất tốt trên nhiều tác vụ và lĩnh vực khác nhau.

Lập trình

Phát triển phần mềm là trọng tâm ban đầu của các mô hình Codex. Trên SWE-bench Pro (Public), GPT-5.3-Codex đạt 56,8%, chỉ tăng nhẹ so với 56,4% của GPT-5.2-Codex. Sự cải thiện nhỏ này có thể là sự đánh đổi trong việc tối ưu hóa các kỹ năng agent.

Về phía lập trình agent, chúng ta có thể thấy một bước nhảy vọt khá đáng kể. GPT-5.3-Codex đạt 75,1% trên Terminal-Bench 2.0, tăng đáng kể so với 64% của GPT-5.2-Codex[3]. Điều thú vị hơn nữa là nó đã vượt qua kết quả của Claude Opus 4.6, vốn tuyên bố dẫn đầu chỉ nửa giờ trước đó, với cách biệt hơn 5 điểm phần trăm.

Lý luận

Về khả năng suy luận của mô hình, thực sự không có gì đáng chú ý. GPT-5.3-Codex đạt kết quả chính xác giống như GPT-5.2 trên GDPval (70,9%)[4]. Có thể hiểu điều này theo cách là khả năng suy luận tốt của GPT-5.2 đã được tích hợp vào mô hình Codex, mà không tập trung vào sự cải thiện đáng kể trong lĩnh vực này.

Làm thế nào để truy cập GPT-5.3 Codex?

OpenAI thông báo rằng GPT-5.3-Codex hiện đã có sẵn cho tất cả các gói ChatGPT trả phí trong ứng dụng, từ CLI (Command Line Interface), thông qua tiện ích mở rộng IDE và trên web.

Mô hình này hiện chưa có sẵn trên API của OpenAI, nhưng quyền truy cập API sẽ sớm được cung cấp. Hiện vẫn chưa có thông tin chi tiết về giá mỗi token.

GPT-5.3 Codex so với Claude Opus 4.6

Có thể nói, đối thủ cạnh tranh lớn nhất của GPT-5.3-Codex trong lĩnh vực các agent tập trung vào phát triển phần mềm chính là Claude Opus 4.6. Hãy cùng xem hai agent này so sánh với nhau như thế nào.

Cách tiếp cận chung và phong cách agent

Cách tiếp cận của OpenAI và Anthropic không hoàn toàn khác nhau, nhưng có một số điểm khác biệt cần lưu ý. GPT-5.3-Codex được định vị như một builder khá tự động, được tối ưu hóa về tốc độ (nhanh hơn 25%) và các vòng lặp "tự sửa lỗi" để hoàn thành các nhiệm vụ kỹ thuật mà không cần sự trợ giúp của con người.

Mặt khác, Claude Opus 4.6 được thiết kế để tư duy sâu sắc, với context window khổng lồ (1 triệu tokens) và "adaptive thought" giúp nó xử lý các dự án phức tạp, rắc rối từ trước đến nay.

Phong cách agent của cả hai mô hình đều tập trung vào tương tác, mặc dù theo những cách hơi khác nhau. Khả năng "steerability" (điều khiển được) của GPT-5.3-Codex cho phép người dùng gián đoạn tác vụ giữa chừng để thay đổi hướng (ví dụ: "Chờ đã, hãy sử dụng API v2 thay thế") mà không làm gián đoạn quy trình làm việc.

Claude Opus 4.6 hoạt động giống như một đối tác cấp cao mà bạn có thể trò chuyện cùng, cung cấp các thiết lập "High/Medium/Low" effort để quản lý chi phí và độ sâu.

Trong khi GPT-5.3-Codex được tối ưu hóa đặc biệt cho phần cứng NVIDIA GB200 NVL72 để giảm độ trễ trong các vòng lặp agent, Claude Opus 4.6 tập trung vào các tối ưu hóa phía phần mềm như conversation compaction để quản lý lịch sử dài một cách hiệu quả.

Benchmark và hiệu suất

Về mặt benchmark, rất khó để so sánh hai mô hình này. Chỉ có một benchmark duy nhất mà chúng ta có điểm số cho cả hai là Terminal-Bench 2.0, trong đó GPT-5.3-Codex (75,1%) vượt trội hơn Claude Opus 4.6 (69,9%).

Điều này cho thấy rằng trong khi Claude có thể là một người suy nghĩ sâu sắc hơn, thì GPT-5.3-Codex lại là người vận hành "thực chiến" giỏi hơn trong việc thực hiện các tác vụ phát triển trong môi trường thực tế, chẳng hạn như điều hướng hệ thống file, quản lý các dependency hoặc chạy các build.

Ngoài ra, rất khó để so sánh hai công ty này vì họ đã đưa ra những lựa chọn khác nhau về các benchmark để đưa vào ghi chú phát hành của mình. Sự khác biệt này có thể phản ánh một lựa chọn chiến lược của cả hai phòng thí nghiệm nhằm làm nổi bật những điểm mạnh cụ thể của họ đồng thời tránh những so sánh trực tiếp mà họ có thể không giành được vị trí số 1.

Các trường hợp sử dụng GPT-5.3 Codex

Các tính năng chính mà chúng ta đã giới thiệu trước đó khiến GPT-5.3-Codex trở nên hoàn hảo cho một số trường hợp sử dụng nhất định.

Đầu tiên là hạ tầng tự phục hồi (self-healing infrastructure) - một agent giám sát nhật ký, xác định sự cố, sửa lỗi code và triển khai lại mà không cần sự can thiệp của con người. Tiếp theo là di chuyển hệ thống legacy, chuyển đổi từ các ngôn ngữ cũ như COBOL sang các công nghệ hiện đại, trong đó agent tổng quát có thể viết lại tài liệu đồng thời. Cuối cùng là an ninh mạng - đây là mô hình đầu tiên được đánh giá "khả năng cao" cho các tác vụ bảo mật, rất phù hợp cho việc kiểm thử xâm nhập tự động và vá lỗi.

Kết luận

GPT-5.3-Codex có khả năng lập trình tốt như GPT-5.2-Codex, khả năng tư duy cũng xuất sắc như GPT-5.2, nhưng còn hơn thế nữa. Với GPT-5.3-Codex, OpenAI đã tiến một bước xa hơn so với các mô hình riêng lẻ và hướng tới một agent đa năng có khả năng hoạt động hiệu quả. Mặc dù vẫn còn nhiều đánh giá cần được thực hiện, nhưng kết quả benchmark ban đầu trông rất hứa hẹn.

Tính năng cộng tác tương tác rất tuyệt vời, nhưng hiện tại, nó chỉ giới hạn ở ứng dụng Codex trên macOS. Người dùng cũng vẫn cần chờ đợi quyền truy cập API.

Được tối ưu hóa cho tốc độ và khả năng tạo tự động, GPT-5.3-Codex sử dụng cách tiếp cận khác so với Claude Opus 4.6 và cho hiệu năng tốt hơn trên Terminal-Bench 2.0, nhưng sự khác biệt chi tiết về hiệu năng vẫn khó đánh giá, vì cả hai mô hình đều mới ra mắt. Thời gian sẽ cho thấy bức tranh toàn diện hơn về sự so sánh này.

Nguồn: Infinity News