Các điểm chính của nội dung:
- Nghiên cứu mới của Anthropic cho thấy lập trình viên phụ thuộc AI để học kỹ năng mới đạt điểm thấp hơn 17% (tương đương gần 2 bậc điểm) so với nhóm code thủ công trong các bài kiểm tra ngay sau khi hoàn thành task
- Những người dùng AI không làm việc nhanh hơn đáng kể - họ chỉ đổi việc phát triển kỹ năng lấy một chút tốc độ không đáng kể về mặt thống kê
- Nghiên cứu xác định 6 mô hình tương tác với AI, trong đó "AI delegation" (ủy thác hoàn toàn cho AI) và "iterative debugging" (debug lặp đi lặp lại qua AI) dẫn đến kết quả học tập kém nhất
- Các developer sử dụng AI hiệu quả nhất là những người yêu cầu AI giải thích code song song với việc tạo code, hoặc chỉ hỏi các câu hỏi khái niệm
- Kết quả này có ý nghĩa quan trọng với các tổ chức: năng suất tăng ngắn hạn có thể đi kèm với việc làm suy yếu khả năng giám sát và bảo trì code trong dài hạn
Năng suất tăng nhưng hiểu biết giảm: nghịch lý của AI Coding
Nghiên cứu đăng trên arXiv vào ngày 29/1/2026 cho thấy một thực tế đáng lo ngại. Khi các developer sử dụng AI để học một thư viện Python mới (Trio - library về lập trình bất đồng bộ), họ hoàn thành task nhanh hơn khoảng 2 phút so với nhóm code thủ công. Tuy nhiên, khoảng chênh lệch này không đủ lớn để được coi là có ý nghĩa thống kê.
Điều đáng chú ý hơn nhiều nằm ở kết quả bài kiểm tra sau khi hoàn thành: nhóm sử dụng AI đạt trung bình 50% điểm, trong khi nhóm code tay đạt 67% - chênh lệch 17% tương đương gần hai bậc điểm theo thang chữ cái (Cohen's d=0.738, p=0.01). Nghĩa là, những developer dùng AI đã hoàn thành code nhanh hơn một chút, nhưng họ hiểu ít hơn đáng kể về những gì họ vừa viết.
Các nhà nghiên cứu của Anthropic phát hiện rằng khoảng cách lớn nhất giữa hai nhóm nằm ở câu hỏi debugging - kỹ năng nhận diện và chẩn đoán lỗi trong code. Đây là một tín hiệu đáng báo động, bởi khả năng debug chính là điều giúp con người phát hiện khi AI tạo ra code sai và hiểu tại sao nó thất bại.
Thiết kế nghiên cứu: mô phỏng quá trình học thực tế
Anthropic đã tiến hành một thử nghiệm ngẫu nhiên có đối chứng (randomized controlled trial) với 52 kỹ sư phần mềm, phần lớn là junior developers. Tất cả đều sử dụng Python ít nhất một lần mỗi tuần trong hơn một năm, đã quen thuộc với AI coding assistant, nhưng chưa từng làm việc với Trio.
Nghiên cứu được chia thành ba phần: khởi động, nhiệm vụ chính (code hai tính năng khác nhau sử dụng Trio), và bài kiểm tra. Các nhà nghiên cứu đã thông báo trước rằng sẽ có quiz sau khi hoàn thành, nhưng vẫn khuyến khích người tham gia làm việc nhanh nhất có thể.
Nhiệm vụ được thiết kế để mô phỏng cách một developer học công cụ mới qua tutorial tự hướng dẫn. Mỗi người nhận được mô tả bài toán, starter code và giải thích ngắn gọn về các khái niệm Trio cần thiết. Nền tảng coding trực tuyến có AI assistant trong thanh bên, có thể truy cập code của người dùng và tạo ra code đúng khi được yêu cầu.
Đội ngũ nghiên cứu đã dựa trên các nghiên cứu về giáo dục khoa học máy tính để xác định bốn loại câu hỏi thường dùng đánh giá kỹ năng coding:
Debugging - khả năng nhận diện và chẩn đoán lỗi, quan trọng để phát hiện khi AI tạo code sai và hiểu tại sao nó thất bại.
Code reading - khả năng đọc và hiểu code làm gì, giúp con người xác minh code do AI viết trước khi triển khai.
Code writing - khả năng viết hoặc chọn cách tiếp cận đúng khi viết code. Việc nhớ cú pháp sẽ ít quan trọng hơn trong tương lai, nhưng thiết kế hệ thống cấp cao vẫn cần thiết.
Conceptual - khả năng hiểu các nguyên tắc cốt lõi đằng sau công cụ và thư viện, quan trọng để đánh giá xem code do AI tạo có sử dụng các design pattern phù hợp hay không.
Đánh giá tập trung nhiều nhất vào debugging, code reading và câu hỏi khái niệm - những kỹ năng quan trọng nhất để giám sát code ngày càng được AI tạo ra nhiều hơn.
Sáu mô hình tương tác: không phải tất cả cách dùng AI đều giống nhau
Một trong những phát hiện quan trọng nhất của nghiên cứu là cách con người tương tác với AI quyết định việc họ học được bao nhiêu. Đội ngũ Anthropic đã xác định sáu mô hình tương tác riêng biệt, chia thành hai nhóm chính.Các mô hình điểm thấp (dưới 40%)
Nhóm này đặc trưng bởi sự phụ thuộc nặng nề vào AI, ít tư duy độc lập và nhiều "cognitive offloading" - việc chuyển giao quá trình suy nghĩ cho AI.AI Delegation (4 người tham gia) - những người này hoàn toàn dựa vào AI để viết code và hoàn thành task. Họ làm xong nhanh nhất và gặp rất ít hoặc không có lỗi trong quá trình làm việc. Tuy nhiên, họ cũng có điểm quiz thấp nhất.
Progressive AI Reliance (4 người) - bắt đầu bằng việc hỏi một hai câu hỏi nhưng cuối cùng ủy thác toàn bộ việc viết code cho AI. Họ điểm kém chủ yếu vì không làm chủ bất kỳ khái niệm nào trong task thứ hai.
Iterative AI Debugging (4 người) - dựa vào AI để debug hoặc xác minh code của họ. Họ hỏi nhiều câu hỏi hơn, nhưng dựa vào assistant để giải quyết vấn đề thay vì làm rõ sự hiểu biết của chính mình. Kết quả là điểm kém và cũng chậm hơn trong việc hoàn thành hai task.
Các mô hình điểm cao (từ 65% trở lên)
Nhóm này sử dụng AI vừa để tạo code vừa để truy vấn khái niệm, giữ được sự tham gia nhận thức trong suốt quá trình.Generation-then-Comprehension (2 người) - tạo code trước, sau đó hỏi AI các câu hỏi tiếp theo để cải thiện hiểu biết. Cách tiếp cận này trông gần giống AI Delegation, ngoại trừ việc họ sử dụng AI để kiểm tra sự hiểu biết của chính mình sau khi code được tạo ra.
Hybrid Code-Explanation (3 người) - soạn các truy vấn kết hợp, trong đó yêu cầu AI tạo code cùng với giải thích về code đó. Việc đọc và hiểu các giải thích tốn nhiều thời gian hơn, nhưng giúp ích cho sự lĩnh hội.
Conceptual Inquiry (7 người) - chỉ hỏi các câu hỏi khái niệm và dựa vào sự hiểu biết được cải thiện để hoàn thành task. Mặc dù nhóm này gặp nhiều lỗi nhất, họ cũng tự giải quyết chúng một cách độc lập. Trung bình, chế độ này nhanh nhất trong các mô hình điểm cao và nhanh thứ hai nhìn chung, sau AI Delegation.
Một phát hiện bất ngờ là mức độ thời gian người tham gia dành cho việc tương tác với AI assistant. Một số người mất tới 11 phút (30% tổng thời gian) để soạn tới 15 truy vấn. Điều này giải thích tại sao, trung bình, những người dùng AI hoàn thành nhanh hơn nhưng sự cải thiện năng suất không có ý nghĩa thống kê.
Ý nghĩa với người học: giữ bộ não hoạt động khi AI đánh máy
Những người tham gia giữ được kiến thức nhiều nhất là những người từ chối để AI làm thay việc suy nghĩ. Nếu bạn đang dùng AI để nâng cao kỹ năng, mục tiêu là giữ cho động cơ nhận thức của bạn chạy ngay cả khi AI đánh cú pháp.Dựa trên các mô hình tương tác điểm cao của nghiên cứu, đây là cách cấu trúc phiên học của bạn:
Tránh AI Delegation hoàn toàn. Điểm giữ lại thông tin thấp nhất đến từ những người chỉ đơn giản yêu cầu code và dán nó mà không xem xét. Nếu bạn coi AI như máy bán hàng tự động cho code, bạn đang bỏ qua các mạch thần kinh cần thiết cho sự thành thạo.
Yêu cầu output kết hợp. Một trong những mô hình hiệu quả nhất liên quan đến việc yêu cầu AI tạo code và giải thích logic cơ bản trong cùng một prompt. Điều này buộc bạn phải đọc và xử lý output trước khi sử dụng nó.
Hỏi các câu hỏi khái niệm tiếp theo. Nếu bạn yêu cầu AI viết script, hãy theo sau ngay lập tức bằng một câu hỏi khái niệm như "Tại sao bạn sử dụng async context manager ở đây thay vì vòng lặp tiêu chuẩn?"
Đừng debug mù quáng. Nghiên cứu phát hiện rằng việc dán đi dán lại thông báo lỗi vào chat cho đến khi code hoạt động là một cái bẫy. Thay vào đó, hãy yêu cầu AI giải thích nguyên nhân của lỗi trước khi yêu cầu sửa.
Bài học cho giáo viên: đảo ngược bài tập và chấm điểm Chat Log
Một sinh viên giờ đây có thể nộp bài hoàn hảo (giống nhóm AI Delegation) nhưng trượt bài kiểm tra khái niệm. Dưới đây là các cách cụ thể để điều chỉnh chương trình giảng dạy dựa trên phát hiện cụ thể của nghiên cứu:Đảo ngược bài tập. Nghiên cứu cho thấy những người phụ thuộc AI trải qua sự suy giảm lớn nhất trong kỹ năng debugging. Thay vì yêu cầu sinh viên viết code từ đầu (mà họ sẽ chỉ ủy thác cho AI), hãy cho họ một script AI đã viết sẵn, hoạt động tốt nhưng chứa các lỗi logic tinh vi hoặc lỗ hổng bảo mật. Chấm điểm dựa trên khả năng tìm, sửa và giải thích các bug này.
Chấm điểm chat log. Đối với bất kỳ bài tập có hỗ trợ AI nào, sinh viên có thể nộp log cuộc trò chuyện của họ. Trao điểm cụ thể cho các prompt hỏi "tại sao" hoặc "như thế nào", và trừ điểm cho iterative debugging - dán mù quáng các thông báo lỗi.
Yêu cầu comment code. Để buộc mô hình "generation-then-comprehension" (sinh viên phải kiểm tra output của AI), yêu cầu comment chi tiết cho mỗi dòng hoặc khối code có ý nghĩa do AI tạo ra.
Sử dụng quiz khái niệm. Nghiên cứu sử dụng quiz sau task để phơi bày khoảng cách học tập. Sử dụng các quiz về cú pháp và khái niệm ngay sau một dự án coding. Một sinh viên ship các tính năng phức tạp nhưng thất bại trong các câu hỏi khái niệm cơ bản là một cờ đỏ cho việc phụ thuộc AI quá mức.
Lời cảnh báo cho Engineering Leader: Velocity giả và vay mượn tương lai
Đối với các engineering manager và CTO, nghiên cứu này phục vụ như một lời cảnh báo chống lại việc đo lường thành công của AI chỉ bằng tốc độ. Nếu các junior engineer của bạn đang sử dụng AI để đóng ticket nhanh hơn nhưng thất bại trong việc học các hệ thống cơ bản, bạn thực sự đang vay mượn chống lại lãnh đạo kỹ thuật tương lai của mình.Cẩn thận với velocity giả. Nghiên cứu phát hiện rằng trong khi nhóm AI Delegation nhanh nhất, họ cũng có sự lĩnh hội thấp nhất. Hãy cảnh giác với các chỉ số thưởng cho tốc độ thuần túy như khối lượng ticket, vì chúng có thể khuyến khích chính xác các hành vi cản trở tăng trưởng kỹ năng.
Kiểm tra quy trình. Nghiên cứu cho thấy code đúng không ngụ ý sự hiểu biết. Yêu cầu junior engineer giải thích tại sao một pattern cụ thể được sử dụng hoặc đi qua logic của một khối do AI tạo ra.
Khuyến khích workflow kết hợp. Khuyến khích các team của bạn sử dụng các công cụ AI giải thích code thay vì chỉ tự động hoàn thành nó. Ngăn chặn mô hình AI delegation nơi công cụ hoạt động như một hộp đen.
Định nghĩa lại kỹ năng tuyển dụng và thăng tiến. Khi cú pháp trở nên hàng hóa hóa, giá trị của một developer chuyển sang kiến trúc cấp cao, thiết kế hệ thống và debugging. Các tiêu chí tuyển dụng và thăng tiến của bạn nên phát triển để cân nhắc các kỹ năng này nặng hơn tốc độ coding máy móc.
Những câu hỏi còn mở và hướng nghiên cứu tiếp theo
Đội ngũ Anthropic thừa nhận rằng đây chỉ là bước đầu tiên trong việc khám phá cách cộng tác giữa con người và AI ảnh hưởng đến trải nghiệm của người lao động. Mẫu nghiên cứu tương đối nhỏ (52 người), và đánh giá đo lường sự lĩnh hội ngay sau task coding. Liệu hiệu suất quiz tức thì có dự đoán sự phát triển kỹ năng dài hạn hay không là một câu hỏi quan trọng mà nghiên cứu này không giải quyết.Vẫn còn nhiều câu hỏi chưa được trả lời mà các nhà nghiên cứu hy vọng các nghiên cứu tương lai sẽ điều tra: tác động của AI đối với các task ngoài coding, liệu hiệu ứng này có tan biến theo thời gian khi các kỹ sư phát triển sự thông thạo lớn hơn hay không, và liệu sự hỗ trợ của AI có khác với sự hỗ trợ của con người trong khi học hay không.
Tái định nghĩa năng suất trong thời đại AI
Các nghiên cứu trước đây đã tìm thấy kết quả trái chiều về việc AI giúp hay cản trở năng suất coding. Chính nghiên cứu quan sát của Anthropic trước đó đã phát hiện rằng AI có thể giảm thời gian hoàn thành một số task công việc xuống 80% - một kết quả có vẻ mâu thuẫn với những phát hiện được trình bày ở đây.Nhưng hai nghiên cứu hỏi các câu hỏi khác nhau và sử dụng các phương pháp khác nhau. Công việc quan sát trước đó đo năng suất trên các task mà người tham gia đã có kỹ năng liên quan, trong khi nghiên cứu này xem xét điều gì xảy ra khi mọi người đang học một điều gì đó mới. Có khả năng AI vừa tăng tốc năng suất trên các kỹ năng được phát triển tốt vừa cản trở việc thu nhận các kỹ năng mới, mặc dù cần nhiều nghiên cứu hơn để hiểu mối quan hệ này.
Cuối cùng, để phù hợp với sự phát triển kỹ năng trong sự hiện diện của AI, chúng ta cần một cái nhìn mở rộng hơn về tác động của AI đối với người lao động. Trong nơi làm việc được tăng cường bởi AI, các khoản lợi năng suất quan trọng, nhưng sự phát triển dài hạn của chuyên môn mà những khoản lợi đó phụ thuộc vào cũng quan trọng.
Nguồn: Infinity News