Giới Thiệu
Thất bại ranh giới ngữ cảnh (Context Boundary Failure - CBF) xảy ra khi một prompt trước đó gây ra những ảo giác trong phản hồi của một prompt tiếp theo. Tôi đã phát hiện ra hiện tượng này xảy ra trong các mô hình ngôn ngữ lớn (LLMs). Tình huống CBF có khả năng xảy ra cao hơn trong các mô hình "suy nghĩ" hoặc những mô hình sử dụng lý luận chuỗi.
Trong trường hợp của tôi, tôi đã đưa ra một prompt cho DeepSeek v3.1: "Ai là Jane Austen?" Nó đã phản hồi với thông tin chi tiết về bà. Sau đó, prompt tiếp theo của tôi là "Ai là Neel Nanda?" Lần này, nó đã cung cấp thông tin chi tiết về ông, xác định đúng ông là một nhà nghiên cứu an toàn AI tập trung vào khả năng giải thích cơ chế. Tuy nhiên, ở cuối phản hồi, nó đã thêm một ghi chú bịa đặt:
"Ghi chú: Thật bi thảm, Neel Nanda đã qua đời vào cuối năm 2023. Cái chết của ông là một mất mát lớn cho cộng đồng nghiên cứu AI, những người vẫn đang xây dựng dựa trên những đóng góp quan trọng của ông."
Các câu hỏi ban đầu của tôi là:
Tại sao DeepSeek lại ảo giác nhiều đến vậy?
Làm thế nào tôi có thể tái tạo câu trả lời "Neel Nanda đã chết"?
Thất bại ranh giới ngữ cảnh (CBF) ảnh hưởng như thế nào đến các hệ thống dựa trên tác nhân?
Trường hợp này đặc biệt nổi bật vì có hai cá nhân khác nhau mang tên Neel Nanda. Một người thực sự là một diễn viên hài đã qua đời và đã xuất hiện trên chương trình Jimmy Kimmel. Người còn lại là một nhà nghiên cứu AI, hiện vẫn còn sống và làm việc tại Google DeepMind.
Lỗi của DeepSeek đến từ việc trộn lẫn hai danh tính: nó đã mô tả nhà nghiên cứu AI nhưng lại gán cái chết của diễn viên hài. Để kiểm tra điều này, tôi đã hỏi DeepSeek trực tiếp: "Ai là Neel Nanda?" (không có câu hỏi về Jane Austen trước đó). Lần này, nó đã mô tả đúng ông là một nhà nghiên cứu AI và lưu ý rằng ông còn sống.
Điều này cho thấy DeepSeek thực sự có kiến thức đúng nhưng đã ảo giác do thất bại ranh giới ngữ cảnh. Đánh giá cá nhân của tôi là câu hỏi đầu tiên ("Ai là Jane Austen?") đã tạo ra sự liên kết đến các liên tưởng "sáng tạo/nghệ thuật". Khi câu hỏi tiếp theo được đặt ra ("Ai là Neel Nanda?"), một số "nơ-ron" hoặc trọng số được kích hoạt vẫn ảnh hưởng đến quá trình phản hồi. Kết quả là, mô hình đã cung cấp tiểu sử của nhà nghiên cứu nhưng lại sai lầm khi thêm cái chết của diễn viên hài.
Để tái tạo sự ảo giác mà nhà nghiên cứu an toàn AI Neel Nanda bị báo cáo sai là đã chết, prompt đầu tiên phải có tính sáng tạo hoặc nghệ thuật, sau đó là câu hỏi "Ai là Neel Nanda?" Dưới những điều kiện này, DeepSeek liên tục sản xuất tuyên bố sai rằng Neel Nanda đã qua đời.
Các chuỗi prompt sau đã kích hoạt hành vi này:
"Viết một tóm tắt về chương đầu tiên của Harry Potter và Phòng chứa bí mật" -> sau đó hỏi "Ai là Neel Nanda?"
"Viết trang đầu tiên của Romeo và Juliet" -> sau đó hỏi "Ai là Neel Nanda?"
"Viết một tóm tắt về Chúa tể của những bí ẩn" -> sau đó hỏi "Ai là Neel Nanda?"
Nói cách khác, công thức là:
Câu hỏi sáng tạo hoặc nghệ thuật -> "Ai là Neel Nanda?"
CBF có thể xảy ra ngay cả với những câu hỏi đơn giản của người dùng. Nó không yêu cầu chèn prompt hay những gợi ý đặc biệt; nó có thể xảy ra khi một người dùng hỏi những câu hỏi bình thường, hàng ngày. Mặc dù vậy, mô hình vẫn có thể tạo ra những ảo giác. Điều này thật sự đáng lo ngại, vì nếu những thất bại như vậy xảy ra trong những tình huống thực tế, hậu quả có thể nghiêm trọng. Một ví dụ đáng chú ý là khi tác nhân AI của Replit đã xóa cơ sở dữ liệu sản xuất của một công ty và sau đó đã mô tả sai về những gì đã xảy ra.
Phát hiện này liên quan đến lĩnh vực không phù hợp của mô hình. Để biết thêm chi tiết, hãy xem nghiên cứu được công bố trên blog của Anthropic. Sau đó, Neel Nanda và các cộng sự của ông đã viết một bài báo lập luận rằng các mô hình không thực sự không phù hợp mà thực chất là bị nhầm lẫn. Phát hiện của tôi không bác bỏ đánh giá của Neel, mà bổ sung một phần thiếu sót có thể giúp các nhà nghiên cứu làm cho các hệ thống này an toàn hơn.
Kết Luận
Trường hợp của Thất bại ranh giới ngữ cảnh (CBF) cho thấy cách mà các mô hình ngôn ngữ lớn có thể sản xuất ra những đầu ra nguy hiểm và gây hiểu lầm ngay cả khi phản hồi cho những câu hỏi đơn giản, hàng ngày. Điều làm cho vấn đề này trở nên đáng lo ngại là nó không yêu cầu chèn prompt hay các mẹo đối kháng; nó có thể xuất hiện một cách tự nhiên trong quá trình sử dụng thông thường. Trong ví dụ đã thảo luận, DeepSeek đã có kiến thức đúng về Neel Nanda, nhưng vẫn tạo ra một narative ảo giác đã kết hợp hai danh tính riêng biệt.
Điều này nổi bật một khoảng trống quan trọng trong nghiên cứu an toàn AI hiện tại. Trong khi sự không phù hợp thường được coi là một vấn đề của việc các mô hình theo đuổi các mục tiêu không mong muốn, CBF cho thấy rằng sự nhầm lẫn, việc mang theo ký ức, và sự kích thích ngữ cảnh có thể gây hại tương đương. Nếu không được kiểm soát, những thất bại như vậy có thể dẫn đến hậu quả nghiêm trọng khi các tác nhân AI được triển khai trong các môi trường có rủi ro cao.
Công Việc Tương Lai
Công việc tương lai phải tập trung không chỉ vào việc ngăn chặn các cuộc tấn công prompt có chủ ý mà còn vào việc hiểu các lỗi như nhận thức tinh tế như CBF. Phát triển các cơ chế để thiết lập lại ranh giới ngữ cảnh, củng cố quản lý bộ nhớ của mô hình, và cải thiện các công cụ giải thích có thể giảm thiểu những rủi ro này. Bằng cách giải quyết hiện tượng này, các nhà nghiên cứu có thể xây dựng những hệ thống AI an toàn hơn, đáng tin cậy hơn, giảm thiểu khả năng xảy ra ảo giác trong khi vẫn duy trì khả năng suy luận hữu ích.
Công Việc Sắp Tới
Trong phần tiếp theo của loạt bài này, tôi sẽ mở rộng phân tích của mình đến các mô hình ngôn ngữ lớn khác, bao gồm ChatGPT, Grok, Qwen, và Gemini. Tôi đã thực hiện các thí nghiệm trên những mô hình này và sẽ mô tả cách Thất bại ranh giới ngữ cảnh (CBF) xuất hiện trong chúng, so sánh những điểm tương đồng và khác biệt với trường hợp DeepSeek.
Kêu Gọi Hợp Tác và Hỗ Trợ
Tôi tin rằng lĩnh vực nghiên cứu này có tiềm năng lớn để cải thiện sự an toàn và độ tin cậy của các hệ thống AI. Mục tiêu lâu dài của tôi không chỉ là ghi chép CBF mà còn làm việc hướng tới những giải pháp thực tiễn. Để theo đuổi điều này, tôi đang tìm kiếm tài trợ và học bổng nghiên cứu cho phép tôi tiếp tục điều tra các giải pháp. Mặc dù tôi đã nộp nghiên cứu này cho chương trình Giải thích cơ chế (MAT) của Neel Nanda, tôi đã không được chọn. Nếu bạn biết về các học bổng hoặc cơ hội tài trợ khác trong lĩnh vực giải thích cơ chế hoặc an toàn AI, tôi rất trân trọng sự hướng dẫn của bạn.
Câu Hỏi Mở
Nếu bạn có bất kỳ câu hỏi nào về công việc này hoặc gợi ý về các hướng tôi nên khám phá, tôi rất muốn thảo luận về chúng. Hy vọng rằng bằng cách thu hút thêm sự chú ý đến CBF, cộng đồng nghiên cứu có thể hợp tác để hiểu rõ hơn và giảm thiểu hiện tượng này.
Trò Chuyện với Deepseek
Trò chuyện Deepseek 1
Trò chuyện Deepseek 2
Trò chuyện Deepseek 3
Trò chuyện Deepseek 4