Giới thiệu

Bài viết này được viết vào tháng 4 năm 2023, một số phần có thể đã lỗi thời. Tuy nhiên, hầu hết các ý tưởng chính về Mô Hình Ngôn Ngữ Lớn (LLM) vẫn còn rất hữu ích đến hôm nay. Trong bài viết này, chúng ta sẽ tìm hiểu về LLM, cách mà nó thực hiện học tập trong ngữ cảnh, những thách thức và tương lai phía trước.

LLM có phải là "Mô Hình Cơ Bản" không?

Câu trả lời ngắn gọn: Có, nhưng có một số lưu ý.

Câu trả lời dài hơn: Hãy cùng tìm hiểu tại sao một mô hình được đào tạo để dự đoán token tiếp theo có thể cảm thấy như một động cơ đa năng cho các tác vụ NLP.

Tóm tắt nhanh: Mô Hình Ngôn Ngữ thực sự làm gì?

Thu thập một lượng lớn văn bản.
Hiển thị cho mô hình ngôn ngữ.
Đào tạo để dự đoán token tiếp theo (từ hoặc tiểu từ).
Cung cấp đầu ra của mô hình trở lại vào đầu vào (tự hồi tiếp) để tạo ra các chuỗi dài.

Nói cách khác, một Mô Hình Ngôn Ngữ dự đoán token tiếp theo; trải dài qua nhiều bước, nó viết. Vậy, liệu việc làm cho mô hình lớn có biến nó thành một mô hình cơ bản cho NLP—một cơ sở mà bạn có thể thích ứng cho nhiều nhiệm vụ phía sau? Câu trả lời chính xác là phức tạp, nhưng trên thực tế: LLM ngày nay hoạt động cực kỳ tốt và là điều gần nhất mà chúng ta có được. Những phương pháp tốt hơn có thể sẽ xuất hiện; nhưng hiện tại, LLM là những người dẫn đầu.

Tại sao “dự đoán token tiếp theo” lại có thể trông giống như trí thông minh tổng quát?

Hai lý do lớn:

1) Độ rộng của dữ liệu

Một sinh viên đã đọc nhiều sách sẽ viết tốt hơn một sinh viên chưa đọc nhiều. Tương tự với LLM: trong khi “kiến thức” theo nghĩa triết học có thể gây tranh cãi, việc đào tạo qua các văn bản đa dạng và quy mô lớn giúp mô hình tiếp xúc với các mẫu, sự thật, phong cách và cấu trúc từ nhiều lĩnh vực khác nhau. Độ rộng này khiến cho việc dự đoán token tiếp theo trở nên mạnh mẽ hơn trong nhiều tác vụ.

Hãy nghĩ theo cách này: một người đã đọc rất nhiều tiểu thuyết trinh thám có thể giả lập thể loại này tốt—ngay cả khi họ chưa bao giờ giải quyết một vụ án.

2) Sức mạnh của Transformers

Không chỉ là dữ liệu. Transformers học các mối quan hệ thống kê giữa các token một cách hiệu quả. Họ không xây dựng một đồ thị kiến thức rõ ràng với các thực thể và các cạnh, nhưng tự chú ý cho phép mô hình kết nối các phần xa của văn bản và duy trì sự liên kết qua các khoảng thời gian dài. Multi-head self-attention là lý do khiến một LLM có thể giữ một mạch lạc thay vì bị lạc giữa các đoạn văn. (Khác với một số bài blog sẽ không được nêu tên…)

Nếu LLM là một loại nền tảng, chúng ta sử dụng chúng như thế nào?

Tinh chỉnh (Fine-tuning)

Giả định rằng LLM đã “biết” ngôn ngữ chung. Bạn sau đó tinh chỉnh nó cho nhiệm vụ của bạn (cảm xúc, nhận diện thực thể, phân loại, v.v.) với dữ liệu được gán nhãn.

Một cách khác để nhìn nhận: sử dụng LLM như một điểm khởi đầu thay vì bắt đầu từ các trọng số ngẫu nhiên. Bắt đầu gần một giải pháp tốt có thể hội tụ nhanh hơn và đáng tin cậy hơn.

Kiểm tra thực tế: Khi các mô hình phát triển, quá trình tinh chỉnh hoàn toàn trở nên chậm và tốn kém. Đó là lý do tại sao chúng ta thường tìm kiếm điều tiếp theo…

Học Tập Trong Ngữ Cảnh (ICL): không cần học (zero-shot) & học ít (few-shot)

Thay vì thay đổi mô hình, thay đổi đầu vào tại thời điểm suy diễn.

Không cần học (Zero-shot): “Thủ đô của Hàn Quốc là gì?”
Học ít (Few-shot): Cung cấp các mẫu trước:

Mỹ -> Washington, D.C.

Nhật Bản -> Tokyo

Trung Quốc -> Bắc Kinh

Hàn Quốc -> ?

Mô hình không “trả lời một câu hỏi” nhiều như là tiếp tục mẫu trong văn bản mà bạn đã cung cấp. Với các mô hình cơ bản mạnh mẽ, few-shot—và thường là zero-shot—đã có thể hữu ích mà không cần phải huấn luyện lại.

Tinh chỉnh vẫn có thể thắng về độ chính xác cho một số nhiệm vụ. Nhưng cho nhiều trường hợp thực tiễn, ICL cho bạn ‘đủ tốt’ mà không tốn kém chi phí huấn luyện.

Kỹ Thuật Gợi Nhắc (Prompt Engineering)

LLM là những người hoàn thiện mẫu. Do đó, cách bạn diễn đạt đầu vào rất quan trọng.

Tệ hơn: Thủ đô của Hàn Quốc là gì?
Tốt hơn: Bạn là một hệ thống trả lời các câu hỏi về thủ đô thế giới một cách ngắn gọn.

Câu hỏi: Thủ đô của Hàn Quốc là gì?

Trả lời:

Gợi ý thứ hai cung cấp vai trò, định dạng, và ý định, điều này định hướng hoàn thiện về phía bạn muốn.

LLM Đối Thoại

Các LM cơ bản không phải là chatbot. Nhưng chúng hành động như một cái nếu:

1) Chúng thấy nhiều dữ liệu hội thoại trong quá trình tiền huấn luyện hoặc tinh chỉnh, và

2) Chúng ta bọc đầu vào của người dùng bằng một gợi ý theo kiểu hội thoại trước khi gửi cho mô hình.

Làm thế nào để duy trì ngữ cảnh? Chúng ta giữ một bản sao liên tục:

Người dùng: Thủ đô của Hàn Quốc là gì?

Trợ lý: Seoul.

Người dùng: Và Nhật Bản?

Mô hình nhận được toàn bộ lịch sử (tối đa cửa sổ ngữ cảnh, đo bằng token), sau đó tiếp tục. Đó là tất cả—không có phép màu, chỉ là việc xây dựng gợi ý cẩn thận và cắt ngắn khi lịch sử trở nên quá dài.

Điều Chỉnh với RLHF

Nếu để một mình, một LM cơ bản sẽ vui vẻ sản xuất bất kỳ điều gì mà nó nghĩ là “phù hợp” với phân phối token tiếp theo—bao gồm văn bản không an toàn hoặc không hữu ích. Giải pháp là Học Tăng Cường với Phản Hồi của Con Người (RLHF): con người xếp hạng các phản hồi của mô hình; một mô hình thưởng học các sở thích đó; LM được tối ưu hóa để sản xuất các đầu ra an toàn hơn, hữu ích hơn và “theo chính sách” hơn.

Quan trọng: RLHF không mang lại khả năng mới nào; nó điều chỉnh hành vi. Đôi khi điểm chuẩn thô thậm chí giảm nhẹ trong khi tính hữu ích/an toàn cải thiện.

Những thách thức không nên bỏ qua

Tập trung quyền lực

Truy cập dữ liệu đang cải thiện (đặc biệt là cho tiếng Anh), nhưng tính toán là nút thắt mới. Đào tạo các mô hình tiên tiến yêu cầu các cụm GPU khổng lồ và ngân sách lớn, điều này rủi ro tập trung giữa một vài người chơi. Các trọng số mở, bộ dữ liệu sở thích chia sẻ, và phương pháp đào tạo hiệu quả có thể giúp—nhưng đó là một căng thẳng liên tục.

Dấu chân carbon

Việc đào tạo và phục vụ LLM tiêu tốn năng lượng đáng kể. Ước tính cho một lần chạy lớn có thể lên đến hàng trăm tấn CO₂ tương đương. Ngành công nghiệp đang làm việc trên hiệu suất (phần cứng tốt hơn, thuật toán và lập lịch) và báo cáo phát thải một cách minh bạch hơn, nhưng đây là một tác động thực tế.

Ảo giác

LLM sẽ sáng tạo chi tiết khi phân phối token tiếp theo “nghiêng” theo hướng đó. Phong cách viết trông tự tin, điều này khiến việc kiểm tra thực tế trở nên khó khăn. Các biện pháp giảm thiểu bao gồm:

Tạo ra dữ liệu bổ sung từ nguồn bên ngoài (RAG) để gắn kết các câu trả lời,
Gợi ý tốt hơn và quy tắc hệ thống,
Tinh chỉnh hoặc bộ điều chỉnh theo nhiệm vụ cụ thể,
Đầu ra có cấu trúc và các bước xác minh.

Các câu hỏi mở

LLM có “lý luận” không?

Một nhóm: LLM chỉ thực hiện việc ghép mẫu khổng lồ.

Nhóm khác: lý luận của con người có thể chính nó là sự hoàn thiện mẫu qua kinh nghiệm.

Sự thật có thể nằm ở giữa: các kỹ thuật như chuỗi suy nghĩ, sử dụng công cụ, và tính nhất quán tự thân đẩy LLM đến việc thực hiện bất ngờ tốt trong các tác vụ giống như lý luận—nhưng chúng vẫn thất bại theo những cách không giống con người.

Arthur C. Clarke đã có một câu nói cho điều này: “Bất kỳ công nghệ nào đủ tiên tiến đều không thể phân biệt với phép màu.” Chúng ta đang ở đâu đó trên đường cong đó—ấn tượng, nhưng không phải phép màu.

Liệu LLM có thay thế bác sĩ hoặc luật sư không?

Đỗ đạt một kỳ thi ≠ thực hành nghề nghiệp. Công việc thực tế liên quan đến khách hàng, công cụ, quy trình, trách nhiệm, và ngữ cảnh. Các LLM hiện tại sẽ không thay thế toàn bộ nghề nghiệp, nhưng chúng đã tự động hóa một phần công việc tri thức (soạn thảo, tóm tắt, thu hồi, brainstorming). Hướng đi chỉ ra các chuyên gia được tăng cường bởi AI, không phải thay thế hoàn toàn—ít nhất là trong thời điểm này.

Kết luận

Có phải LLM là mô hình cơ bản cho NLP? Hôm nay, chúng là điều tốt nhất mà chúng ta có.
Chúng có hoàn hảo không? Không.
Chúng ta có thể thích ứng chúng cho nhiều nhiệm vụ không? Chắc chắn rồi—và đó là lý do tại sao chúng cảm thấy như nền tảng.

Khám Phá LLM: Học Tập Trong Ngữ Cảnh và Tương Lai