Giới Thiệu

Trong bài viết này, chúng ta sẽ cùng khám phá công nghệ LLM (Large Language Model) và cấu trúc Transformer. Mặc dù một số thông tin có thể đã lỗi thời, nhưng các ý tưởng chính về LLM vẫn còn nguyên giá trị cho đến tận ngày hôm nay. Hãy cùng tìm hiểu cách mà Transformers đã cách mạng hóa lĩnh vực xử lý ngôn ngữ tự nhiên (NLP).

Mô Hình Encoder-Only và Decoder-Only

Cấu trúc Transformer đầy đủ bao gồm cả Encoder và Decoder rất mạnh mẽ, nhưng không phải ai cũng cần cả hai phần này. Các nhà nghiên cứu đã đặt ra câu hỏi: Liệu chúng ta có thể chỉ sử dụng encoder? Hay chỉ sử dụng decoder?

Encoder-Only

Mô hình encoder-only nổi tiếng nhất hiện nay là BERT.
BERT giữ lại chỉ ngăn xếp encoder. Đôi khi, bạn chỉ cần một đại diện tốt của văn bản (vector ngữ cảnh), không cần phải sinh ra văn bản.

Thích hợp cho các nhiệm vụ phân loại:

Đánh giá này là tích cực hay tiêu cực?
Câu này có chứa tên của một người không?

Phân loại hoạt động dựa trên nhúng (embeddings). Nhúng tốt hơn → bộ phân loại tốt hơn. BERT nhìn vào văn bản theo hai chiều, mã hóa toàn bộ câu và tạo ra những đại diện phong phú. Kết nối chúng vào một bộ phân loại và độ chính xác sẽ tăng vọt.

Liệu BERT có phải là một mô hình ngôn ngữ không? Chặt chẽ mà nói, không — nó không thực hiện dự đoán từ tiếp theo tự động. Nó được huấn luyện như một mô hình ngôn ngữ bị che (dự đoán từ còn thiếu), điều này khác với các mô hình ngôn ngữ truyền thống.

Decoder-Only

Mặt khác: GPT.
GPT (GPT-2/3, ChatGPT, GPT-4…) giữ lại chỉ ngăn xếp decoder.

Tại sao bỏ qua encoder? Nếu mục tiêu của bạn chỉ là dự đoán từ tiếp theo — nhiệm vụ mô hình ngôn ngữ thuần túy — bạn có thể cung cấp cho decoder văn bản cho đến thời điểm đó và để nó tiếp tục theo cách tự động.

Đầu vào: “Những bông hoa bên đường đang nở”
Decoder dự đoán: “đẹp đẽ.”
Dự đoán đó được đưa vào lại, và quá trình sinh ra tiếp tục.

Đây là lý do tại sao GPT và các mô hình liên quan (LaMDA, PaLM, LLaMA, Claude, v.v.) tuân theo công thức decoder-only. Đây là cách đơn giản và trực tiếp nhất để mở rộng mô hình ngôn ngữ thành các động cơ sinh.

Encoder + Decoder

Các mô hình như T5 và BART giữ lại cấu trúc đầy đủ và nổi bật trong các chuyển đổi rõ ràng từ đầu vào → đầu ra (dịch, tóm tắt, v.v.).

So Sánh Encoder và Decoder

Lịch sử cho thấy, encoder-only phát triển mạnh trước tiên (BERT) vì nhiều nhiệm vụ NLP thiên về phân loại. Các mô hình decoder-only ban đầu trông giống như “máy sinh ra vô nghĩa.”

Sự khác biệt chính:

Các mô hình encoder-only không thể sinh ra văn bản.
Các mô hình decoder-only có thể — và với quy mô, tiềm năng của chúng là khổng lồ. Ngay cả phân loại cũng có thể được tái định nghĩa thành sinh (“Đánh giá là … [tích cực/tiêu cực]”).

Đó là lý do tại sao các mô hình LLM decoder-only trở thành các mô hình LLM chiếm ưu thế.

Một Truyền Thống Dài

Transformers không phát minh ra encoder-decoder. Trước năm 2017, RNNs/LSTMs/GRUs là cách tiêu chuẩn để xây dựng nó. Transformers thay thế RNNs.

Lý do lớn nhất mà mọi người trích dẫn: Tự chú ý (Self-Attention).

Tại Sao Transformers Hoạt Động Tốt Như Vậy? Tự Chú Ý

Hai khái niệm trung tâm:

Cấu trúc Encoder-Decoder
Tự chú ý (Self-Attention)

Hãy bắt đầu với khái niệm Chú ý.

Chú Ý

Chú ý lần đầu tiên xuất hiện trong các mô hình seq2seq dựa trên RNN. Nhớ lại quy trình:

Đầu vào → Encoder → Ngữ cảnh → Decoder → Đầu ra

Decoder sinh ra các token từng bước một. Các mô hình sớm sử dụng một Ngữ cảnh cố định cho mỗi bước, nhưng các từ đầu ra khác nhau cần “nhìn lại” các phần khác nhau của đầu vào.

Ví dụ:
“나는 어제 학교에 갔습니다.” → “Tôi đã đi đến trường ngày hôm qua.”

Nếu mô hình có thể tập trung vào 갔습니다 (đi) và 어제 (ngày hôm qua) vào thời điểm thích hợp, nó sẽ chọn “went” (thì quá khứ) một cách đáng tin cậy hơn so với “go.”

Đó là Chú ý: tại mỗi bước, điều chỉnh lại trọng số của các phần đầu vào quan trọng nhất.

Tự Chú Ý

Chú ý seq2seq hỏi: Những phần nào của nguồn tôi nên chú ý tới trong khi sinh ra mục tiêu?

Tự chú ý hỏi: Trong một câu, những từ nào nên chú ý tới từng từ?

Ví dụ:
“Con vật không băng qua đường vì nó quá mệt.”
Ở đây, “nó” nên liên kết mạnh mẽ với “con vật”, nhưng cũng liên quan đến “mệt.”

Tại sao điều này lại mạnh mẽ cho các mô hình ngôn ngữ?

Để dự đoán “nở” trong “Những bông hoa bên đường … nở,” “hoa” nên nhận trọng số cao nhất.
Để chọn thì, “ngày hôm qua” quan trọng hơn “trường.”

Tự chú ý cho phép mô hình khám phá điều này một cách tự động.

Tự Chú Ý Nhiều Đầu

Ngôn ngữ có nhiều loại quan hệ:

Ngữ pháp (chủ ngữ ↔ động từ)
Ngữ nghĩa (động vật ↔ nó)
Thuộc tính (nó ↔ mệt)

Một bản đồ chú ý không thể nắm bắt mọi góc nhìn. Giải pháp: thực hiện nhiều đầu chú ý song song, mỗi đầu có một “góc nhìn” khác nhau.
Dưới nắp, các nhúng từ được chia thành các không gian con (mảnh số). Mỗi đầu chú ý trong một không gian con khác nhau, khuyến khích các khía cạnh khác nhau (ngữ pháp, ý nghĩa, phong cách) xuất hiện.

Thay vì một đèn pin, hãy cho mô hình một tá đèn pin, mỗi cái chiếu vào một mối quan hệ khác nhau.
Đó là sức mạnh của Tự chú ý Nhiều đầu — một trong những lý do chính tại sao Transformers đã lật đổ RNNs.

175B? 540B? Số Lượng Tham Số Thực Sự Có Ý Nghĩa Gì?

Bạn thường nghe những kích thước như 175B (GPT-3) hoặc 540B (PaLM). Đây là số lượng tham số — các trọng số trong Transformer.

Nhiều tham số → nhiều khả năng. Do đó, lối tắt phổ biến (nhưng sai lầm):
Mô hình lớn hơn → hiệu suất tốt hơn.

Trên thực tế, hiệu suất phụ thuộc vào nhiều yếu tố hơn là kích thước:

Dữ liệu được sử dụng là bao nhiêu?
Chất lượng dữ liệu đó ra sao?
Các siêu tham số đã được tinh chỉnh tốt chưa?
Mô hình đã được huấn luyện lâu và kỹ lưỡng đến mức nào?

Vậy tại sao số lượng tham số lại chiếm ưu thế? Chúng dễ hiểu.

Nếu ai đó hỏi, “Mô hình nào tốt hơn, A hay B?” bạn có thể phân tích chất lượng dữ liệu, các bước huấn luyện và bộ tối ưu… hoặc nói:
“Mô hình A có 70B. Mô hình B có 200B. Mô hình B tốt hơn.”

Điều đó không nhất thiết đúng — nhưng đơn giản hơn.

⚠️ Mẹo chuyên nghiệp: Nếu ai đó nói về chất lượng mô hình chỉ dựa vào số lượng tham số, hãy cẩn thận. Họ có thể không hiểu đầy đủ, hoặc họ đang cố gắng bán cho bạn một cái gì đó.

Transformer Tóm Tắt

Transformers được thiết kế cho các nhiệm vụ Chuyển Đổi Từng Dòng.
Dạng phổ biến nhất là cấu trúc Encoder-Decoder.
Có các biến thể: Encoder-only (BERT), Decoder-only (GPT), Encoder+Decoder (T5, BART).
Để sinh ra ngôn ngữ, bạn cần một Decoder.
Một đổi mới cốt lõi là Tự chú ý (Self-Attention).
Để nắm bắt các góc nhìn khác nhau (ngữ pháp, ngữ nghĩa, phong cách), Transformers sử dụng Tự chú ý Nhiều đầu.

Công Suất Tính Toán

Nguyên liệu cuối cùng: tính toán.
LLMs sẽ không tồn tại nếu không có những tiến bộ lớn trong phần cứng và cơ sở hạ tầng:

GPU (và TPU) đã mở khóa việc huấn luyện song song quy mô lớn. GPU là nhiên liệu tên lửa của cơn sốt học sâu, và ngày nay Nvidia vẫn chiếm ưu thế với CUDA, thư viện tối ưu hóa và phần cứng tiên tiến.
Kỹ thuật huấn luyện song song cho phép hàng trăm (hoặc hàng ngàn) GPU huấn luyện một mô hình duy nhất một cách đồng bộ.
Cơ sở hạ tầng đám mây giúp việc này trở nên thực tiễn. Mua hàng tấn GPU là rất tốn kém — và chúng bắt đầu khấu hao ngay khi bạn mở hộp. Thuê từ AWS, Azure hoặc GCP cho phép các nhóm mở rộng mà không cần mở một nghĩa địa phần cứng trong văn phòng.

Tóm lại: chip nhanh hơn + phần mềm thông minh hơn + đám mây linh hoạt = sức mạnh cần thiết để tạo ra LLMs.

Tại Sao LLMs Xuất Hiện Ngay Bây Giờ

Chúng ta đã đi qua ba nguyên liệu lớn:

Dữ liệu: Văn bản quy mô web + học tự giám sát → đại dương tài liệu huấn luyện.
Thuật toán: Transformers (tự chú ý, chồng quy mô) đã thay thế RNNs.
Tính toán: GPU/TPU + cơ sở hạ tầng đám mây → đủ sức mạnh để huấn luyện các mô hình khổng lồ.

Mỗi phần riêng biệt sẽ rất ấn tượng. Khi kết hợp lại, chúng đã tạo ra một bước nhảy vọt.

Một thập kỷ trước, chúng ta có:

Bộ dữ liệu hạn chế (một vài gigabyte tối đa).
Thuật toán (RNNs, LSTMs) gặp khó khăn với các chuỗi dài.
GPU không thể xử lý thực tế các mô hình 100B+ tham số.

Ngày nay, chúng ta có:

Hàng chục terabyte dữ liệu huấn luyện trong tầm tay.
Kiến trúc Transformer có thể mở rộng đẹp mắt.
Cụm GPU/TPU có thể huấn luyện các mô hình có hàng triệu tham số.

Không có đột phá đơn lẻ nào “phát minh” ra LLMs. Đó là sự giao thoa của các xu hướng — dữ liệu, thuật toán, tính toán — cuối cùng đã kết hợp lại với nhau.

Đó là lý do tại sao LLMs cảm thấy như chúng xuất hiện “đột ngột.” Sự thật là, các nhà nghiên cứu đã chuẩn bị nền tảng trong nhiều năm. Khoảnh khắc ba yếu tố này đồng điệu, lĩnh vực này đã bùng nổ.

Và đó là nơi chúng ta đang ở: cưỡi trên làn sóng của các mô hình ngày càng lớn, thông minh và có khả năng hơn bất kỳ ai đã từng nghĩ là có thể trong năm năm qua.

Trong bài viết tiếp theo, tôi sẽ đi sâu vào zero-shot, few-shot, prompting và phần còn lại của câu chuyện.

Khám Phá LLM: Bên Trong Transformer