Giới thiệu

Trong thế giới ngày nay, việc sử dụng trí tuệ nhân tạo (AI) ngày càng trở nên phổ biến, đặc biệt trong các ứng dụng xử lý ngôn ngữ tự nhiên (NLP). Để một mô hình AI như GPT hay Gemini có thể cung cấp câu trả lời thông minh, tóm tắt tài liệu hoặc tạo ra những hiểu biết giá trị, văn bản đầu vào cần phải được chuẩn bị một cách cẩn thận. Quá trình này, được gọi là tiền xử lý văn bản, đảm bảo rằng AI có thể xử lý và hiểu dữ liệu mà bạn cung cấp.

Đối với các mô hình AI, giới hạn token là một thách thức lớn trong tiền xử lý. Số lượng token tối đa mà ngay cả những mô hình tinh vi nhất cũng có thể xử lý trong một yêu cầu duy nhất là có hạn. Nếu bạn cung cấp cho chúng một cuốn sách hoặc bài nghiên cứu, chúng sẽ gặp khó khăn. Tại thời điểm này, việc phân đoạn (chunking) — quá trình chia nhỏ các văn bản dài thành các phần có thể quản lý — trở nên cực kỳ quan trọng.

Các framework như LangChain có chứa các công cụ như RecursiveCharacterTextSplitter, được thiết kế đặc biệt cho mục đích này. Chúng giảm thiểu mất mát ý nghĩa trong khi hỗ trợ việc chia nhỏ các văn bản dài thành các phần dễ tiêu hóa.

Tại Sao Phân Tách Văn Bản Trong NLP?

Các mô hình ngôn ngữ rất mạnh mẽ, nhưng chúng không có bộ nhớ vô hạn. Ví dụ:

GPT-4 Turbo hỗ trợ lên đến 128,000 token (khoảng 300 trang văn bản).
Các mô hình khác có thể xử lý ít hơn nhiều, đôi khi chỉ 4,000–8,000 token.

Khi văn bản của bạn vượt quá những giới hạn này, bạn cần phải phân tách nó. Nhưng nếu bạn phân tách văn bản một cách cẩu thả, bạn có nguy cơ:

Mất ngữ cảnh: Các chi tiết quan trọng bị cắt đứt giữa các đoạn.
Đứt đoạn ngữ nghĩa: Các câu hoặc đoạn văn bị chia tách ở giữa, khiến cho các phần khó hiểu hơn.

Mục tiêu của việc phân tách là bảo tồn tính nhất quán về ngữ nghĩa — giữ cho các ý tưởng nguyên vẹn và dễ hiểu — trong khi vẫn nằm trong giới hạn token.

Ví Dụ Thực Tế: Gửi Tin Nhắn Dài Trên WhatsApp

Hãy tưởng tượng bạn muốn gửi cho bạn mình một câu chuyện dài qua WhatsApp, nhưng WhatsApp chỉ cho phép bạn gửi 500 ký tự mỗi tin nhắn.

Nếu bạn dán toàn bộ câu chuyện vào một lần, nó sẽ không gửi (như việc chạm vào giới hạn token của AI).
Vì vậy, bạn chia câu chuyện thành các tin nhắn nhỏ hơn (như các chunk).

Hai vấn đề có thể xảy ra nếu bạn phân tách một cách cẩu thả:

Mất ngữ cảnh

Bạn cắt ngay giữa một câu.
Tin nhắn 1: “Người hùng mở cánh cửa — ”
Tin nhắn 2: “ — và thấy một con rồng.” → Cảm giác như bị đứt đoạn.

Đứt đoạn ngữ nghĩa

Bạn vô tình tách rời các phần liên quan.
Tin nhắn 1 kết thúc với: “Người hùng nâng kiếm lên.”
Tin nhắn 2 bắt đầu với một điều hoàn toàn mới: “Trong khi đó, ở một thành phố khác…” → Bạn của bạn có thể bối rối vì hành động bị cắt đứt quá sắc nét.

✅ Giải pháp là phân tách tại các điểm tự nhiên (như ở cuối một câu hoặc đoạn văn) và đôi khi lặp lại một chút chồng chéo. Ví dụ, bạn có thể sao chép vài từ cuối của một tin nhắn vào tin nhắn tiếp theo:

Tin nhắn 1: “…anh ta mở cánh cửa và thấy một con rồng.”
Tin nhắn 2: “Anh ta thấy một con rồng phun lửa ra khắp phòng…”

Bằng cách đó, bạn của bạn sẽ nhớ lại cảnh tượng, và câu chuyện sẽ mượt mà hơn — giống như việc bảo tồn tính nhất quán về ngữ nghĩa khi phân tách văn bản cho AI.

RecursiveCharacterTextSplitter Là Gì?

RecursiveCharacterTextSplitter là một công cụ trong LangChain (và các thư viện NLP tương tự) giúp phân tách văn bản lớn thành các phần nhỏ hơn một cách thông minh.

Dưới đây là cách nó hoạt động:

Nó cố gắng phân tách văn bản theo các ranh giới tự nhiên lớn hơn trước (đoạn văn, câu).
Nếu một chunk vẫn quá lớn, nó sẽ phân tách xuống các ranh giới nhỏ hơn (từ, sau đó là ký tự).
Quá trình đệ quy này đảm bảo các chunks có thể quản lý nhưng vẫn có ý nghĩa. Nói ngắn gọn, nó giống như việc cắt một câu chuyện dài thành các chương, sau đó thành các cảnh, và chỉ khi cần thiết mới cắt thành các dòng — đảm bảo mỗi phần vẫn có nghĩa.

Phân Tích Mã

python Copy

from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(  
    chunk_size=1000,  
    chunk_overlap=200  
)

Điều Này Có Nghĩa Là Gì?

chunk_size=1000 → Mỗi chunk sẽ có độ dài khoảng 1,000 ký tự. Hãy nghĩ về nó như việc thiết lập độ dài của mỗi tập trong câu chuyện của bạn.
chunk_overlap=200 → Phần cuối của một chunk chồng lên phần tiếp theo 200 ký tự. Điều này đảm bảo tính liên tục.

Ví Dụ Thực Tế: Xem Một Bộ Phim

Hãy tưởng tượng tài liệu PDF của bạn là một bộ phim dài. Nếu bạn cắt nó thành các tập mà không có chồng chéo, một cảnh có thể kết thúc giữa Tập 1 và tiếp tục ở Tập 2. Thật khó hiểu phải không?

Với chồng chéo, 5 phút cuối của Tập 1 được phát lại ở đầu Tập 2.
👉 Bằng cách này, bạn không quên những gì đã xảy ra, và câu chuyện chảy mượt mà.

Đó chính xác là những gì chunk_overlap=200 làm: nó lặp lại một phần văn bản trước đó để giữ nguyên ngữ cảnh.

Các Trường Hợp Sử Dụng Thực Tiễn

Việc phân tách văn bản không chỉ là lý thuyết — nó được sử dụng trong các dự án thực tế hàng ngày:

Hệ thống Q&A tài liệu: Phân tách một PDF hoặc hướng dẫn thành các chunks để một LLM có thể trả lời các câu hỏi cụ thể một cách chính xác.
Tóm tắt văn bản: Chia nhỏ các báo cáo lớn thành các phần nhỏ hơn trước khi tạo tóm tắt.
Cơ sở dữ liệu vector (FAISS, Pinecone, Chroma): Lưu trữ các embedding chunk cho tìm kiếm và truy xuất ngữ nghĩa hiệu quả.
Chuẩn bị dữ liệu huấn luyện: Phân tách văn bản trước khi đưa vào các pipeline huấn luyện NLP/LLM tùy chỉnh.

Ưu và Nhược Điểm

✅ Ưu Điểm

Duy trì tính liên tục của ngữ cảnh với các chồng chéo.
Bảo tồn ý nghĩa ngữ nghĩa bằng cách phân tách tại các điểm hợp lý.
Hoạt động tốt với các cơ sở dữ liệu vector và LLM.

⚠️ Nhược Điểm

Thời gian xử lý tăng: Nhiều chunks = nhiều tính toán hơn.
Chi phí token cao hơn: Các chồng chéo có nghĩa là một số văn bản được lặp lại, làm tăng nhẹ chi phí sử dụng.

Kết Luận

Phân tách văn bản một cách hợp lý là một nền tảng của việc xử lý văn bản AI hiệu quả. Bằng cách lựa chọn cẩn thận kích thước chunk và chồng chéo, bạn đảm bảo rằng AI của bạn có đủ thông tin trong mỗi phần mà không mất đi bức tranh lớn.

Trong khi RecursiveCharacterTextSplitter là một công cụ rất hữu ích, vẫn có những lựa chọn thay thế khác: các bộ phân tách dựa trên câu, các bộ phân tách ngữ nghĩa, hoặc các bộ phân tách cấp độ token. Chìa khóa là cân bằng độ dài chunk và việc bảo vệ ngữ cảnh dựa trên trường hợp sử dụng của bạn.

Nếu bạn đang xây dựng bất kỳ thứ gì từ chatbot đến tóm tắt, việc áp dụng các chiến lược phân tách này sẽ cải thiện đáng kể kết quả của bạn.

Tài Liệu Đọc Thêm / Tài Nguyên

Tài liệu về Bộ Phân Tách Văn Bản LangChain
Hướng dẫn về Tokenization từ HuggingFace
Giới hạn Token của OpenAI

Phân Tích Văn Bản Để Tối Ưu Xử Lý AI: Kích Thước và Chồng Chéo