MiniCPM: Khám Phá Tiềm Năng Của Mô Hình Ngôn Ngữ Nhỏ (SLMs)

Trong những năm gần đây, cả thế giới và cộng đồng trí tuệ nhân tạo đã chứng kiến sự bùng nổ ấn tượng của các mô hình ngôn ngữ lớn (LLMs), với quy mô hàng tỷ đến hàng chục tỷ tham số. Tuy nhiên, kích thước khổng lồ của các mô hình này đã gây ra nhiều khó khăn trong việc huấn luyện và triển khai, vượt quá khả năng của nhiều tổ chức, công ty và cá nhân. Để đối phó với những thách thức này, các mô hình ngôn ngữ nhỏ (SLMs) đã ra đời, trở thành giải pháp thay thế hiệu quả, giúp duy trì hiệu suất cao nhưng với chi phí và tài nguyên thấp hơn. Sự xuất hiện của mô hình MiniCPM minh chứng cho xu hướng này, mang lại sự cân bằng lý tưởng giữa hiệu suất và tính khả thi trong triển khai.

I. MiniCPM Là Gì?

MiniCPM là một mô hình ngôn ngữ nhỏ (SLM) được phát triển nhằm tối ưu hóa hiệu suất và khả năng mở rộng. Với hai phiên bản 1.2B và 2.4B tham số, MiniCPM đạt được kết quả tương đương với những mô hình lớn hơn từ ba đến sáu lần như LLaMA2-7B và Mistral-7B.

II. Các Kỹ Thuật Quan Trọng Đằng Sau MiniCPM

MiniCPM không chỉ là một mô hình nhỏ gọn mà còn có khả năng mở rộng mà không cần đào tạo lại từ đầu. Khả năng này đạt được nhờ một số kỹ thuật đột phá, bao gồm:

1. Bộ Điều Chỉnh Tốc Độ Học WSD (Warmup-Stable-Decay)

Bộ điều chỉnh này chia quá trình huấn luyện thành ba giai đoạn:

Giai đoạn khởi động (Warm-up Stage): Mô hình học với bước nhỏ, cải thiện dần độ chính xác, và tăng tốc độ học.
Giai đoạn ổn định (Stable Stage): Tốc độ học được duy trì ổn định trong một thời gian dài, giúp mô hình cải thiện một cách đều đặn.
Giai đoạn giảm tốc (Decay Stage): Ở giai đoạn cuối, tốc độ học giảm dần khi mô hình gần đạt đến hội tụ, giúp giữ lại điểm tối ưu.

2. Thử Nghiệm Mô Hình Wind Tunnel

Quy trình này kiểm tra các điều chỉnh siêu tham số, kích thước batch và tốc độ học để tối ưu hóa mô hình mà vẫn đảm bảo độ chính xác cao. Gồm các giai đoạn như mở rộng chiều rộng và chiều sâu của mô hình, lựa chọn kích thước batch tối ưu để cân bằng giữa tốc độ hội tụ và tài nguyên phần cứng.

3. Lựa Chọn Learning Rate Tối Ưu

Các thử nghiệm cho thấy mức learning rate tối ưu nằm xung quanh 0.01, đạt được loss thấp nhất trên mô hình 2.1B, đảm bảo hiệu suất tối ưu.

III. Chi Tiết Về Mô Hình MiniCPM

1. Cấu Trúc Mô Hình

Từ vựng (Vocabulary): Sử dụng hai tokenizers với vocab size khoảng 123K cho MiniCPM-2.4B và hơn 73K cho MiniCPM-1.2B.
Chia Sẻ Lớp Đầu Vào và Đầu Ra: Kỹ thuật chia sẻ embedding qua cả hai phiên bản để giảm kích thước tham số.
Mạng Sâu và Mỏng: Kiến trúc sâu hơn và mỏng hơn cho MiniCPM-2.4B, tiếp tục tinh chỉnh cho MiniCPM-1.2B.
Truy Vấn Chú Ý Theo Nhóm: Sử dụng lớp attention cho MiniCPM-2.4B, áp dụng Group Attention Query cho MiniCPM-1.2B.

2. Các Giai Đoạn Huấn Luyện

Gồm ba giai đoạn: ổn định với dữ liệu lớn hơn 1 nghìn tỷ tokens, giảm tốc sử dụng dữ liệu đã được ghi nhãn để cải thiện mô hình và giai đoạn fine-tuning với dữ liệu cụ thể cho các tác vụ thực tế.

3. Phân Bố Dữ Liệu Huấn Luyện

Sử dụng dữ liệu từ nhiều nguồn khác nhau cho từng giai đoạn, từ nguồn dữ liệu lớn như CommanCrawl.Chn đến các tập dữ liệu cụ thể cho nhiệm vụ lập trình và các tác vụ khác.

4. Đường Cong Loss Từ Huấn Luyện

Đường cong loss cho thấy sự cải thiện liên tục và mịn màng, đạt được độ tối ưu tại thời điểm cuối giai đoạn giảm tốc.

IV. Kết Quả Hiệu Suất và So Sánh Với Các Mô Hình Khác

1. Độ Bối Rối (Perplexity)

MiniCPM-2.4B đạt được điểm perplexity ấn tượng, cho thấy khả năng dự đoán và xử lý ngôn ngữ tự nhiên hiệu quả.

2. Benchmark Cho Các Tác Vụ Cụ Thể

Mô hình được thử nghiệm trên nhiều bài toán như phân loại, tóm tắt, hỏi đáp và đã thể hiện khả năng giải quyết tốt, đặc biệt trong các vấn đề liên quan đến toán học và lập trình.

3. So Sánh Với Các Mô Hình Lớn Hơn

MiniCPM xếp hạng cao hơn so với những mô hình lớn như Llama2-7B, thể hiện hiệu suất tương đương trong nhiều tác vụ, nhưng vẫn có những hạn chế trong suy luận logic phức tạp.

4. Fine-tuning Cho Các Tác Vụ Cụ Thể

MiniCPM đã được fine-tune cho các bài toán như toán học và lập trình, giúp đạt được kết quả xuất sắc trong các nhiệm vụ này.

V. Các Phiên Bản MiniCPM

Mô hình MiniCPM không chỉ dừng lại ở một phiên bản mà đã được phát triển thành nhiều phiên bản khác nhau, mỗi phiên bản phục vụ một mục đích cụ thể:

MiniCPM-DPO: Tối ưu hóa phản hồi người dùng cho các nhiệm vụ AI như hội thoại.
MiniCPM-128K: Xử lý văn bản dài với khả năng lên tới 128,000 tokens.
MiniCPM-MoE: Sử dụng Mixture of Experts để cải thiện hiệu suất mà không cần tăng kích thước mô hình.

VI. Kết Luận

Mô hình MiniCPM đã chứng minh rằng các mô hình ngôn ngữ nhỏ vẫn có thể đạt hiệu suất mạnh mẽ mà không cần đầu tư vào nguồn tài nguyên khổng lồ. Với các kỹ thuật tiên tiến và sự linh hoạt trong cách triển khai, MiniCPM mở ra nhiều cơ hội cho các tổ chức trong việc ứng dụng AI một cách hiệu quả.

Tham Khảo

🔗 Kết nối với Pixta Vietnam: http://bit.ly/3kdkzvW
source: viblo

MiniCPM: Khám Phá Tiềm Năng Của Mô Hình Ngôn Ngữ Nhỏ (SLMs) Trong Kỷ Nguyên AI