Giới Thiệu

Trong thời đại công nghệ hiện nay, việc tối ưu hóa chất lượng của các mô hình ngôn ngữ lớn (LLM) như InstructGPT và Llama 2 trở nên ngày càng quan trọng. Một trong những phương pháp nổi bật trong lĩnh vực này là RLHF (Reinforcement Learning with Human Feedback). Phương pháp này giúp cải thiện tính chính xác và chất lượng của các phản hồi mà mô hình tạo ra thông qua phản hồi từ người dùng.

Trong bài viết này, chúng ta sẽ cùng đi sâu vào cơ chế hoạt động của RLHF và so sánh quy trình triển khai RLHF trong hai mô hình InstructGPT và Llama 2.

Quy Trình Đào Tạo Mô Hình LLM

Các mô hình LLM, đặc biệt là các mô hình dựa trên kiến trúc transformer như ChatGPT, Llama 2 thường trải qua ba giai đoạn quan trọng trong quá trình đào tạo: Pretraining, Supervised Finetuning (SFT) và Alignment.

1. Giai Đoạn Pretraining

Trong giai đoạn này, mô hình được đào tạo trên một lượng lớn dữ liệu không được gán nhãn. Mục tiêu chủ yếu là học cách dự đoán token tiếp theo trong một câu, từ đó xây dựng kiến thức về ngôn ngữ cũng như thế giới xung quanh.

2. Giai Đoạn Supervised Finetuning (SFT)

Tại đây, các mô hình được tinh chỉnh để thực hiện tốt hơn các lệnh cụ thể. SFT sử dụng các cặp instruction-output, nơi mô hình học cách dự đoán câu trả lời dựa trên các yêu cầu được đưa ra.

Ví dụ:

Instruction: "Viết một bài thơ limerick về một chú pelican."
Output: "Có một chú pelican thật đáng yêu..."

Giai đoạn này yêu cầu dữ liệu có cấu trúc, khác với quá trình pretraining, và thường tốn nhiều thời gian và công sức để thu thập dữ liệu.

3. Giai Đoạn Alignment

Giai đoạn cuối cùng, mô hình được điều chỉnh để cải thiện độ chính xác của các phản hồi, đảm bảo rằng những gì mô hình tạo ra sát với mong đợi của người dùng.

Reinforcement Learning with Human Feedback (RLHF)

RLHF bao gồm ba bước chính:

Bước 1: Supervised Finetuning

Mô hình đã được pretraining sẽ trải qua SFT, nơi các phản hồi chất lượng được tạo ra từ nguồn lực con người sẽ được sử dụng để tinh chỉnh mô hình.

Bước 2: Tạo Mô Hình Phần Thưởng

Mô hình SFT sẽ được sử dụng để tạo ra một reward model, giúp đánh giá các phản hồi từ mô hình.

Bước 3: Tinh Chỉnh Qua Proximal Policy Optimization (PPO)

Mô hình SFT sẽ được tối ưu hóa dựa trên điểm thưởng từ reward model thông qua phương pháp PPO. Điều này cho phép mô hình cải thiện khả năng tạo ra phản hồi chất lượng cao.

Ứng Dụng RLHF Trong Llama 2

Mặc dù RLHF trong ChatGPT đã được nhiều tác giả nghiên cứu, nhưng RLHF trong Llama 2 có những đặc điểm và quy trình riêng. Quá trình RLHF trong Llama 2 diễn ra với nhiều bước, sử dụng hai reward model thay vì một, giúp cải thiện độ hữu ích và độ an toàn của các phản hồi.

Các Mô Hình Phần Thưởng

Llama 2 sử dụng hai mô hình phần thưởng:

Một dành cho đánh giá tính hữu ích của câu trả lời.
Một dành cho đánh giá tính an toàn.

Điểm thưởng cuối cùng sẽ được tổng hợp từ hai mô hình này để tối ưu hóa mô hình.

Phương Pháp Rejection Sampling

Thay vì chỉ dựa vào PPO, Llama 2 áp dụng rejection sampling, chọn các mẫu có điểm thưởng cao nhất để cập nhật. Điều này cho phép mô hình cải thiện hiệu suất thông qua việc sử dụng liên tục các phản hồi chất lượng hơn.

Kết Luận

Qua bài viết này, chúng ta đã điểm qua quy trình finetuning sử dụng RLHF để tối ưu hóa mô hình LLM như InstructGPT và Llama 2. Cả hai phương pháp đều có điểm chung nhưng khác nhau ở yếu tố kỹ thuật, mang lại kết quả khác biệt và ấn tượng trong việc cải thiện chất lượng phản hồi của mô hình.
source: viblo

Khám Phá RLHF Trong InstructGPT và Llama 2: Quy Trình Finetuning Mô Hình LLM