Giới thiệu

Trong thời đại trí tuệ nhân tạo phát triển nhanh chóng, việc cải thiện các mô hình ngôn ngữ lớn (LLMs) để chúng phù hợp hơn với sự ưu thích của con người là vô cùng quan trọng. Một trong những phương pháp hiệu quả nhất hiện nay là Reinforcement Learning from Human Feedback (RLHF). Tuy nhiên, phương pháp này đòi hỏi nhiều thời gian và chi phí do cần sự đóng góp của con người trong việc gán nhãn chất lượng cao.

Bài báo này giới thiệu một phương pháp tiềm năng mới mang tên Reinforcement Learning from AI Feedback (RLAIF), giúp giảm bớt phụ thuộc vào con người bằng cách sử dụng LLMs để tạo ra nhãn preference. Nghiên cứu cho thấy rằng RLAIF đạt được hiệu suất tương đương, và trong một số tác vụ như tóm tắt nội dung và sinh đoạn hội thoại, thậm chí còn vượt trội hơn cả RLHF.

Các kết quả khả quan từ nghiên cứu chỉ ra rằng RLAIF không chỉ vượt qua các mô hình SFT baseline mà còn thực sự có khả năng đạt hiệu suất gần bằng với con người, mở ra một tiềm năng lớn cho việc cải thiện khả năng mở rộng của RLHF.

Phương pháp RLAIF

Gán nhãn Preference bằng LLM

Để gán nhãn preference, tiến trình bắt đầu bằng việc sử dụng một model LLM đã được pretrained hoặc instruction-tuned cho các nhiệm vụ tổng quát. Model này sẽ được yêu cầu chọn ra câu trả lời tốt nhất từ hai candidates output được tạo ra bởi model policy.

Cấu trúc Prompt

Prompt cho LLM bao gồm các phần:

Phần mở đầu: Giới thiệu nhiệm vụ cần thực hiện.
Ví dụ mẫu: Cung cấp input context, cặp responses, và preference label.
Sample cần gán nhãn: Cặp responses cần được gán nhãn.
Kết thúc: Kêu gọi LLM đưa ra câu trả lời (Ví dụ: "Preferred Response=").

Chiến lược Giảm Thiểu Position Bias

Position bias là một vấn đề mà LLM có thể gặp phải, khi mô hình có xu hướng thiên vị các candidate được trình bày trước. Để giải quyết điều này, nhóm tác giả thực hiện hai lần inference cho mỗi cặp candidates với thứ tự trình bày được đảo ngược trong lần inference thứ hai. Kết quả từ hai lần này sẽ được trung bình để tạo ra phân phối preference cuối cùng.

Sử dụng Chain-of-Thought

Ngoài việc sử dụng prompt đơn giản, nhóm tác giả còn thử nghiệm với mô hình proje chain-of-thought để thu thập ý kiến phản hồi từ LLM về từng candidate, nâng cao chất lượng tuyển chọn.

Mô Hình RLAIF

Distilled RLAIF

Sau khi gán nhãn, một reward model (RM) sẽ được huấn luyện trên các nhãn này. Việc này sử dụng soft labels và tính cross-entropy loss giữa softmax của các reward scores từ RM, chuẩn hóa để tạo ra phân phối xác suất.

Direct RLAIF

Một phương pháp nữa là sử dụng trực tiếp feedback từ LLM để làm reward cho RL. Phương pháp này loại bỏ giai đoạn huấn luyện RM, nhưng yêu cầu một AI labeler lớn hơn về mặt tính toán.

Phương pháp Đánh Giá

Để đánh giá kết quả, nhóm tác giả sử dụng ba chỉ số: AI Labeler Alignment, Win Rate, và Harmless Rate. Những chỉ số này giúp đo lường độ chính xác gán nhãn từ AI so với con người, chất lượng của policy, và tỷ lệ phản hồi không gây hại.

Kết quả Nghiên cứu

Một số kết quả đáng chú ý bao gồm:

RLAIF vượt trội hơn SFT với 71% trong nhiệm vụ tóm tắt văn bản và 63% trong nhiệm vụ hội thoại hữu ích.
RLAIF và RLHF có hiệu suất ngang nhau trong một số nhiệm vụ, nhưng RLAIF cho thấy tỷ lệ phản hồi không gây hại cao hơn.

Kết Luận

Bài báo đã mở ra một hướng đi mới trong việc cải thiện mô hình LLM thông qua phương pháp gán nhãn preference từ AI, giúp giảm thiểu chi phí và thời gian so với phương pháp RLHF truyền thống. Sử dụng AI trong quá trình phản hồi chính là một bước tiến đáng kể mà các nhà nghiên cứu và phát triển có thể tham khảo.
source: viblo

RLAIF: Mở Rộng Reinforcement Learning từ Phản Hồi của Con Người với Phản Hồi từ AI