Lưu ý: Bài viết này là bản dịch từ nội dung của DAIR.AI, được đăng thường xuyên trên LinkedIn. Bạn có thể tham khảo thêm tại trang LinkedIn của DAIR.AI: DAIR.AI trên LinkedIn
1. Kỹ Thuật Meta-Rewarding cho Mô Hình LLM
Tóm tắt:
- Trong nghiên cứu này, kỹ thuật mới mang tên Meta-Rewarding được giới thiệu, cho phép các mô hình ngôn ngữ lớn (LLM) tự cải thiện mà không cần sự giám sát từ con người.
- Các LLM tự đánh giá quyết định của bản thân và sử dụng phản hồi này để nâng cao khả năng đánh giá của mình, từ đó tuân theo các hướng dẫn tốt hơn.
- Mặc dù phương pháp tự cải thiện thông qua phản hồi có thể bị bão hòa nhanh, công việc hiện tại tập trung vào việc nâng cao khả năng tự đánh giá (judge) của LLM, tránh các vấn đề như hack phần thưởng.
- Một vai trò mới, meta-judge, đã được đưa vào để đánh giá các quyết định đưa ra bởi mô hình, tạo ra một tổng thể vững chắc hơn cho quy trình.
2. MindSearch: Khung Làm Việc Tìm Kiếm Tối Ưu
Tóm tắt:
- Bài viết này giới thiệu MindSearch, một khung làm việc dựa trên LLM với nhiều tác nhân, cho phép thực hiện các tác vụ tìm kiếm và tích hợp thông tin phức tạp trên web.
- Khung này bao gồm một bộ lập kế hoạch web có khả năng giải quyết các truy vấn phức tạp, giúp cải thiện độ liên quan của thông tin extracted được từ Internet.
- Việc lập kế hoạch cũng được hiện thực hóa thông qua việc xây dựng đồ thị từng bước, hỗ trợ mô hình hóa tốt hơn các quy trình giải quyết vấn đề.
3. Cải Tiến RAG với Tự Suy Luận
Tóm tắt:
- Khung làm việc tự suy luận từ đầu đến cuối được trình bày nhằm tăng cường độ tin cậy và khả năng theo dõi của các hệ thống Retrieval-Augmented Generation (RAG).
- Bằng cách sử dụng các đường lối suy luận do chính LLM tạo ra, mô hình có khả năng 1) đánh giá độ liên quan của tài liệu với câu hỏi, 2) chọn và trích dẫn tài liệu liên quan, và 3) phân tích các đường lối để đưa ra câu trả lời tổng hợp.
- Phương pháp này giúp mô hình trở nên chọn lọc hơn trong việc phân biệt và suy luận tài liệu, từ đó cải thiện độ chính xác tổng thể của hệ thống RAG.
4. Constrained-CoT: Giới Hạn Đầu Ra Suy Luận
Tóm tắt:
- Nghiên cứu này chứng minh rằng việc giới hạn độ dài đầu ra suy luận của mô hình LLaMA2-70b xuống còn 100 từ, mà không giảm hiệu suất, đã cải thiện độ chính xác từ 36.01% (CoT) lên 41.07% (CCoT) trên bộ dữ liệu GSM8K, đồng thời làm giảm độ dài đầu ra trung bình xuống chỉ còn 28 từ.
5. Adaptive RAG cho Hệ Thống Trò Chuyện
Tóm tắt:
- Một mô hình gating mới đã được phát triển để tiên đoán xem hệ thống trò chuyện có cần các phương pháp RAG để nâng cao câu trả lời hay không.
- Nghiên cứu đã chỉ ra rằng các hệ thống trò chuyện dựa trên RAG có khả năng tạo ra câu trả lời chất lượng cao và độ tin cậy lớn.
6. ShieldGemma: Công Cụ Kiểm Duyệt An Toàn
Tóm tắt:
- ShieldGemma là bộ công cụ mô hình kiểm duyệt nội dung mạnh mẽ, được thiết kế trên nền tảng Gemma 2.
- Nó bao gồm các bộ phân loại để nhận diện các loại tổn hại chủ yếu như nội dung nguy hiểm, độc hại, và ngôn ngữ thù hận.
7. Đánh Giá Các Đại Diện Nhân Vật
Tóm tắt:
- Một chuẩn đã được đề xuất nhằm đánh giá khả năng của các đại diện nhân vật trong LLM.
- Kết quả cho thấy Claude 3.5 Sonnet chỉ cải thiện 2.97% về PersonaScore so với GPT 3.5, mặc dù là mô hình tiên tiến hơn.
8. Khảo Sát Về Machine Unlearning
Tóm tắt:
- Bài viết này cung cấp một khảo sát toàn diện về việc học máy trong bối cảnh trí tuệ nhân tạo.
9. ThinK: Giải Quyết Vấn Đề Tiêu Thụ Bộ Nhớ
Tóm tắt:
- Tài liệu đưa ra phương pháp giải quyết các vấn đề tiêu thụ bộ nhớ KV kém hiệu quả, chủ yếu tập trung vào các trường hợp ngữ cảnh dài và phía suy luận.
- Phương pháp cắt tỉa bộ nhớ KV được điều chỉnh theo truy vấn nhằm giảm bớt sự mất mát trọng số chú ý trong khi loại bỏ các kênh ít quan trọng nhất.
10. Nghệ Thuật Từ Chối
Tóm tắt:
- Một khảo sát chi tiết về các phương pháp hiện có để đạt được sự từ chối trong LLM.
- Các chuẩn đánh giá và thước đo cũng được cung cấp để đo lường mức độ từ chối trong các mô hình LLM.
source: viblo