0
0
Lập trình
Hưng Nguyễn Xuân 1
Hưng Nguyễn Xuân 1xuanhungptithcm

SaulLM-7B: Mô Hình Ngôn Ngữ Lớn Tiên Phong Tại Lĩnh Vực Pháp Lý

Đăng vào 3 tuần trước

• 5 phút đọc

Chủ đề:

LLM

Đóng góp của Bài báo

Mô hình ngôn ngữ lớn (LLMs) đã có những ứng dụng nổi bật trong nhiều lĩnh vực như dịch thuật, y tế và lập trình. Tuy nhiên, lĩnh vực pháp lý vẫn chưa khai thác hết tiềm năng của LLMs. Bài báo này giới thiệu SaulLM-7B, mô hình ngôn ngữ lớn đầu tiên dành riêng cho pháp lý, được thiết kế để giải quyết các thách thức ngôn ngữ đặc thù trong văn bản pháp lý. Cách tiếp cận của bài báo tập trung vào việc pretraining trên một lượng lớn tài liệu pháp lý từ các khu vực nói tiếng Anh như Hoa Kỳ, Canada, Anh và Châu Âu, nhằm đảm bảo mô hình có khả năng giải thích chính xác và thích ứng với sự phát triển của ngôn ngữ pháp lý.

Phương pháp

Bài báo sử dụng Mistral 7B, một mô hình ngôn ngữ mã nguồn mở với 7 tỷ tham số, được lựa chọn vì hiệu suất cao vượt trội trên nhiều benchmark và nhiệm vụ.

Nâng cao Năng lực Pháp lý của Mistral

Trong quá trình huấn luyện, các mô hình tổng quát thường chỉ tiếp nhận một lượng hạn chế dữ liệu pháp lý, chiếm phần nhỏ trong tổng thể dữ liệu huấn luyện. Để cải thiện hiệu suất trên các nhiệm vụ pháp lý, một phương pháp đơn giản nhưng hiệu quả là huấn luyện bổ sung với dữ liệu pháp lý. Phương pháp này đã thành công trong việc tối ưu hóa nhiều mô hình trong các lĩnh vực khác nhau như y học, dịch thuật và lập trình, với ưu điểm về khả năng mở rộng và tính độc lập với đặc điểm dữ liệu cụ thể.

Đối với thích ứng miền (domain adaptation), việc chuyên môn hóa các mô hình ngôn ngữ thông qua nhiệm vụ giả định thường gặp phải thách thức về chi phí tính toán và khả năng mở rộng. Dựa trên sự sẵn có của bộ dữ liệu pháp lý quy mô lớn, tác giả đã cẩn thận lựa chọn và chuẩn bị bộ dữ liệu chất lượng cao, bao gồm nội dung đa dạng từ các kho dữ liệu pháp lý. Sau quá trình lọc và loại bỏ trùng lặp, họ đã thu thập được 30 tỷ token, cung cấp nền tảng vững chắc cho continued pretraining.

Cải thiện Việc Tuân thủ Chỉ dẫn Pháp lý

Để hỗ trợ yêu cầu của người dùng và tương tác hội thoại, các LLMs cần quá trình điều chỉnh hướng dẫn (instruction tuning). Đối với các mô hình đa năng, sự đa dạng và chất lượng của hướng dẫn là rất quan trọng. Ngược lại, trong các lĩnh vực chuyên biệt, việc bổ sung các hướng dẫn cụ thể là cực kỳ cần thiết.

Quá trình instruction tuning của nhóm tác giả bao gồm hai thành phần: hướng dẫn chung và hướng dẫn pháp lý, nhằm nâng cao khả năng tuân thủ lệnh của mô hình. Hướng dẫn chung giúp cải thiện khả năng hiểu biết của mô hình trong những lĩnh vực như lập trình và toán học, trong khi hướng dẫn pháp lý tập trung vào các chi tiết quan trọng trong ngành. Quá trình này giúp SaulLM-7B-Instruct nâng cao kiến thức pháp luật và hoàn thành tốt các nhiệm vụ liên quan.

Dữ liệu

Dữ liệu Pretraining về Pháp lý

Để giảm thiểu vấn đề catastrophic forgetting trong quá trình continued pretraining, nhóm tác giả đã sử dụng lại dữ liệu training trước đó kết hợp với dữ liệu phổ biến từ Wikipedia, StackExchange và GitHub, chiếm khoảng 2% tổng số dữ liệu training cuối cùng. Nhóm cũng bổ sung dữ liệu hội thoại nhằm nâng cao hiệu suất mô hình, tận dụng ý tưởng rằng các mô hình dịch thuật hoạt động hiệu quả nhờ vào dữ liệu trùng khớp ngẫu nhiên.

Quá trình làm sạch dữ liệu bao gồm xử lý dữ liệu thu thập từ PDF và văn bản, loại bỏ các lỗi phổ biến như ký tự lặp lại và số dòng sai vị trí. Quy trình chuẩn hóa bao gồm việc chuẩn hóa tất cả ký tự Unicode, sử dụng các quy tắc để lọc theo độ phức tạp, và loại bỏ các đoạn văn không phù hợp.

Instruction Finetuning Mixes

Instruction Finetuning rất quan trọng để tối ưu hóa hiệu suất mô hình sau khi pretraining. Nhóm tác giả đã sử dụng kết hợp hướng dẫn chung và hướng dẫn pháp lý để huấn luyện mô hình hiểu và tuân thủ các yêu cầu hiệu quả. Hướng dẫn chung được thu thập từ nhiều nguồn, bao gồm SlimOrca, hướng dẫn trả lời câu hỏi toán và nhiều dữ liệu hội thoại, tạo thành bộ dữ liệu 600K hướng dẫn sau khi được lọc kỹ.

Xây dựng Hướng dẫn Pháp lý: Nhóm tác giả đã thiết kế các cuộc trò chuyện thương mại tập trung vào kỹ năng pháp lý qua nhiều loại tài liệu pháp lý, đảm bảo rằng quá trình test không được lấy từ các benchmark hiện có.

Phương pháp Đánh giá

Để đánh giá khả năng pháp lý của mô hình, nhóm tác giả sử dụng 3 benchmark: (i) so sánh perplexity của các backbones trên 5 loại tài liệu pháp lý, (ii) phát triển LegalBench thành LegalBench-Instruct, (iii) dựa vào phần pháp lý trong bộ benchmarks MMLU để có thêm thông tin sâu sắc.

Nhóm tác giả đảm bảo các datasets cập nhật và được thu thập sau ngày cắt dữ liệu của LLM. Họ cũng đã điều chỉnh prompt trong LegalBench để cải thiện độ chính xác của các nhiệm vụ, sửa đổi cách đánh giá để phù hợp hơn với bản chất phức tạp của các văn bản pháp lý.

Kết luận

Bài báo đã khẳng định phương pháp huấn luyện LLM cho lĩnh vực pháp lý phức tạp, từ việc xử lý dữ liệu đến phương pháp training và đánh giá. Qua đó, người đọc có thể tìm thấy những ý tưởng giá trị cho ứng dụng vào nhiều lĩnh vực khác nhau.
source: viblo

Gợi ý câu hỏi phỏng vấn
Không có dữ liệu

Không có dữ liệu

Bài viết được đề xuất
Bài viết cùng tác giả

Bình luận

Chưa có bình luận nào

Chưa có bình luận nào