Giới thiệu llm-testlab — Bộ Công Cụ Đánh Giá Đầu Ra của Mô Hình Ngôn Ngữ Lớn

Mô hình ngôn ngữ lớn (LLM) rất mạnh mẽ, nhưng việc đánh giá và xác thực đầu ra của chúng vẫn là một thách thức. Với llm-testlab, bạn có một bộ công cụ kiểm tra đơn giản nhưng toàn diện cho các nhu cầu đánh giá LLM thông thường: độ tương đồng ngữ nghĩa, tính nhất quán, phát hiện ảo tưởng và an toàn/bảo mật.

llm-testlab là gì?

llm-testlab là một gói Python giúp bạn:

Xác thực rằng các phản hồi của LLM gần gũi về mặt ngữ nghĩa với các câu trả lời mong đợi.
Phát hiện ảo tưởng bằng cách so sánh các phản hồi với cơ sở kiến thức.
Kiểm tra tính nhất quán qua nhiều lần chạy cùng một câu lệnh.
Đánh dấu nội dung không an toàn hoặc độc hại bằng cách sử dụng từ khóa hoặc biểu thức chính quy.
Trình bày kết quả một cách đẹp mắt trên terminal với các bảng phong phú.

Mục tiêu của nó là đơn giản hóa công việc phát triển, kiểm tra và tin tưởng vào các hệ thống dựa trên LLM (chatbots, trợ lý, API).

Tính Năng Chính & Tại Sao Chúng Quan Trọng

1. Kiểm Tra Ngữ Nghĩa

Chức năng: Tính toán độ tương đồng dựa trên nhúng giữa các câu trả lời mong đợi và phản hồi được tạo ra.
Tại sao điều này hữu ích: Nắm bắt ý nghĩa thay vì so sánh chuỗi chặt chẽ — thân thiện và thực tế hơn.

2. Phát Hiện Ảo Tưởng

Chức năng: So sánh đầu ra được tạo ra với các sự thật đã biết trong cơ sở kiến thức.
Tại sao điều này hữu ích: Đảm bảo tính chính xác và độ tin cậy.

3. Kiểm Tra Tính Nhất Quán

Chức năng: Chạy cùng một câu lệnh nhiều lần và kiểm tra sự biến đổi.
Tại sao điều này hữu ích: Các LLM có thể tạo ra đầu ra không xác định; bạn muốn hành vi ổn định.

4. Kiểm Tra An Ninh / An Toàn

Chức năng: Tìm kiếm từ khóa độc hại hoặc các mẫu regex, hoặc sự tương đồng với nội dung nguy hiểm.
Tại sao điều này hữu ích: Tránh các đầu ra không mong muốn hoặc không an toàn.

Tùy chọn thêm: Hỗ trợ FAISS cho độ tương đồng nhúng nhanh hơn, tích hợp Hugging Face, v.v.

Cách Cài Đặt

Bạn có thể cài đặt phiên bản cơ bản với các tính năng cốt lõi:

bash Copy

pip install llm-testlab

Nếu bạn muốn các khả năng bổ sung:

bash Copy

# Cài đặt với hỗ trợ FAISS
pip install llm-testlab[faiss]

# Cài đặt với hỗ trợ Hugging Face
pip install llm-testlab[huggingface]

# Hoặc tất cả mọi thứ
pip install llm-testlab[faiss,huggingface]

Ví Dụ Sử Dụng

python Copy

# Ví dụ mẫu sử dụng Hugging Face
from huggingface_hub import InferenceClient
from llm_testing_suite import LLMTestSuite
HF_TOKEN = "" # thay thế bằng mã thông báo của bạn

# Khởi tạo client (chỉ mã thông báo, mô hình được truyền vào phương thức)
client = InferenceClient(
    token=HF_TOKEN,
)

def hf_llm(prompt: str) -> str:
    """
    Sử dụng API Inference của Hugging Face để nhận hoàn thành văn bản đầy đủ (không streaming).
    """
    messages = [
        {"role": "system", "content": "Bạn là một trợ lý hữu ích."},
        {"role": "user", "content": prompt},
    ]

    response = client.chat.completions.create(
        model="meta-llama/Llama-4-Scout-17B-16E-Instruct",
        messages=messages,
        max_tokens=150,
        temperature=0.7,
        top_p=0.95,
    )

    # Trích xuất văn bản từ phản hồi
    text = response.choices[0].message["content"]
    return text.strip()


# Ví dụ với bộ kiểm tra của bạn
suite = LLMTestSuite(hf_llm)
print("Sử dụng FAISS:", suite.use_faiss)
suite.add_knowledge("Rome là thủ đô của Italy")
suite.list_knowledge()
result = suite.run_tests(
    prompt="Rome là thủ đô của Italy?",
    runs=3,
    return_type="both",
    save_json=True
)

print(result)

Điều này sẽ tạo ra đầu ra trên terminal (thông qua các bảng phong phú), và tùy chọn lưu các tệp JSON của kết quả.

Hậu Trường (Cách Hoạt Động)

Nhúng: Sử dụng sentence-transformers để tính toán nhúng của các câu trả lời mong đợi, phản hồi, cơ sở kiến thức, v.v.
Tương đồng: Bạn có thể sử dụng độ tương đồng cosine (mặc định) hoặc FAISS để tìm kiếm tương đồng nhanh hơn, có thể mở rộng.
Cơ sở Kiến Thức: Khởi tạo llm-testlab với kiến thức thực tế, để các bài kiểm tra ảo tưởng so sánh đầu ra với những gì được “biết.”
Kiểm Tra An Ninh / An Toàn: Lọc dựa trên từ khóa hoặc biểu thức chính quy cho các thứ như “thực thi mã,” “vượt qua quy tắc,” v.v.

Tính Năng Tùy Chọn / Nâng Cao

Hỗ trợ FAISS: Nếu bạn kích hoạt FAISS (thông qua pip install llm-testlab[faiss]), việc kiểm tra tương đồng/ảo tưởng nhanh hơn cho các cơ sở kiến thức lớn hơn.
Tích hợp Hugging Face: Sử dụng mô hình hoặc API của Hugging Face được hỗ trợ nếu bạn cài đặt các phụ thuộc bổ sung.
Cơ sở kiến thức tùy chỉnh: Bạn có thể thêm các sự thật của riêng mình, xóa chúng hoặc xóa chúng.
Quy tắc an toàn có thể mở rộng: Thêm hoặc xóa các từ khóa độc hại hoặc mẫu regex theo miền của bạn.

Nơi Sử Dụng llm-testlab

Nó hoạt động tốt trong nhiều bối cảnh:

Trong quá trình phát triển mô hình: Để phát hiện lỗi sớm.
Dòng kiểm tra QA: kiểm tra tự động trước khi triển khai.
Chatbots, trợ lý hoặc backend API: đảm bảo các phản hồi an toàn, nhất quán và chính xác.
Nghiên cứu và đánh giá LLM: sử dụng như một phần của bộ đánh giá.

Bắt Đầu / Thử Ngay Hôm Nay

Cài đặt với pip
Thử ví dụ ở trên
Khám Phá Ngay 🚀
- GitHub Repo: llm-testlab
- PyPI: llm-testlab
Chào đón các đóng góp! Nếu bạn có ý tưởng (bài kiểm tra mới, chỉ số, v.v.), hãy thoải mái gửi yêu cầu hoặc PR.

✨ Với llm-testlab, việc đánh giá phản hồi của LLM trở nên đơn giản hơn, có cấu trúc và có thể tái tạo.

Nếu điều này nghe có vẻ hữu ích, hãy cho repo một ⭐️ hoặc đóng góp ý tưởng và cải tiến.

Đánh Giá Mô Hình Ngôn Ngữ Lớn với llm-testlab