Giới thiệu

Llama 3 là một mô hình AI mới được phát hành gần đây bởi Meta, thu hút sự quan tâm lớn từ cộng đồng công nghệ. Trong bài viết này, chúng tôi sẽ hướng dẫn bạn cách chạy mô hình Llama 3 ngay trên laptop cá nhân, từ việc cài đặt đến cấu hình mô hình.

Cài đặt Thư Viện Cần Thiết

Để bắt đầu, bạn sẽ cần cài đặt hai thư viện quan trọng:

Với CPU

Tạo một thư mục mới có tên TestLlama3.

Mở terminal và chạy các lệnh sau:

Copy

python -m venv venv
venv\Scripts\activate  # Kích hoạt môi trường ảo

Xong! Bây giờ bạn đã có một môi trường Python để làm việc. Tiếp theo, cài đặt thư viện llama-cpp-python và thư viện OpenAI:

bash Copy

pip install llama-cpp-python[server]==0.2.62
pip install openai

Lưu ý: Thư viện OpenAI không bắt buộc nhưng giúp đơn giản hóa việc triển khai ứng dụng.

Với GPU Nvidia

Nếu máy tính của bạn sử dụng GPU Nvidia, bạn cần thêm một số cài đặt trước khi lệnh pip:

bash Copy

$env:CMAKE_ARGS="-DLLAMA_CUBLAS=on"
pip install llama-cpp-python[server]==0.2.62
pip install openai

Tải Mô Hình Llama 3

Tiếp theo, chúng ta sẽ tải mô hình Llama-3–8B dưới định dạng GGUF từ HuggingFace. Bạn có thể chọn giữa hai phiên bản mô hình:

Q2_K (3 GB) - nhanh hơn nhưng ít chính xác hơn.
Q4_K_M (4.9 GB) - cân bằng giữa tốc độ và độ chính xác.

Tạo một thư mục con trong thư mục dự án chính của bạn mang tên model và chuyển file GGUF vào đó.

Chạy Máy Chủ và Tạo API

Để tương tác với mô hình Llama 3, chúng ta sẽ sử dụng phương pháp llama-cpp-server. Đầu tiên, mở cửa sổ terminal trong thư mục chính và kích hoạt môi trường ảo:

Tạo một file mới có tên LLama3-ChatAPI.py với mã Python sau:

python Copy

from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="not-needed")

Chúng ta sẽ cấu hình một lịch sử cuộc trò chuyện đơn giản để có thể giao tiếp với mô hình. Thực hiện theo đoạn mã dưới đây:

python Copy

history = [
    {"role": "system", "content": "You are an intelligent assistant. You always provide well-reasoned answers that are both correct and helpful."},
    {"role": "user", "content": "Hello, introduce yourself to someone opening this program for the first time. Be concise."},
]

Một vòng lặp while sẽ chạy và cho phép người dùng nhập prompt, từ đó nhận phản hồi từ mô hình:

python Copy

while True:
    completion = client.chat.completions.create(
        model="local-model",
        messages=history,
        temperature=0.7,
        stream=True,
    )

Hãy lưu ý rằng nếu bạn không có GPU, thời gian phản hồi có thể lâu hơn do tốc độ xử lý.

Khởi Chạy Máy Chủ

Để khởi chạy chương trình:

Với CPU:

bash Copy

python -m llama_cpp.server --host 0.0.0.0 --model .\model\Meta-Llama-3-8B-Instruct.Q2_K.gguf --n_ctx 2048

Với GPU Nvidia:

bash Copy

python -m llama_cpp.server --host 0.0.0.0 --model .\model\Meta-Llama-3-8B-Instruct.Q2_K.gguf --n_ctx 2048 --n_gpu_layers 28

Khi máy chủ sẵn sàng, bạn có thể giao tiếp với mô hình qua terminal.

Một Số Lưu Ý

Đặt n_ctx ở mức 2048 để tiết kiệm tài nguyên.
Mô hình 8B có tổng cộng 33 layer, nhưng bạn có thể điều chỉnh số lượng layer khi sử dụng GPU.
Hãy thử nghiệm với các phiên bản mô hình khác nhau để tìm ra sự cân bằng tốt nhất giữa tốc độ và hiệu suất.

Kết Luận

Trong bài viết này, chúng tôi đã hướng dẫn bạn cách chạy một mô hình Llama 3 một cách đơn giản trên laptop. Hy vọng những thông tin này sẽ giúp bạn áp dụng mô hình mới này một cách hiệu quả cho công việc của mình.
source: viblo

Hướng Dẫn Chạy Mô Hình Llama 3 Trên Laptop Cá Nhân: Cách Thực Hiện Chi Tiết

Giới thiệu

Cài đặt Thư Viện Cần Thiết

Với CPU

Với GPU Nvidia

Tải Mô Hình Llama 3

Chạy Máy Chủ và Tạo API

Khởi Chạy Máy Chủ

Một Số Lưu Ý

Kết Luận

Bình luận