Giới thiệu
Llama 3 là một mô hình AI mới được phát hành gần đây bởi Meta, thu hút sự quan tâm lớn từ cộng đồng công nghệ. Trong bài viết này, chúng tôi sẽ hướng dẫn bạn cách chạy mô hình Llama 3 ngay trên laptop cá nhân, từ việc cài đặt đến cấu hình mô hình.
Cài đặt Thư Viện Cần Thiết
Để bắt đầu, bạn sẽ cần cài đặt hai thư viện quan trọng:
Với CPU
-
Tạo một thư mục mới có tên
TestLlama3
. -
Mở terminal và chạy các lệnh sau:
python -m venv venv venv\Scripts\activate # Kích hoạt môi trường ảo
Xong! Bây giờ bạn đã có một môi trường Python để làm việc. Tiếp theo, cài đặt thư viện llama-cpp-python
và thư viện OpenAI
:
bash
pip install llama-cpp-python[server]==0.2.62
pip install openai
Lưu ý: Thư viện OpenAI không bắt buộc nhưng giúp đơn giản hóa việc triển khai ứng dụng.
Với GPU Nvidia
Nếu máy tính của bạn sử dụng GPU Nvidia, bạn cần thêm một số cài đặt trước khi lệnh pip:
bash
$env:CMAKE_ARGS="-DLLAMA_CUBLAS=on"
pip install llama-cpp-python[server]==0.2.62
pip install openai
Tải Mô Hình Llama 3
Tiếp theo, chúng ta sẽ tải mô hình Llama-3–8B dưới định dạng GGUF từ HuggingFace. Bạn có thể chọn giữa hai phiên bản mô hình:
- Q2_K (3 GB) - nhanh hơn nhưng ít chính xác hơn.
- Q4_K_M (4.9 GB) - cân bằng giữa tốc độ và độ chính xác.
Tạo một thư mục con trong thư mục dự án chính của bạn mang tên model
và chuyển file GGUF vào đó.
Chạy Máy Chủ và Tạo API
Để tương tác với mô hình Llama 3, chúng ta sẽ sử dụng phương pháp llama-cpp-server
. Đầu tiên, mở cửa sổ terminal trong thư mục chính và kích hoạt môi trường ảo:
Tạo một file mới có tên LLama3-ChatAPI.py
với mã Python sau:
python
from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="not-needed")
Chúng ta sẽ cấu hình một lịch sử cuộc trò chuyện đơn giản để có thể giao tiếp với mô hình. Thực hiện theo đoạn mã dưới đây:
python
history = [
{"role": "system", "content": "You are an intelligent assistant. You always provide well-reasoned answers that are both correct and helpful."},
{"role": "user", "content": "Hello, introduce yourself to someone opening this program for the first time. Be concise."},
]
Một vòng lặp while
sẽ chạy và cho phép người dùng nhập prompt, từ đó nhận phản hồi từ mô hình:
python
while True:
completion = client.chat.completions.create(
model="local-model",
messages=history,
temperature=0.7,
stream=True,
)
Hãy lưu ý rằng nếu bạn không có GPU, thời gian phản hồi có thể lâu hơn do tốc độ xử lý.
Khởi Chạy Máy Chủ
Để khởi chạy chương trình:
- Với CPU:
bash
python -m llama_cpp.server --host 0.0.0.0 --model .\model\Meta-Llama-3-8B-Instruct.Q2_K.gguf --n_ctx 2048
- Với GPU Nvidia:
bash
python -m llama_cpp.server --host 0.0.0.0 --model .\model\Meta-Llama-3-8B-Instruct.Q2_K.gguf --n_ctx 2048 --n_gpu_layers 28
Khi máy chủ sẵn sàng, bạn có thể giao tiếp với mô hình qua terminal.
Một Số Lưu Ý
- Đặt
n_ctx
ở mức 2048 để tiết kiệm tài nguyên. - Mô hình 8B có tổng cộng 33 layer, nhưng bạn có thể điều chỉnh số lượng layer khi sử dụng GPU.
- Hãy thử nghiệm với các phiên bản mô hình khác nhau để tìm ra sự cân bằng tốt nhất giữa tốc độ và hiệu suất.
Kết Luận
Trong bài viết này, chúng tôi đã hướng dẫn bạn cách chạy một mô hình Llama 3 một cách đơn giản trên laptop. Hy vọng những thông tin này sẽ giúp bạn áp dụng mô hình mới này một cách hiệu quả cho công việc của mình.
source: viblo