Giới thiệu

Trong thế giới ngày nay, việc phụ thuộc vào điện toán đám mây đã trở thành một thách thức lớn cho nhiều ứng dụng AI. Với sự phát triển nhanh chóng của công nghệ phần cứng edge, việc triển khai các quy trình AI đa tác nhân hoàn toàn cục bộ không chỉ khả thi mà còn mang lại nhiều lợi ích vượt trội. Bài viết này sẽ đi sâu vào cách thức hoạt động của quy trình này, từ việc cài đặt cho đến tối ưu hóa hiệu suất.

Thách Thức: Vượt Qua Sự Phụ Thuộc Vào Đám Mây

Nhiều ứng dụng AI hiện tại vẫn phải gửi dữ liệu đến các máy chủ từ xa, gây ra độ trễ, chi phí cao và các vấn đề về quyền riêng tư. Tôi đã tự hỏi: "Liệu phần cứng edge có thể xử lý một quy trình AI đa tác nhân hoàn toàn cục bộ không?" Mục tiêu của tôi là tạo ra một trình tạo bài thuyết trình điều khiển bằng giọng nói, có khả năng hiểu ngôn ngữ tự nhiên, phối hợp nhiều tác nhân AI, và tạo ra nội dung có cấu trúc - tất cả diễn ra trên một thiết bị edge mà không cần kết nối Internet.

Demo: Xem Hệ Thống Hoạt Động

Trước khi đi vào chi tiết kỹ thuật, hãy xem quy trình làm việc của hệ thống:

Bước 1: Nhập lệnh "Tạo slide về kỹ thuật điện".
Bước 2: Xử lý AI.
Bước 3: Tạo bài thuyết trình đã định dạng, toàn bộ đều chạy cục bộ trên Jetson Orin Nano.

Cài Đặt và Chuẩn Bị

Cài Đặt Khung CAMEL-AI

Để bắt đầu, bạn cần cài đặt khung CAMEL-AI với tất cả các phụ thuộc:

bash Copy

pip install camel-ai[all]

Hoặc nếu bạn muốn cài đặt tối thiểu:

bash Copy

pip install camel-ai

Cũng cần cài đặt thêm một số thư viện khác:

bash Copy

pip install python-pptx faster-whisper sounddevice soundfile TTS

Cài Đặt llama.cpp cho Sự Suy Diễn Cục Bộ

Tiếp theo, bạn sẽ cần clone và xây dựng thư viện llama.cpp:

bash Copy

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
mkdir build
cd build
cmake .. -DLLAMA_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES=87
make -j$(nproc)

Tải mô hình của bạn (ví dụ: Qwen 2.5 7B):

bash Copy

wget https://huggingface.co/Qwen/Qwen2.5-7B-Instruct-GGUF/resolve/main/qwen2.5-7b-instruct-q4_k_m.gguf

Khởi động máy chủ:

bash Copy

./build/bin/llama-server --model qwen2.5-7b-instruct-q4_k_m.gguf --port 8000 --host 0.0.0.0 --ctx-size 4096 --threads 4

Cấu Hình Dịch Vụ Hệ Thống

Để triển khai sản xuất, bạn có thể tạo một dịch vụ systemd:

bash Copy

# /etc/systemd/system/llama-server.service
[Unit]
Description=Local LLM Server (Qwen 2.5 7B on llama.cpp)
After=network.target

[Service]
Type=simple
User=your_user
WorkingDirectory=/home/your_user/llama.cpp
ExecStart=/home/your_user/llama.cpp/build/bin/llama-server --model /home/your_user/models/qwen2.5-7b-instruct-q4_k_m.gguf --port 8000 --host 0.0.0.0 --ctx-size 4096 --threads 4
Restart=always

[Install]
WantedBy=multi-user.target

# Kích hoạt và khởi động dịch vụ
sudo systemctl enable llama-server.service
sudo systemctl start llama-server.service

Khởi Tạo Các Thành Phần CAMEL-AI

Việc thiết lập khung đa tác nhân yêu cầu khởi tạo mô hình, tác nhân và bộ công cụ:

python Copy

from camel.agents import ChatAgent
from camel.models import ModelFactory
from camel.messages import BaseMessage
from camel.toolkits import PPTXToolkit
from camel.types import RoleType, ModelPlatformType

model = ModelFactory.create(
    model_platform=ModelPlatformType.OLLAMA,
    model_type="Qwen 2.5 7B",
    url="http://localhost:8000/v1",
    model_config_dict={
        "temperature": 0.1,
        "max_tokens": 512,
        "top_p": 0.9,
    }
)

ppt_toolkit = PPTXToolkit()
tools = ppt_toolkit.get_tools()

conversation_agent = ChatAgent(
    system_message=BaseMessage(
        role_name="assistant",
        role_type=RoleType.ASSISTANT,
        content="""Bạn là Jetson, một trợ lý AI hữu ích có thể trò chuyện và tạo bài thuyết trình PowerPoint khi được yêu cầu.""",
        meta_dict={}
    ),
    model=model,
    tools=[]
)

slide_agent = ChatAgent(
    system_message=BaseMessage(
        role_name="assistant",
        role_type=RoleType.ASSISTANT,
        content="""Bạn là một trợ lý bài thuyết trình PowerPoint với quyền truy cập vào các công cụ tạo bài thuyết trình.""",
        meta_dict={}
    ),
    model=model,
    tools=tools
)

def handle_request(user_input):
    if "slides" in user_input.lower():
        response = slide_agent.step(BaseMessage(
            role_name="user",
            role_type=RoleType.USER,
            content=user_input,
            meta_dict={}
        ))
    else:
        response = conversation_agent.step(BaseMessage(
            role_name="user",
            role_type=RoleType.USER,
            content=user_input,
            meta_dict={}
        ))

    return response.msg.content

Tổng Quan Kiến Trúc

Hệ thống được xây dựng trên kiến trúc đa tác nhân cho phép tối ưu hóa hiệu suất và độ tin cậy. Mỗi tác nhân có nhiệm vụ riêng biệt, giúp giảm thiểu rủi ro khi một tác nhân gặp sự cố. Việc này cũng giúp dễ dàng mở rộng hệ thống khi cần thêm các tính năng mới.

Đánh Giá và Lựa Chọn Mô Hình

Khi thử nghiệm, chúng tôi phát hiện ra nhiều khác biệt đáng kể về khả năng triển khai trên edge:

Mistral 7B Instruct Q4 GGUF: Khả năng gọi hàm không ổn định, dẫn đến định dạng JSON không nhất quán.
Meta Llama 3.1 8B Instruct Q4 GGUF: Mặc dù cải thiện hơn, nhưng vẫn gặp phải vấn đề về tài nguyên hệ thống.
Qwen 2.5 7B Instruct Q4 GGUF: Cung cấp kết quả tốt nhất với độ tin cậy cao và khả năng sử dụng bộ nhớ hiệu quả.

Phân Tích Hiệu Suất

Các Thành Phần Thành Công

Hiệu Suất Whisper STT:

Độ chính xác: >95% trong điều kiện tiếng ồn khác nhau.
Độ trễ: ~1-2 giây cho các clip âm thanh 15 giây.

Những Nút Thắt Hiệu Suất

Tổng hợp TTS: Mô hình Tacotron2 chưa được tối ưu hóa cho ARM64, dẫn đến thời gian tạo ra phản hồi lâu hơn.

Tối Ưu Hóa Kỹ Thuật

Quản Lý Bộ Nhớ:

python Copy

# Quản lý vòng đời mô hình để giải phóng bộ nhớ
if not current_tts_active:
    del tts_model
    torch.cuda.empty_cache()

Kết Luận

Quy trình AI đa tác nhân hoàn toàn khả thi trên phần cứng edge. Sự kết hợp giữa khả năng điều phối của CAMEL-AI và khả năng suy diễn cục bộ tối ưu cho thấy rằng các ứng dụng AI tinh vi có thể hoạt động độc lập mà không cần hạ tầng đám mây.

Hãy liên hệ với tôi để thảo luận thêm về kiến trúc AI edge và các chiến lược tối ưu hóa.

Chạy Quy Trình AI Đa Tác Nhân Trên Phần Cứng Edge

Giới thiệu

Thách Thức: Vượt Qua Sự Phụ Thuộc Vào Đám Mây

Demo: Xem Hệ Thống Hoạt Động

Cài Đặt và Chuẩn Bị

Cài Đặt Khung CAMEL-AI

Cài Đặt llama.cpp cho Sự Suy Diễn Cục Bộ

Cấu Hình Dịch Vụ Hệ Thống

Khởi Tạo Các Thành Phần CAMEL-AI

Tổng Quan Kiến Trúc

Đánh Giá và Lựa Chọn Mô Hình

Phân Tích Hiệu Suất

Các Thành Phần Thành Công

Những Nút Thắt Hiệu Suất

Tối Ưu Hóa Kỹ Thuật

Kết Luận

Bình luận