Lời Mở Đầu
Xin chào tất cả các bạn! Trong phần một, mình đã giới thiệu khái niệm cơ bản về Retrieval-Augmented Generation (RAG) và cách thức hoạt động của nó. Trong phần này, chúng ta sẽ cùng nhau xây dựng một chatbot đơn giản sử dụng RAG thông qua framework LlamaIndex. Để bắt đầu, các bạn có thể tải file notebook và datasets ở đây: [prepare].
Thực Hành
Cài Đặt Các Package Cần Thiết
Trước tiên, chúng ta cần cài đặt framework LlamaIndex:
pip install llama-index
Trong bài viết này, mình sẽ hướng dẫn các bạn cách sử dụng Gemini AI - một API miễn phí mạnh mẽ từ Google, được coi là đối thủ xứng tầm với ChatGPT của OpenAI.
Cài đặt các package liên quan đến Gemini:
pip install llama-index-llms-gemini
pip install -q llama-index google-generativeai
Chúng ta sẽ cần thực hiện embedding các chunk dữ liệu, do đó cần có một mô hình embedding từ Hugging Face:
pip install llama-index-embeddings-huggingface
Lấy API của Google Gemini
Như đã đề cập, chúng ta sẽ sử dụng API gemini-pro từ Google. Đầu tiên, hãy truy cập vào Google AI Studio và làm theo các bước sau để tạo API key:
- Truy cập phần Get API key.
- Nhấn Create API key để tạo một khóa API mới.
- Lưu lại khóa API này, chú ý không để lộ ra bên ngoài.
Để kiểm tra hoạt động của API, bạn có thể sử dụng dòng lệnh sau trong terminal:
curl \
-H 'Content-Type: application/json' \
-d '{"contents":[{"parts":[{"text":"Explain how AI works"}]}]}' \
-X POST 'https://generativelanguage.googleapis.com/v1beta/models/gemini-pro:generateContent?key=YOUR_API_KEY'
Xây Dựng RAG Với LlamaIndex
Cài Đặt Gemin API và Mô Hình Embedding
Đầu tiên, bạn cần thiết lập API key cho gemini vào biến môi trường:
google_gemini_api = "AIzaSyD0iBVrNDJ8e2-----9p8DiuNEXCaykqjQ"
import os
os.environ["GOOGLE_API_KEY"] = google_gemini_api
os.environ["MODEL_NAME"] = "models/gemini-pro"
Tiếp theo, thiết lập mô hình embedding và mô hình LLM cho pipeline RAG:
from llama_index.llms.gemini import Gemini
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
# Mô hình LLM
llm = Gemini(model_name="models/gemini-pro", api_key=os.environ["GOOGLE_API_KEY"])
# Mô hình embedding
embed_model = HuggingFaceEmbedding(model_name="BAAI/bge-small-en-v1.5")
Tiếp theo, cấu hình LlamaIndex để sử dụng mô hình embedding và LLM:
from llama_index.core import Settings
Settings.llm = llm
Settings.embed_model = embed_model
Chunk Dữ Liệu và Lưu Trữ
Trong phần này, giả sử chúng ta đang xây dựng một mô hình RAG về chủ đề động vật. Dữ liệu bao gồm hai tệp tin: bear.txt và tiger.txt nằm trong thư mục data_animal/
.
Sử dụng SimpleDirectoryReader
của LlamaIndex để tải dữ liệu:
from llama_index.core import SimpleDirectoryReader, VectorStoreIndex
from llama_index.core.node_parser import TokenTextSplitter
# Đọc dữ liệu từ thư mục data_animal
reader = SimpleDirectoryReader(input_dir="/home/trinh.quang.huy/LLM_project/data_animal")
documents = reader.load_data()
print("len documents: ", len(documents))
# Tách chunk bằng TokenTextSplitter
splitter = TokenTextSplitter(
chunk_size=512,
chunk_overlap=10,
separator=" "
)
nodes = splitter.get_nodes_from_documents(documents)
print("len nodes: ", len(nodes))
Cuối cùng, chúng ta sẽ thực hiện indexing và lưu trữ dữ liệu:
index = VectorStoreIndex(nodes)
index.storage_context.persist(persist_dir="./animal_index_storage")
Cấu trúc lưu trữ sẽ bao gồm các tệp tin như default__vector_store.json
, docstore.json
,...
Tải Vector Index
Để tải index từ thư mục lưu trữ:
from llama_index.core import StorageContext, load_index_from_storage
PERSIST_DIR = "animal_index_storage"
storage_context = StorageContext.from_defaults(persist_dir=PERSIST_DIR)
index = load_index_from_storage(storage_context)
Tạo Prompt Template
Hãy tạo một prompt template cho gemini để đảm bảo chatbot trả lời đầy đủ và chính xác dựa vào thông tin trong ngữ cảnh:
from llama_index.core import PromptTemplate
QA_PROMPT_TMPL = (
"Your task is to answer all the questions that users ask based only on the context information provided below.\n"
"Please answer the question at length and in detail, with full meaning.\n"
"In the answer there is no sentence such as: based on the context provided.\n"
"Context information is below.\n"
"---------------------\n"
"{context_str}\n"
"---------------------\n"
"Given the context information and not prior knowledge, "
"answer the query.\n"
"Query: {query_str}\n"
"Answer: "
)
qa_prompt = PromptTemplate(QA_PROMPT_TMPL)
print(qa_prompt)
Tạo Query Engine
Tạo engine để xử lý query từ người dùng và tùy chỉnh prompt nếu cần:
query_engine = index.as_query_engine(similarity_top_k=2)
query_engine.update_prompts(
{"response_synthesizer:text_qa_template": qa_prompt}
)
Kiểm Tra Kết Quả
Bạn có thể kiểm tra chatbot bằng các câu hỏi sau:
Câu hỏi 1: Màu lông của gấu:
question_1 = "What color is the polar bear?"
Kết quả:
Answer: Polar bears have thick, double-layered fur that is white in color. The white color helps them camouflage well in snow and ice environments.
Câu hỏi 2: Trọng lượng trung bình của hà mã:
question_2 = "Average weight of Hippo?"
Kết quả:
Answer: The provided context does not mention anything about hippos, so I cannot answer this question.
Vậy là chatbot của chúng ta đã hoạt động rất tốt!
Các Bài Tập Thực Hành Khác
Các bạn có thể thử nghiệm thêm với RAG bằng cách:
- Thay đổi thuật toán retriever khác.
- Khám phá và lấy các chunk liên quan xem chúng ra sao.
- Thử nghiệm với các thuật toán chunk dữ liệu khác.
Lời Kết
Như vậy, mình đã cùng các bạn thực hành một ví dụ cơ bản về RAG. Từ kiến thức nền tảng này, các bạn có thể phát triển và tìm hiểu sâu hơn về các pipeline RAG khác nhau, đồng thời xây dựng một chatbot riêng cho mình. Nếu các bạn thấy bài viết hữu ích, hãy cho mình một Upvote nhé! Cảm ơn các bạn!
Tài Liệu Tham Khảo:
1. LlamaIndex
source: viblo