Giới Thiệu
Trong bài viết trước, tôi đã giới thiệu về mô hình Gemma, một bước tiến mới trong xây dựng mô hình lớn của Google. Hôm nay, chúng ta sẽ cùng nhau khám phá Gemini, một sản phẩm ấn tượng khác từ Google. Chúng ta sẽ tìm hiểu cách sử dụng Gemini API để tận dụng tốt nhất khả năng của mô hình này.
Gemini là Gì? 🤖
Gemini là một mô hình ngôn ngữ lớn do Google AI phát triển, được huấn luyện trên một tập dữ liệu đồ sộ bao gồm văn bản và mã nguồn. Gemini cho phép người dùng giao tiếp và tạo ra văn bản một cách tự nhiên và giống con người. Đây là một công cụ mạnh mẽ giúp bạn thực hiện nhiều nhiệm vụ khác nhau, chẳng hạn như:
- Trả lời câu hỏi một cách chi tiết và phong phú, bao gồm cả những câu hỏi mở và khó hiểu.
- Sáng tạo các định dạng văn bản đa dạng như thơ ca, mã, kịch bản, nhạc, email, thư từ, và nhiều hơn nữa.
- Cung cấp thông tin và giải quyết thắc mắc của bạn một cách đáng tin cậy.
Bạn có thể trải nghiệm Gemini trực tiếp trên web hoặc trên điện thoại của mình.
Gemini API 👾
Ngoài việc sử dụng trên các nền tảng web và di động, Google còn cung cấp SDK cho phép nhà phát triển truy cập Gemini API một cách linh hoạt hơn. Dưới đây là các bước để khởi động:
- Cài đặt môi trường và nhận mã xác thực (token) để truy cập API.
- Tạo nội dung văn bản từ yêu cầu đầu vào văn bản.
- Tạo nội dung văn bản từ yêu cầu đầu vào hình ảnh.
Cài Đặt Môi Trường
Bắt đầu cài đặt SDK Python bằng lệnh:
pip install -q -U google-generativeai
Để lấy mã xác thực truy cập vào Gemini, bạn cần truy cập trang Google Studio. Sau khi vào, nhấp vào nút ở bên trái để tạo API token. Khi đã có mã, bạn chỉ cần gọi các thư viện và xây dựng các hàm cần thiết:
python
import pathlib
import textwrap
import google.generativeai as genai
from IPython.display import display
from IPython.display import Markdown
def to_markdown(text):
text = text.replace('•', ' *')
return Markdown(textwrap.indent(text, '> ', predicate=lambda _: True))
Nhập mã token mà bạn vừa tạo vào đoạn mã sau:
python
GOOGLE_API_KEY = "Nhập API Token của bạn vào đây"
genai.configure(api_key=GOOGLE_API_KEY)
Thực Nghiệm Với Gemini API
Trong phần này, chúng ta sẽ thực hiện hai thí nghiệm:
- Text từ Text: Yêu cầu Gemini cung cấp phản hồi văn bản dựa trên các yêu cầu văn bản mà bạn đưa ra (tương tự như ChatGPT).
- Text từ Ảnh: Yêu cầu Gemini mô tả nội dung của một bức ảnh mà bạn cung cấp.
Đầu tiên, chúng ta sẽ khám phá các mô hình khác mà Gemini cung cấp:
python
for m in genai.list_models():
if 'generateContent' in m.supported_generation_methods:
print(m.name)
Thí Nghiệm Text từ Text
Chúng ta sẽ sử dụng mô hình models/gemini-1.0-pro
cho thí nghiệm này:
python
model = genai.GenerativeModel('gemini-1.0-pro')
Phương thức generate_content
cho phép xử lý các yêu cầu đa dạng.
Ví dụ, để nhận phản hồi ngay lập tức:
python
response = model.generate_content("Tại sao Trái Đất quay xung quanh Mặt Trời?")
Để nhận phản hồi theo hình thức stream:
python
response_st = model.generate_content("Tại sao Trái Đất quay xung quanh Mặt Trời?", stream=True)
for chunk in response_st:
print(chunk.text)
Bạn có thể định dạng kết quả trả về dễ đọc hơn bằng cách sử dụng hàm to_markdown
đã định nghĩa trước đó.
Đánh giá nội dung còn cho phép bạn xem độ an toàn của phản hồi:
python
response.prompt_feedback
Thí Nghiệm Text từ Ảnh
Mô hình đa phương thức gemini-pro-vision
cho phép chúng ta gửi cả văn bản lẫn hình ảnh:
python
v_model = genai.GenerativeModel('gemini-pro-vision')
Tiến hành gửi hình ảnh và nhận phản hồi mô tả:
python
response = v_model.generate_content(img)
Kết Luận
Bài viết đã cung cấp cái nhìn tổng quan về Gemini API, giúp bạn khám phá các khả năng mạnh mẽ của mô hình ngôn ngữ mới từ Google. Hy vọng bài viết này sẽ hữu ích cho bạn trong việc phát triển các ứng dụng sử dụng AI.
Trước khi rời đi, hãy cho tôi một upvote và theo dõi để hỗ trợ tôi trong những bài viết tiếp theo.
Tham Khảo
- Gemini AI
- Google AI Tutorials
source: viblo