Giới Thiệu

Trong bài viết trước, tôi đã giới thiệu về mô hình Gemma, một bước tiến mới trong xây dựng mô hình lớn của Google. Hôm nay, chúng ta sẽ cùng nhau khám phá Gemini, một sản phẩm ấn tượng khác từ Google. Chúng ta sẽ tìm hiểu cách sử dụng Gemini API để tận dụng tốt nhất khả năng của mô hình này.

Gemini là Gì? 🤖

Gemini là một mô hình ngôn ngữ lớn do Google AI phát triển, được huấn luyện trên một tập dữ liệu đồ sộ bao gồm văn bản và mã nguồn. Gemini cho phép người dùng giao tiếp và tạo ra văn bản một cách tự nhiên và giống con người. Đây là một công cụ mạnh mẽ giúp bạn thực hiện nhiều nhiệm vụ khác nhau, chẳng hạn như:

Trả lời câu hỏi một cách chi tiết và phong phú, bao gồm cả những câu hỏi mở và khó hiểu.
Sáng tạo các định dạng văn bản đa dạng như thơ ca, mã, kịch bản, nhạc, email, thư từ, và nhiều hơn nữa.
Cung cấp thông tin và giải quyết thắc mắc của bạn một cách đáng tin cậy.

Bạn có thể trải nghiệm Gemini trực tiếp trên web hoặc trên điện thoại của mình.

Gemini API 👾

Ngoài việc sử dụng trên các nền tảng web và di động, Google còn cung cấp SDK cho phép nhà phát triển truy cập Gemini API một cách linh hoạt hơn. Dưới đây là các bước để khởi động:

Cài đặt môi trường và nhận mã xác thực (token) để truy cập API.
Tạo nội dung văn bản từ yêu cầu đầu vào văn bản.
Tạo nội dung văn bản từ yêu cầu đầu vào hình ảnh.

Cài Đặt Môi Trường

Bắt đầu cài đặt SDK Python bằng lệnh:

Copy

pip install -q -U google-generativeai

Để lấy mã xác thực truy cập vào Gemini, bạn cần truy cập trang Google Studio. Sau khi vào, nhấp vào nút ở bên trái để tạo API token. Khi đã có mã, bạn chỉ cần gọi các thư viện và xây dựng các hàm cần thiết:

python Copy

import pathlib
import textwrap

import google.generativeai as genai

from IPython.display import display
from IPython.display import Markdown

def to_markdown(text):
    text = text.replace('•', '  *')
    return Markdown(textwrap.indent(text, '> ', predicate=lambda _: True))

Nhập mã token mà bạn vừa tạo vào đoạn mã sau:

python Copy

GOOGLE_API_KEY = "Nhập API Token của bạn vào đây"

genai.configure(api_key=GOOGLE_API_KEY)

Thực Nghiệm Với Gemini API

Trong phần này, chúng ta sẽ thực hiện hai thí nghiệm:

Text từ Text: Yêu cầu Gemini cung cấp phản hồi văn bản dựa trên các yêu cầu văn bản mà bạn đưa ra (tương tự như ChatGPT).
Text từ Ảnh: Yêu cầu Gemini mô tả nội dung của một bức ảnh mà bạn cung cấp.

Đầu tiên, chúng ta sẽ khám phá các mô hình khác mà Gemini cung cấp:

python Copy

for m in genai.list_models():
    if 'generateContent' in m.supported_generation_methods:
        print(m.name)

Thí Nghiệm Text từ Text

Chúng ta sẽ sử dụng mô hình models/gemini-1.0-pro cho thí nghiệm này:

python Copy

model = genai.GenerativeModel('gemini-1.0-pro')

Phương thức generate_content cho phép xử lý các yêu cầu đa dạng.

Ví dụ, để nhận phản hồi ngay lập tức:

python Copy

response = model.generate_content("Tại sao Trái Đất quay xung quanh Mặt Trời?")

Để nhận phản hồi theo hình thức stream:

python Copy

response_st = model.generate_content("Tại sao Trái Đất quay xung quanh Mặt Trời?", stream=True)
for chunk in response_st:
    print(chunk.text)

Bạn có thể định dạng kết quả trả về dễ đọc hơn bằng cách sử dụng hàm to_markdown đã định nghĩa trước đó.

Đánh giá nội dung còn cho phép bạn xem độ an toàn của phản hồi:

python Copy

response.prompt_feedback

Thí Nghiệm Text từ Ảnh

Mô hình đa phương thức gemini-pro-vision cho phép chúng ta gửi cả văn bản lẫn hình ảnh:

python Copy

v_model = genai.GenerativeModel('gemini-pro-vision')

Tiến hành gửi hình ảnh và nhận phản hồi mô tả:

python Copy

response = v_model.generate_content(img)

Kết Luận

Bài viết đã cung cấp cái nhìn tổng quan về Gemini API, giúp bạn khám phá các khả năng mạnh mẽ của mô hình ngôn ngữ mới từ Google. Hy vọng bài viết này sẽ hữu ích cho bạn trong việc phát triển các ứng dụng sử dụng AI.

Trước khi rời đi, hãy cho tôi một upvote và theo dõi để hỗ trợ tôi trong những bài viết tiếp theo.

Tham Khảo

Gemini AI
Google AI Tutorials
source: viblo

Khám Phá Gemini API: Hướng Dẫn Sử Dụng Mô Hình Ngôn Ngữ Mới Của Google

Giới Thiệu

Gemini là Gì? 🤖

Gemini API 👾

Cài Đặt Môi Trường

Thực Nghiệm Với Gemini API

Thí Nghiệm Text từ Text

Thí Nghiệm Text từ Ảnh

Kết Luận

Tham Khảo

Bình luận