0
0
Lập trình
TT

VisionGen: Công cụ Tạo Video Thế Hệ Mới

Đăng vào 7 tháng trước

• 7 phút đọc

VisionGen: Công cụ Tạo Video Thế Hệ Mới

Giới thiệu

VisionGen là một công cụ tiên tiến cho việc tạo video từ video (video-to-video). Trong môi trường phát triển AI hiện tại, việc tạo ra video chính xác từ các yêu cầu phức tạp thường rất khó khăn. Để giải quyết vấn đề này, tôi đã phát triển một ứng dụng JSON tùy chỉnh giúp tự động hóa quá trình tạo yêu cầu, từ đó đảm bảo chất lượng video đầu ra tốt nhất.

Công cụ này không chỉ giúp tiết kiệm thời gian trong việc chú thích video mà còn tự động hóa việc phát hiện đối tượng, theo dõi và phân đoạn cảnh với độ chính xác cao. Điều này đặc biệt hữu ích cho việc đào tạo thị giác máy tính mà không cần trải qua quá trình đào tạo phức tạp, cho phép bạn tạo ra video mới từ các video tham chiếu ngay lập tức.

Demo

VisionGen Demo

Các Tính Năng Phân Tích Video

  • Theo Dõi Đối Tượng Liên Tục: Tăng ngưỡng độ tin cậy nếu các đối tượng bị bỏ lỡ.
  • Hộp Giới Hạn (Bounding Boxes): Với các lớp đối tượng có thể lọc hoặc loại trừ.
  • Mô Tả Ngữ Cảnh: Có thể chỉnh sửa hoặc thay đổi cho đầu ra cuối cùng.
  • Chuyển Đổi Ngữ (Transcriptions): Cung cấp thông tin tạm thời dựa trên dấu thời gian.
  • Hình Ảnh Thời Gian (Timeline Visualization): Nhảy đến một khoảnh khắc cụ thể trong video bằng cách nhấp vào văn bản.
  • Phân Đoạn Cảnh (Scene Segmentation): Phát hiện tự động các thay đổi cảnh và cốt truyện.
  • Chụp Màn Hình (Screenshots): Thành phần bí mật độc quyền trong quy trình làm việc của VisionGen.

Các Tính Năng Đa Phương Thức

🎥 Hiểu và Tạo Video

VisionGen sử dụng Gemini để hiểu các mối quan hệ tạm thời và chuyển động của đối tượng. Nó tạo ra video mạch lạc mà vẫn duy trì sự nhất quán của các đối tượng và theo cốt truyện được cung cấp.

🔍 Theo Dõi Đối Tượng với Xử Lý Che Khuất

Duy trì các ID đối tượng nhất quán trong toàn bộ video, ngay cả khi các đối tượng:

  • Bị che khuất tạm thời (ẩn sau các đối tượng khác)
  • Hiển thị một phần
  • Ra khỏi và vào khung hình

Mô hình nội suy vị trí dựa trên quỹ đạo trước và sau khi bị che khuất, đảm bảo việc theo dõi liên tục.

🎬 Phân Đoạn Cảnh

AI xác định các thay đổi cảnh khác nhau với dấu thời gian và mô tả chính xác, cho phép người dùng hiểu cấu trúc tổng thể một cách nhanh chóng.

⚙️ Tham Số Phân Tích Có Thể Tùy Chỉnh

Người dùng có thể tùy chỉnh cài đặt phân tích để cân bằng giữa chi tiết và tốc độ xử lý:

  • Ngưỡng Tin Cậy: Lọc bỏ các phát hiện có độ tin cậy thấp.
  • Tốc Độ Khung Hình: Kiểm soát độ chi tiết của phân tích cho các video dài khác nhau.
  • Tập Trung Vào Khoảng Thời Gian: Phân tích các phân đoạn cụ thể của video dài hơn.
  • Thêm/Xóa Âm Thanh: Âm thanh tùy chọn để cân bằng chi phí hoặc chồng âm thanh của riêng bạn.

Cách Sử Dụng Google AI Studio

VisionGen được xây dựng hoàn toàn bằng Google AI Studio:

  1. Tích Hợp Gemini 2.5 Flash: để hiểu video, phân tích các tệp đã tải lên theo từng khung hình, trích xuất các chú thích chi tiết và tạo ra một câu chuyện.
  2. Điểm cuối veo-2.0-generate-001: ứng dụng được thiết kế để không phụ thuộc vào mô hình và có 2 điểm cuối được cấu hình, bao gồm veo-3-fast-generate-preview.
  3. GoogleGenAI SDK: để giao tiếp với các API của Gemini và Veo bằng các yêu cầu có cấu trúc cho cả phân tích và tạo.
  4. Triển Khai Cloud Run: cho một triển khai mở rộng và bảo mật.

Ứng dụng được thiết kế để giao tiếp với các mô hình của Google, bao gồm Veo, trực tiếp từ trình duyệt bằng cách sử dụng SDK JavaScript chính thức @google/genai.

Cách Hoạt Động

1. Tạo JSON Yêu Cầu Chuẩn

Tạo Yêu Cầu JSON: tự động chuyển đổi dữ liệu phân tích video thành một yêu cầu JSON có cấu trúc, sẵn sàng cho việc tạo video.

Tính năng tiêu chuẩn của ứng dụng là tạo video tương tác, cho phép người dùng xem xét và chỉnh sửa kịch bản do AI tạo ra trước khi tạo video mới bằng một mô hình đã chọn.

2. Tạo Yêu Cầu JSON Nâng Cao

Yêu cầu JSON đã được nâng cấp để thu thập dữ liệu từ phân tích video và tạo ra các yêu cầu trung gian để hình thành một yêu cầu JSON tùy chọn, bao gồm:

  • Mô hình
  • Yêu cầu
  • Yêu cầu tiêu cực
  • Hạt giống
  • Khung hình chính (screenshots)
  • Chuyển đổi

Yêu cầu JSON mới này bao gồm một câu chuyện, các đối tượng bị loại trừ (yêu cầu tiêu cực), các khung hình chính từ video nguồn và dữ liệu chuyển đổi để hướng dẫn AI với ngữ cảnh tối đa từ video gốc nhằm tăng cường độ chính xác của đầu ra cuối cùng theo tầm nhìn của bạn.

Tại Sao Lại Sử Dụng Yêu Cầu JSON?

Dữ liệu phân tích video thô là một bảng tính của những sự thật không liên kết:

Copy
timestamp: 1.2s, object: 'car', bbox: [...]
timestamp: 1.3s, object: 'person', bbox: [...]
timestamp: 1.4s, object: 'car', bbox: [...]

generateNarrativeForVideo sử dụng mô hình văn bản Gemini để hoạt động như một "nhà viết kịch bản." Chúng tôi yêu cầu nó chuyển đổi dữ liệu thô thành một mảng có cấu trúc gồm các đối tượng NarrativePoint.

Copy
{
  "model": "veo-3.0-fast-generate-preview",
  "prompt": "Joker xuất hiện từ bên phải khung hình...",
  "negativePrompt": "...",
  "seed": 94272,
  "keyframes": [
    {
      "timestamp": 44.4,
      "image": "data:image/jpeg;base64,/9j/4AAQSkZJRgABAQ..."
    },
    {
      "timestamp": 48,
      "image": "data:image/jpeg;base64,/9j/2wBDAAYEBQYFBAY..."
    },
  ],
  "transcription": "[29.47s - 30.07s] Hey Arthur..."
}

Mảng JSON này hoạt động như một danh sách cảnh quay theo thời gian hoặc một kịch bản. Nó buộc AI tổ chức các sự kiện hỗn loạn (và sử dụng video làm tham chiếu cho một video mới).

Phân Chia Công Việc Hoạt Động Tốt Hơn Cùng Nhau

1. Seeding

Seeding là gì và tại sao nó được đưa vào metadata?

Yêu cầu là đích đến, và hạt giống cung cấp con đường mà AI đi để đến đó.

Seeding là để tính nhất quán. Nó tạo ra một giá trị tham chiếu được gán cho một yêu cầu để đảm bảo mô hình tuân theo các chi tiết cụ thể trong dữ liệu tham chiếu. Nó được sử dụng để tái tạo cùng một đầu ra mỗi lần, ngay cả với các biến thể yêu cầu nhỏ, bằng cách làm theo cùng một "con đường."

Nếu bạn có thể dự đoán kết quả, bạn có thể thao tác các chi tiết nhỏ của câu chuyện. Ví dụ, bạn có thể thêm, xóa hoặc sửa đổi các chi tiết của một yêu cầu, như màu sắc của một chiếc xe, mà không làm thay đổi loại xe hay hướng đi của nó.

2. Chaining

Một cuộc gọi API đến một mô hình như Veo tạo ra một đoạn video dài 8 giây. Mỗi cuộc gọi API yêu cầu một yêu cầu mới và tạo ra một khung hình mới, điều này có thể dẫn đến ngữ cảnh bị mất.

Giải pháp: Chúng tôi sử dụng một ảnh chụp màn hình được mã hóa Base64 như là 'khung hình cuối' từ bước trước đó. Yêu cầu mới mô tả những gì nên xảy ra tiếp theo, tiếp tục từ ảnh chụp màn hình.

Cách tiếp cận này giúp AI bám sát bảng màu, ánh sáng, kiểu đối tượng,bố cục của video gốc. Quy trình này loại bỏ sự mơ hồ và là bổ sung quan trọng nhất cho tính nhất quán.

Quá trình này có thể lặp lại vô hạn hoặc cho nhiều đoạn mà bạn cần để tạo ra độ dài video mong muốn.

Định Dạng Xuất:

  • Định Dạng YOLO: Tối ưu hóa cho việc đào tạo mô hình phát hiện đối tượng.
  • COCO JSON: Tương thích với các framework thị giác máy tính phổ biến.
  • JSON Tùy Chọn: Một tệp JSON chi tiết với các kịch bản và khung hình chính.

Lưu Trữ Liên Tục: Tất cả metadata được lưu trữ cục bộ cùng với phân tích, vì vậy nó sẽ được phục hồi khi bạn tải một dự án từ lịch sử của mình.

Kết luận

VisionGen không chỉ là một công cụ tạo video đơn thuần mà còn là một giải pháp mạnh mẽ cho các nhà phát triển và nhà nghiên cứu trong lĩnh vực AI và thị giác máy tính. Hãy thử ngay hôm nay và trải nghiệm sức mạnh của VisionGen trong việc tạo ra các video chất lượng cao từ video tham chiếu.

Câu hỏi thường gặp (FAQ)

VisionGen có thể sử dụng cho những ai?

VisionGen phù hợp cho các nhà phát triển, nhà nghiên cứu và bất kỳ ai quan tâm đến việc tạo ra video bằng AI.

Tôi có thể tùy chỉnh các tham số phân tích không?

Có, bạn có thể tùy chỉnh các tham số phân tích để phù hợp với nhu cầu của mình.

VisionGen có miễn phí không?

VisionGen có phiên bản miễn phí với một số tính năng hạn chế và các gói trả phí với nhiều tính năng hơn.

Gợi ý câu hỏi phỏng vấn
Không có dữ liệu

Không có dữ liệu

Bài viết được đề xuất
Bài viết cùng tác giả

Bình luận

Chưa có bình luận nào

Chưa có bình luận nào