0
0
Lập trình
Flame Kris
Flame Krisbacodekiller

Khám Phá Giải Pháp Digital Humans Phần 4: Hallo - Biến Hình Ảnh Tĩnh Thành Những Câu Chuyện Sống Động

Đăng vào 2 tuần trước

• 3 phút đọc

Giới Thiệu Về Hallo

Giải pháp biến những bức ảnh tĩnh thành những hình ảnh sống động luôn là ước mơ của nhiều người trong kỷ nguyên công nghệ số. Với sự phát triển mạnh mẽ của trí tuệ nhân tạo và deep learning trong những năm gần đây, công nghệ tạo chuyển động cho ảnh chân dung thông qua âm thanh đã đạt được những bước tiến đáng kể. Nhiều mô hình như SadTalkerDiffTalk đã ra đời, nhưng vẫn còn nhiều thách thức trong việc đồng bộ hóa môi, đảm bảo chất lượng video chân thực và hỗ trợ nhiều ngôn ngữ cũng như phong cách khác nhau.

Một nhóm nghiên cứu từ các trường đại học như Fudan, Baidu, ETH Zurich và Nam Kinh đã hợp tác phát triển mô hình mới mang tên Hallo. Mô hình này đã có nhiều đột phá và cho phép tạo ra hình ảnh hoạt hình vô cùng chân thực. Đặc biệt, Hallo có mã nguồn mở, điều này mang lại lợi thế lớn so với một số mô hình khác như V*** hay E** chưa công bố mã nguồn rõ ràng.

Bạn có thể tham khảo các bản demo của Hallo qua trang web chính thức: Hallo Demo. Một ví dụ thú vị mà mình đã thử là Mr. Bean hát bài Đừng làm trái tim anh đau của Tùng.

Cách Hoạt Động Của Hallo

Đặc Điểm Chuyên Biệt

Hallo sử dụng kiến trúc dựa trên Stable Diffusion 1.5. Thay vì dựa vào các đặc trưng văn bản, nhóm nghiên cứu đã thay thế bằng các đặc trưng âm thanh. Hình ảnh ban đầu được nén vào không gian Latent và qua đó, mô hình sẽ biến đổi và phục hồi hình ảnh.

Khi tạo ra video, Hallo không chỉ đơn thuần ghép nối âm thanh với hình ảnh, mà còn áp dụng phương pháp Hierarchical Audio-Visual Cross Attention để phân tích và đồng bộ hóa khuôn mặt, biểu cảm và tư thế đầu với âm thanh. Khi nhận vào âm thanh, Hallo sẽ tạo ra chuyển động môi, kết hợp với các biểu cảm và tư thế tự nhiên của nhân vật.

Tóm lại, Hallo bao gồm một kiến trúc mô hình dựa trên Stable Diffusion 1.5, kết hợp với Hierarchical Audio-Visual Cross Attention và một mạng tham chiếu gọi là ReferenceNet. ReferenceNet giúp nâng cao chất lượng video và đảm bảo tính nhất quán. Kỹ thuật Temporal Alignment cũng được sử dụng để mang lại video mượt mà và không bị giật lag.

Khái Niệm Cần Biết

1. Mô Hình Khuếch Tán Tiềm Ẩn (Latent Diffusion Models)

Mô hình khuếch tán tiềm ẩn là một loại mô hình hoạt động trong không gian tiềm ẩn, được mã hóa bởi Autoencoder. Ví dụ tiêu biểu là Stable Diffusion, với các tính năng điều kiện hóa giúp đảm bảo chất lượng hình ảnh sinh ra phù hợp với ngữ cảnh.

2. Chú Ý Chéo Được Sử Dụng Để Hướng Dẫn Chuyển Động (Cross Attention as Motion Guidance)

Chú ý chéo giúp tăng cường quá trình tổng hợp hình ảnh và đảm bảo các điều kiện như lời nhắc văn bản, khung xương và bản đồ ngữ nghĩa được tích hợp hiệu quả trong video.

3. Synthesis Hình Ảnh Theo Phân Cấp Dựa Trên Âm Thanh (Hierarchical Audio-Driven Visual Synthesis)

Nhiệm vụ này được thực hiện qua các lớp mặt nạ để xác định các phần như môi, biểu cảm và tư thế đầu.

Cài Đặt Hallo

Để cài đặt Hallo, bạn có thể làm theo các bước hướng dẫn trong repo chính của Hallo hoặc nhanh hơn là sử dụng Docker. Sau khi cài đặt, giao diện người dùng đã được thiết kế sẵn bằng Gradio sẽ giúp bạn dễ dàng trải nghiệm.

Tài Liệu Tham Khảo

Bạn có thể tham khảo thêm thông tin chi tiết trong tài liệu nghiên cứu tại arXiv.
source: viblo

Gợi ý câu hỏi phỏng vấn
Không có dữ liệu

Không có dữ liệu

Bài viết được đề xuất
Bài viết cùng tác giả

Bình luận

Chưa có bình luận nào

Chưa có bình luận nào