Giới thiệu
Tạo ra các hiệu ứng âm thanh, nhạc, và giọng nói theo yêu cầu là một trong những ý tưởng hấp dẫn cho các ứng dụng trong lĩnh vực thực tế tăng cường (AR), thực tế ảo (VR), phát triển trò chơi, và chỉnh sửa video. Trước đây, việc sản xuất âm thanh chủ yếu dựa vào các kỹ thuật xử lý tín hiệu cổ điển, nhưng gần đây, với sự phát triển của các mô hình Generative AI, quá trình này đã trở nên dễ dàng và hiệu quả hơn.
Nhiều công trình nghiên cứu trước đây thường chỉ tạo âm thanh dựa vào các nhãn âm thanh cố định. Tuy nhiên, việc sử dụng ngôn ngữ tự nhiên giúp mô tả chi tiết hơn về âm thanh, như “tiếng chim hót nhẹ nhàng trong rừng vào buổi sáng” hoặc “tiếng sóng vỗ bờ biển vào một ngày lặng gió”. Nhiệm vụ này, được gọi là tạo âm thanh từ văn bản (text-to-audio - TTA), cho phép sản xuất những âm thanh phong phú và chính xác dựa trên mô tả cụ thể từ ngôn ngữ tự nhiên.
Trong bài viết này, nhóm tác giả giới thiệu hệ thống TTA tên là AudioLDM, áp dụng mô hình Khuyếch Tán Tiềm Ẩn (Latent Diffusion Models) để tạo ra âm thanh chất lượng cao. Một ưu điểm đáng chú ý của phương pháp này là khả năng chỉnh sửa âm thanh thông qua ngôn ngữ tự nhiên mà không yêu cầu dữ liệu âm thanh-văn bản lớn và chất lượng cao.
Tạo Âm Thanh Theo Ngữ Cảnh
Tiền Huấn Luyện Âm Thanh-Ngôn Ngữ Đối Kháng
Các mô hình tạo hình ảnh từ văn bản đã cho thấy kết quả ấn tượng qua phương pháp Tiền Huấn Luyện Âm Thanh-Ngôn Ngữ Đối Kháng (CLAP). Nhóm tác giả áp dụng phương pháp này cho bài toán TTA, sử dụng một bộ mã hóa văn bản và một bộ mã hóa âm thanh để trích xuất embedding cho hai loại dữ liệu này.
Sau khi mô hình CLAP được huấn luyện, âm thanh có thể được chuyển thành embedding trong không gian liên kết giữa âm thanh và văn bản, giúp mở rộng khả năng tổng quát của mô hình trong các nhiệm vụ phân loại âm thanh mà không cần phải có dữ liệu âm thanh-văn bản lớn.
Mô Hình Khuyếch Tán Tiềm Ẩn Có Điều Kiện
Hệ thống TTA sử dụng mô hình Khuyếch Tán Tiềm Ẩn để tạo ra âm thanh dựa trên mô tả văn bản. Mô hình này so sánh phân phối dữ liệu thực tế với phân phối được tạo ra, cho phép tạo ra các mẫu âm thanh chính xác hơn bằng cách sử dụng cảm hứng từ các mô hình tự hồi tiếp hiệu suất cao trước đây.
Tăng Cường Điều Kiện
Để giải quyết vấn đề thiếu dữ liệu âm thanh-ngôn ngữ, phương pháp tăng cường dữ liệu (data augmentation) được áp dụng bằng cách kết hợp các mẫu âm thanh mà không cần thông tin mô tả văn bản. Điều này không chỉ giúp tăng số lượng cặp dữ liệu huấn luyện mà còn làm cho mô hình trở nên mạnh mẽ hơn trong việc nhận diện và sinh ra âm thanh.
Hướng Dẫn Không Cần Bộ Phân Loại
Hệ thống còn áp dụng phương pháp hướng dẫn không cần bộ phân loại (Classifier-free Guidance) trong quá trình tạo mẫu. Phương pháp này cho phép mô hình học cách hoạt động trong cả hai điều kiện có và không có điều kiện, từ đó cải thiện kết quả đầu ra trong quá trình sinh ra âm thanh từ mô tả ngôn ngữ tự nhiên.
Chỉnh Sửa Âm Thanh Theo Ngữ Cảnh
Chúng ta có thể chỉnh sửa âm thanh gốc bằng cách sử dụng mô hình AudioLDM thông qua một quá trình được gọi là reverse process. Bằng cách điều chỉnh thông tin âm thanh gốc, chúng ta có thể tạo ra các phiên bản âm thanh mới, tương ứng với các mô tả ngữ cảnh.
Mô hình cũng hỗ trợ các ứng dụng như phục hồi âm thanh (audio inpainting) và nâng cao độ phân giải âm thanh (audio super-resolution), cho phép khôi phục các phần âm thanh thiếu bằng cách sử dụng thông tin quan sát được.
Tài Liệu Tham Khảo
- AudioLDM: Tạo Âm Thanh Từ Văn Bản Bằng Mô Hình Khuyếch Tán Tiềm Ẩn
- GitHub - AudioLDM
source: viblo