Giới Thiệu
Khi nghĩ về công nghệ chuyển văn bản thành giọng nói (TTS), chúng ta thường nghĩ đến những hệ thống tạo ra giọng nói từ văn bản một cách trực tiếp. Tuy nhiên, những hệ thống này thường phát ra âm thanh quá robot hoặc quá hoàn hảo và ít mang lại sự kiểm soát về cách mà giọng nói hoạt động.
Khái niệm của tôi đưa ra một cách tiếp cận hoàn toàn khác. Thay vì tập trung vào từ ngữ như đơn vị cơ bản, nó bắt đầu từ âm thanh thô, âm điệu, âm vị và sự biến đổi cảm xúc, và sử dụng chúng như những khối xây dựng để tạo ra giọng nói một cách thủ công.
Cách tiếp cận này cho phép kiểm soát hoàn toàn từng chi tiết nhỏ trong cách âm thanh của giọng nói, và có thể hoạt động cho bất kỳ ngôn ngữ hay từ nào, ngay cả những từ chưa bao giờ được ghi âm trước đây.
Giai Đoạn 1: Xây Dựng Thư Viện Âm Thanh Thô
Cốt lõi của hệ thống là một thư viện âm thanh thô.
- Đây không phải là từ hay câu,
- Chúng là các yếu tố âm thanh cơ bản, âm nguyên âm, âm phụ âm, biến thể cao độ, tông điệu cảm xúc và các phiên bản điều chế tần số,
- Mỗi loại âm thanh được thử nghiệm, điều chỉnh và gán nhãn, để có thể tái sử dụng một cách đáng tin cậy,
Hãy tưởng tượng nó như một bảng màu.
Bạn không lưu trữ mọi bức tranh có thể có,
Bạn chỉ lưu trữ tất cả các màu sắc và công cụ cần thiết để tạo ra bất kỳ bức tranh nào.
Tương tự như vậy, thư viện âm thanh này lưu trữ tất cả các màu sắc của âm thanh con người, vui vẻ, buồn bã, sắc nét, nhẹ nhàng, nhanh chóng, chậm rãi, để chúng có thể được kết hợp lại thành bất kỳ giọng nói nào sau này.
Giai Đoạn 2: Xây Dựng Từ Bằng Khối Âm Thanh
Thay vì gõ văn bản và nhận kết quả tự động, người dùng xây dựng từ một cách thủ công bằng cách sử dụng các khối này.
Ví dụ, nếu mục tiêu là tạo ra từ “ASAP”:
- Chọn khối âm thanh cho “A” từ thư viện,
- Điều chỉnh các thông số, cao độ, độ dài, cảm xúc, chất lượng tông,
- Tạo âm thanh cho “A” bằng cách sử dụng tổng hợp AI dựa trên các cài đặt đó,
- Chọn khối cho “SAP”, điều chỉnh cài đặt của nó và tạo ra âm thanh đó,
- Nếu cần, thêm một vowel phụ (như âm “E” nhẹ) để làm cho kết quả tự nhiên hơn,
- Kết hợp các phần đã tạo ra để tạo thành từ đầy đủ,
Cách này cho phép người dùng có kiểm soát như trong studio về cách âm thanh của từng âm tiết, nhưng họ không cần phải ghi âm mọi thứ một cách thủ công.
Vai Trò Của AI: Tạo Âm Thanh Thông Minh
AI không được sử dụng để tạo ra cả cụm từ một cách trực tiếp,
Thay vào đó, AI được sử dụng như một công cụ chính xác để tạo ra âm thanh từ các khối và cài đặt đã chọn,
Ví dụ:
- Nếu người dùng chọn “A” + tông buồn + độ dài 1.2 giây, AI sẽ tạo ra chính xác phiên bản đó của “A”
- Nếu người dùng chọn “P” với tông cao năng động, AI sẽ tạo ra âm thanh đó
Điều này khiến AI trở thành một máy tổng hợp âm thanh, không phải một động cơ phát tiếng nói hoàn chỉnh.
Thị Trường Phần Mềm Âm Thanh
Nền tảng cũng sẽ bao gồm một thị trường âm thanh nơi những người sáng tạo và nhà thiết kế âm thanh có thể:
- Đóng góp các khối âm thanh thô mới, biến thể cảm xúc hoặc mẫu điều chế tần số,
- Được xác minh về chất lượng và thêm vào thư viện chung,
- Làm cho chúng có sẵn cho người dùng muốn có nhiều lựa chọn âm thanh hơn,
Điều này cho phép hệ thống liên tục phát triển với các phong cách cảm xúc mới, giọng nói mới và kết cấu âm thanh mới, làm cho nó trở nên linh hoạt hơn theo thời gian.
Lợi Thế Của Cách Tiếp Cận Này
- Từ Vựng Vô Hạn: Vì giọng nói được xây dựng từ âm thanh cơ bản, bất kỳ từ hay ngôn ngữ nào cũng có thể được tạo ra, không cần ghi âm toàn bộ từ điển.
- Kiểm Soát Hoàn Toàn: Người dùng có thể điều chỉnh cao độ, độ dài, tốc độ, cảm xúc và cường độ cho mỗi phần của giọng nói.
- Âm Thanh Tự Nhiên: Bằng cách thêm các âm thanh phụ nhỏ (như nguyên âm nhẹ, hơi thở, hoặc chuyển tiếp), kết quả sẽ cảm thấy thực tế và giống con người.
- Bảo Đảm Tương Lai: Khi AI cải thiện, quy trình này có thể trở nên tự động một phần, cho phép AI đề xuất các khối và cài đặt đúng, nhưng vẫn cho phép điều chỉnh thủ công.
Ví Dụ Thực Tế
Giả sử chúng ta muốn tạo ra:
“ASAP, làm ơn!” với tông thể hiện sự lo lắng.
Các bước có thể như sau:
- Tạo “A” từ thư viện âm thanh với các cài đặt cảm xúc lo lắng,
- Tạo “SAP” với tốc độ hơi nhanh hơn để làm cho nó nghe có vẻ khẩn cấp,
- Thêm âm “E” nhẹ giữa A và SAP để tạo ra sự kết nối mượt mà,
- Tạo “làm ơn” với cùng các cài đặt cảm xúc,
- Kết hợp chúng theo thứ tự để tạo ra câu đầy đủ,
Kết quả: một câu tự nhiên, biểu cảm mà cảm giác như một con người đã nói, nhưng hoàn toàn được tạo ra từ các khối âm thanh tổng hợp.
Tầm Nhìn Tương Lai
Trong tương lai, quy trình này có thể được tự động một phần hoặc hoàn toàn,
AI có thể đề xuất các khối đúng, áp dụng các cài đặt cảm xúc tự động và tạo ra các cụm từ hoàn chỉnh trong khi vẫn cho phép người dùng điều chỉnh các chi tiết.
Điều này có thể cách mạng hóa:
- Diễn xuất giọng nói: Tạo ra các dòng thoại được điều chỉnh hoàn hảo cho phim hoặc trò chơi
- Trợ lý ảo: Cung cấp cho họ tính cách và cảm xúc cảm giác sống động
- Công cụ hỗ trợ truy cập: Cho phép người dùng tạo ra giọng nói đúng như họ muốn nghe
- Âm nhạc và nghệ thuật: Đối xử với giọng nói như một nhạc cụ, với sự tự do hoàn toàn về tông và phong cách
Kết Luận
Khái niệm này nhằm cung cấp cho các nhà sáng tạo vật liệu âm thanh thô và các công cụ AI mạnh mẽ để xây dựng giọng nói đúng như họ tưởng tượng, thủ công bây giờ, tự động trong tương lai.
Thay vì để AI làm mọi thứ trong một chiếc hộp đen, hệ thống này cho phép người dùng tham gia vào quá trình sáng tạo, lựa chọn, kiểm soát và điều chỉnh từng âm thanh cho đến khi nó cảm thấy hoàn hảo.
Đây không chỉ là một hệ thống TTS khác, mà là một cách mới để nghĩ về việc tạo ra giọng nói:
Lắp ráp thủ công các khối xây dựng do AI tạo ra, được hỗ trợ bởi một thư viện âm thanh thô đã được xác minh ngày càng phát triển.
Đây là một khái niệm của Muhammed Shafin P.
Được cấp phép theo CC BY-SA 4.0