0
0
Lập trình
Admin Team
Admin Teamtechmely

Khám Phá Công Nghệ Chuyển Đổi Giọng Nói Thành Văn Bản: So Sánh Whisper và Deepgram Nova

Đăng vào 3 tuần trước

• 3 phút đọc

1. MỞ ĐẦU

Công nghệ chuyển đổi giọng nói thành văn bản (Speech to Text - STT) hay còn gọi là nhận diện giọng nói tự động (ASR) đang trở nên phổ biến trong nhiều ứng dụng thông minh. Từ chatbot trợ lý ảo đến dịch vụ tự động hóa cuộc gọi, các công cụ STT không chỉ giúp chuyển đổi giọng nói thành văn bản một cách nhanh chóng mà còn góp phần cải thiện khả năng hiểu ngôn ngữ tự nhiên của máy móc.

Bài viết này sẽ khám phá một số mô hình STT nổi bật hiện nay, bao gồm Whisper của OpenAI (mã nguồn mở) và Deepgram Nova của Deepgram (mã nguồn đóng), cùng với cách triển khai chúng.

2. CÁC MÔ HÌNH CHUYỂN ĐỔI GIỌNG NÓI THÀNH VĂN BẢN

2.1 Whisper

2.1.1 Whisper Là Gì?

Whisper là một hệ thống nhận diện giọng nói tự động (ASR) mã nguồn mở do OpenAI phát triển, ra mắt vào cuối năm 2022. Whisper có khả năng nhận diện và xử lý âm thanh đa ngôn ngữ với tốc độ và độ chính xác vượt trội, tạo nền tảng cho nhiều ứng dụng hữu ích và nghiên cứu sâu hơn về xử lý giọng nói.

2.1.2 Whisper Hoạt Động Như Thế Nào?

Whisper được đào tạo từ 680.000 giờ dữ liệu âm thanh đa ngôn ngữ, cho phép phiên âm và dịch nhiều ngôn ngữ khác nhau. Mô hình này sử dụng cấu trúc sequence-to-sequence, mã hóa âm thanh thành các đoạn dữ liệu (vector) rồi giải mã thành văn bản thông qua kiến trúc Transformer.

2.1.3 Kiến Trúc Mô Hình Whisper

Mô hình Whisper có thể được chia thành 4 bước cơ bản:

Bước 1: Xử lý Âm Thanh

Dữ liệu âm thanh đầu vào được chuẩn hóa và phân tách thành các đoạn 30 giây, sau đó áp dụng biến đổi Fourier để tạo ra spectrogram và truyền vào bộ mã hóa.

Bước 2: Bộ Mã Hóa (Encoder)

Bộ mã hóa sẽ chịu trách nhiệm trích xuất đặc trưng âm thanh từ các đoạn nói. Nó sử dụng các lớp Conv1d kết hợp với hàm kích hoạt GELU và positional embedding để xử lý âm thanh.

Bước 3: Bộ Giải Mã (Decoder)

Bộ giải mã tạo ra văn bản bằng cách tiếp nhận các token đầu vào từ bộ mã hóa, kèm các thông tin ngôn ngữ và kiểu tác vụ.

Bước 4: Lấy Token Đầu Ra

Mô hình tiếp tục lặp lại quá trình dự đoán từ các token cho đến khi hoàn thành văn bản.

2.2 Deepgram Nova

Deepgram Nova là công cụ API STT hàng đầu trên thị trường, dựa vào kiến trúc Transformer và được tối ưu hóa để tăng độ chính xác mà không làm giảm tốc độ suy luận. Với mô hình Deepgram Nova-2, tốc độ suy luận trung bình đạt 29,8 giây cho mỗi giờ âm thanh, tỷ lệ lỗi WER trung bình chỉ 8,4%. Chi phí API khoảng 0,0043 USD cho mỗi phút âm thanh.

3. TRIỂN KHAI BÀI TOÁN

Mình sử dụng GPU T4 trên Google Colab để triển khai cả Whisper và Deepgram Nova-2.

3.1 Triển Khai Whisper

Cài đặt các thư viện và sử dụng mô hình Whisper Large V3 Turbo để chuyển đổi âm thanh thành văn bản.

3.2 Triển Khai Deepgram Nova-2

Đăng ký nhận Deepgram API key và cài đặt thư viện cần thiết để gọi API chuyển đổi âm thanh sang văn bản. Tài liệu hướng dẫn cung cấp bước chi tiết để thực hiện.

4. KẾT LUẬN

Trong bài viết này, mình đã đánh giá và demo qua hai mô hình STT nổi bật: Whisper và Deepgram Nova. Whisper là lựa chọn tuyệt vời cho nghiên cứu mã nguồn mở, trong khi Deepgram là một giải pháp mạnh mẽ với hiệu suất vượt trội. Cả hai đều mang lại những giá trị đáng kể cho các dự án liên quan đến chuyển đổi giọng nói thành văn bản.

Tôi hy vọng bài viết này mang đến cái nhìn tổng quan hữu ích về công nghệ STT và hứa hẹn sẽ tiếp tục nghiên cứu về lĩnh vực text to speech trong các bài viết tiếp theo. Cảm ơn các bạn đã theo dõi!
source: viblo

Gợi ý câu hỏi phỏng vấn
Không có dữ liệu

Không có dữ liệu

Bài viết được đề xuất
Bài viết cùng tác giả

Bình luận

Chưa có bình luận nào

Chưa có bình luận nào