Giới Thiệu Về Âm Thanh

Âm thanh là tín hiệu được tạo ra bởi sự biến đổi của áp suất không khí. Những biến đổi này có thể được đo lường và biểu đồ hóa theo thời gian. Khi chúng ta đo cường độ của các biến đổi áp suất và vẽ các số đo này theo thời gian, chúng ta có thể quan sát các tín hiệu âm thanh thực tế.

Những Đặc Tính Cơ Bản Của Âm Thanh

Âm thanh có một số đặc tính cơ bản bao gồm:

Biên độ (Amplitude): Đây là độ cao của sóng âm, cho biết cường độ âm thanh. Biên độ lớn hơn có nghĩa là âm thanh lớn hơn.
Chu kỳ (Period): Là thời gian cần thiết để tín hiệu hoàn thành một chu kỳ sóng đầy đủ.
Tần số (Frequency): Là số chu kỳ sóng hoàn thành trong một giây, được đo bằng Hertz (Hz). Ví dụ, nếu một sóng hoàn thành trong 1/100 giây, thì tần số của nó là 100 Hz.

Hầu hết âm thanh mà chúng ta nghe không tuân theo các mẫu chu kỳ đơn giản, mà thường phức tạp hơn. Tai người có khả năng phân biệt các âm thanh khác nhau dựa vào chất lượng âm thanh, gọi là timbre (âm sắc).

Cách Biểu Diễn Âm Thanh Dưới Dạng Số

Để số hóa âm thanh, chúng ta cần chuyển đổi nó thành dãy số. Việc này được thực hiện bằng cách đo biên độ tại các khoảng thời gian đều đặn, với mỗi lần đo gọi là mẫu (sample). Tần số lấy mẫu là số lượng mẫu mỗi giây, ví dụ, tần số 44.100 mẫu/s.

Trước khi có Deep Learning, các ứng dụng máy học trong xử lý âm thanh thường dựa vào các kỹ thuật truyền thống để trích xuất đặc trưng. Ví dụ, để hiểu giọng nói, các tín hiệu âm thanh đã được phân tích bằng các công cụ ngữ âm và âm vị học.

Ngày nay, với sự phát triển của Deep Learning, việc xử lý âm thanh trở nên dễ dàng hơn. Thay vì phân tích đặc trưng âm thanh theo cách thủ công, chúng ta có thể chuyển đổi âm thanh thành hình ảnh spectrogram. Spectrogram là hình ảnh thể hiện cường độ của các tần số âm thanh theo thời gian, cho phép mô hình deep learning phân tích mà không cần kiến thức chuyên môn sâu.

Các Thành Phần Cơ Bản Trong Xử Lý Âm Thanh

Spectrum

Spectrum là tập hợp các tần số kết hợp lại để tạo thành tín hiệu, giúp chúng ta hiểu tần số nào có mặt trong âm thanh và cường độ của chúng. Tần số cơ bản (fundamental frequency) là tần số thấp nhất trong một tín hiệu, và các tần số là bội số nguyên của nó gọi là hài âm (harmonics).

Time Domain và Frequency Domain

Biểu đồ waveform của âm thanh hiển thị biên độ theo thời gian, còn spectrum hiển thị biên độ theo tần số. Time Domain giúp chúng ta nhận diện sự biến đổi của âm thanh, trong khi Frequency Domain cho biết các tần số nào đang có mặt và cường độ tương ứng.

Spectrogram

Spectrogram cho thấy spectrum của tín hiệu theo thời gian, giống như một bức ảnh của tín hiệu âm thanh. Trục x biểu diễn thời gian và trục y biểu diễn tần số, với màu sắc thể hiện cường độ của các tần số. Spectrogram rất hữu ích cho việc phân tích âm thanh và nhận diện giọng nói.

Bằng cách kết hợp cả hai loại biểu đồ Time Domain và Frequency Domain, chúng ta có thể hiểu rõ hơn về âm thanh, từ sự biến đổi theo thời gian đến các thành phần tần số của nó. Điều này rất hữu ích trong nhiều ứng dụng như phân tích nhạc và kỹ thuật âm thanh.
source: viblo

Khái Niệm Cơ Bản Về Âm Thanh Trong Xử Lý Âm Thanh Bằng Deep Learning (Phần 1)