30-02之聲音的採集與原理

instant messaging it 鐵人賽 2018

Lastmod: 2019-12-15

圖片來源:馬克

正文開始

首先最一開始的文章，咱們要來討論聲音的採集這個主題，但是我覺得比較準備的說法是下面這種說明:

要如何採集聲音到電腦中呢 ?

要理解這個問題，咱們就需要從最源頭開始說起，什麼是聲音呢 ? 知道以後，咱們還要思考那電腦又是如何知道聲音是啥呢 ? 最後咱們會理一理當你採集了一段聲音，它需要花費多少的空間來儲放它呢 ?

本篇文章將分成以下三段如下:

聲音是啥呢 ?
要如何將聲音採集到電腦裡，而且電腦也看的懂呢 ? ( PCM )
PCM 所採集到的聲音有多大呢 ?

聲音是啥呢 ?

它是一種震動所產生的聲波。

聲波就是當一個人在說話時，它發出的聲音震動到空氣中，使得聲音周圍的空氣產生了變化，然後產生的一種波，這個就是所謂的聲波。

然後說到了振動，就該說到頻率，通常咱們用來描述它振動的多快的單位就是赫茲(Hz)它的定義如下:

赫茲(Hz)代表單位時間內周期性事件發生的事件

ex. 1Hz = 1/s (就是一秒動一次的意思)

咱們人耳可以聽到的範例約為 20 ~ 2萬赫茲，高於它的就被稱為超音波。

要如何將聲音採集到電腦裡，而且電腦也看的懂呢 ? ( PCM )

就是使用麥克風，然後將聲音轉成數位訊號，也就是 0 與 1。

這裡我們就要提到一個叫PCM 脈波編碼調變的東東，它是一種將類比訊號數位化的方法。

類比訊號是啥 ? 它就是一種連續的訊號，像聲音與電壓都是屬於這類型，而數位訊號就是將連續的訊號進行加工，讓它只有 0 與 1 的非連續的訊息。

回來到 PCM 來看它的處理過程如下圖，總共有三個流程分別為抽樣、量化、編碼。

PCM 過程進行中，首先會先將聲音進行定期性的採樣，來看看當時的頻率是多少，那我們的採樣的頻率要多高呢 ? 像咱們人類能聽到的聲音最大為 20kHz(2萬赫茲)，也就是代表 1 秒振動 2 萬次，那這樣的話通常會進行 4 萬次的採樣(By 採樣定理)，才能確保有採集到人類可以聽到的聲音樣本數。而採樣率就會用 40kHz 來表達。

採樣完成後，接下來是將這些資料進行量化也就是所謂的離散化，哼哼 ~ 有沒懷念大學時的危機分，雖然在抽樣時以時間軸來看的確是離散型資料，但是問題是還是有些誤差，主要問題是採樣率與採樣大小，反正這裡你就想成還要在離散化一次就對囉 ~ 想深入了解為啥的可以看看這篇文章

圖片來源: 電腦王-mp3不是最高的聲音格式 https://addpipe.com/blog/audio-constraints-getusermedia/

最後會用 PCM 的自訂格式來將每一組量化值表示為一組二進位，而這就是電腦所可以理解的聲音。

備註

上面說的 PCM 嚴格來說有兩種意義，首先第一種 PCM 它是指方法，它將聲音由類比轉成數位訊號，而第二種 PCM 是指編碼，也就是聲音 PCM 完後所產生的 PCM 編碼，它就是一組 PCM 所產生出來的 0 與 1 的集合，像在網路上常說什麼編碼轉成 PCM 編碼的就是指第二種意思。

純 PCM 所採集到的聲音會有多大呢 ??

注意一下: 下面如果是用大寫的如 KB 指的是 (Kilobyte) 而小寫就是 kb (kilobit)

先定義一下，通常在聲音中我們是使用位元率 bps (bit Per Second)來當做你要花費多少空間的單位，假設你看到說有段聲音 bps 為 10 bps ，那就代表這段聲音 1 秒中共有 10 bit 的資料量。

而 PCM 的 bps 公式如下:

位元率 (bps) = 採樣率(hz) x 採樣大小(bit) x 通道

位元率

就是咱們用來衡量一個音訊的品質，越高就代表質量越好，但相對的就代表所耗空間越大，像如果是 32000 bit/sec = 32 kbps 就代表你每秒鐘要處理 32 kbit 的量，如果放到檔案裡，就代表這個檔案如果有 10 秒就要花 32 * 10 = 320 kbit 的空間。

採樣率

這東東我們上面有提到，也就是一秒鐘會抓取幾次的概念，如果以上面的章節說的 40kHz 為例，就代表一秒會抓取 40 萬次，這東東越高，代表聲音越高大尚的優質。

P.S 下表為在聲音的領域常用的採樣率

8,000 Hz => 電話所用的採樣率 22,050 Hz => 無線電廣播所用的採樣率 44,100 Hz => 音樂 CD 的所有的採樣率 96,000 ~ 192,000 Hz => 高大尚的藍光或啥 HD-DVD 的採樣率

採樣大小

這東東可以理解為對聲音的解析度，這東東越高，就代表解析度越高。常用的有 8、16、32 bit，其中 16 位元為主流，像 cd 的就是 16 位元的。

通道

就是聲音的通道數，像咱們常聽到的雙聲道，就是算 2。

範例

假設咱們有個聲音採樣的數據如下:

採樣率: 44.1 KHz 採樣大小: 16 bit 聲道: 2

位元率 = 44100 * 16 * 2 = 1,411,200 bps = 1,411.2 kbps = 176 KB/s

這也代表這如果你要錄製 1 分鐘的上述條件的聲音需要的空間，大約為 10 MB 的大小，如下計算。

176 * 60 = 10,560 KB = 10 MB

目前平均一首歌大約為 4 分鐘，所以如果以上述條件來看，一首歌就需要花 40 MB，想當然而這當然是太大囉，因此後來專家們就開發出各種壓縮的方法來解決這個問題囉。壓縮這部份我們之後的文章中會說明到。

結論

這篇文章中，咱們學習了三個重點:

聲音是啥迷 ? 它就是自然界的震動。
電腦如何理解聲音 ? 使用 PCM 將類比聲音轉換為數位訊號。
使用 PCM 所採集的聲音有多大呢 ? 請看上面。

最後有個重點要補充一下，那就是在音頻世界 PCM 所代表的意思:

它就是最接近原始聲音的編碼，所以通常要比較一個聲音的音質，那就是指和 PCM 相比，它事實上就是聲音的 raw data。

正文開始

聲音是啥呢 ?

要如何將聲音採集到電腦裡，而且電腦也看的懂呢 ? ( PCM )

備註

純 PCM 所採集到的聲音會有多大呢 ??

位元率

採樣率

採樣大小

通道

範例

結論

參考資料