Document

Report
音訊媒體簡介
聲音的基本原理



聲音產生的原理
當介質(如空氣、水)中產生了震動,此震動
對介質造成壓力,而此壓力會以波的形式藉由
介質向外擴散,當這些波傳到人的耳朵且頻率
範圍在人耳可感應的範圍內(20Hz~20kHz),
耳膜會因感應而聽見聲音
真空中聽不見聲音
震動愈強,人耳「聽見」的聲音就會愈大;反
之,則聲音就會相對的微弱
聲波及頻率

聲波
–
–
從聲源向四周立體擴散的一組疏密波,空氣
分子並不是從聲源一直跑到您的耳朵,而是
在它本來的位置振動,從而引起與它相鄰的
空氣分子隨之振動,聲音就是這樣從聲源很
快地向外傳播的
聲音在空氣中的傳播速度是331米/秒
聲音的頻率

聲音的頻率
–
–
–
–



聲波每秒的振動次數稱為頻率
頻率在20hz~20khz之間稱為聲波
頻率大於20khz稱為超聲波
頻率小於20hz稱為次聲波
超聲波和次聲波人耳是聽不到的,地震波和海嘯都是
次聲波。有些動物的耳朵比人類要靈敏得多,比如蝙
蝠就能“聽到”超聲波
人的語音頻率範圍主要在200 hz到4000 hz之間
在語音範圍中
–
–
–
通常把1000 hz以上的區域稱為高頻區
500 hz -1000 hz的區域稱為中頻區
低於500 hz的區域稱為低頻區
聲音的強度




聲音是空氣分子的振動,振動的空氣分子產生額外的壓
力,這種額外的壓力我們就稱之為聲壓
物理學家利用 聲壓級(sound pressure level)來描述聲
音的大小
小的聲壓 p0=2х10-5帕作為參考聲壓
要測量的聲壓p與參考聲壓p0的比值取常用對數後乘以20
得到的數值稱為聲壓級,聲壓級是聽力學中最重要的參
數之一,單位是分貝(db)
–
分貝(dB)=10 log (P/P0)2
聲音的量化




物理中用來表示聲音強弱的單位為分貝(dB)
分貝是以「對數」的方式來訂定的
聲音的強弱單位是「比」出來的,兩個聲音之
間的強弱差異代表的是「它們傳遞到接收端能
量強度的比值」
例如:A、B兩聲音,其強弱差距為
NABdB=10㏒(A/B)
各種分貝與功率之範例
分貝(dB)
功率(W)
範例
10
0.000000001
農村的靜夜
20
0.00000001
樹葉落地
30
0.0000001
耳邊輕聲低語
50
0.000001
普通說話聲
60
0.00001
百貨公司內
80
0.0001
公共汽車上
90
0.001
捷運呼嘯聲
100
0.01
高速公路汽車聲
110
0.1
電鋸旁邊
140-150
100-1000
飛機旁邊
Analog to Digital 的流程
1.
2.
3.
4.
5.
首先聲音的波動透過介質進入到收音麥克風
這些聲音波動轉換成一連串高低變化的電壓
波,傳入到電腦
將此波透過一低通濾波器濾除其高頻雜訊
透過類比數位轉換器(Analog Digital
Converter,ADC)將聲音波型數位化
將數位化音訊存入記憶體
Digital to Analog 的流程
1.
2.
3.
4.
將數位化音訊讀出記憶體
透過數位類比轉換器((Digital Analog
Converter, DAC)將數位訊號還原
還原波再經過一低通濾波器將高次諧波濾除,
聲音波形就會比較平滑。
透過擴大線路輸出至揚聲器
取樣頻率 (sampling rate)



聲音數位化最重要的就
是將類比訊號取樣
取樣所記錄到的值為
「樣本」
取樣頻率越高,亦即取
樣間隔時間越短,所擷
取後的數位音訊資料也
就越準確,也愈耗儲存
空間
※「週期」是每隔取樣一次所需時間
※每秒鐘的取樣次數稱為「頻率」
※頻率=1/週期
取樣頻率(續)



一般我們常見的取樣頻率為11.025kHz、
22.05kHz、44.1kHz
CD音質則為44.1kHz、16bits位元深度(解析度)
取樣頻率越高與越高的位元深度會有越好的音
質
常見的聲音取樣規格
取樣頻率
(Hz)
解析度
(bit)
頻道
所需空間 (每秒)
音質
11025
8
單音
11 KB
電話
22050
8
單音
22 KB
AM廣播
22050
16
立體
88 KB
FM廣播
44100
16
立體
176 KB
CD Audio
量化-位元深度(解析度 )



取樣在每一個上升邊緣時,ADC (Analog
Digital Converter) 會將當時的值紀錄下來,
而此紀錄的値稱為樣本,單位為bit(或稱為解
析度),此動作即為量化
例如:CD音質,16位元深度
聲音區間有216=65,536個區間,範圍
-32,768~+32,767
愈高的位元深度,愈接近真實的聲音
量化失真

無論採用多高的位元深度來取樣,也不可能完
全無誤差的紀錄原本輸入的類比訊號(這也是
數位、類比間的鴻溝),此即所謂的「量化失
真」
雜訊產生的原因

當一輸入波形範圍從0~10V時,採用4bits位元
深度做為樣本,而4bits為0~15,扣除0有15種
區間,所以:
輸入的值為(2/3)V時,樣本值為00012,而(4/3)V時,
樣本值為00102,我們可發現,如果當輸入值為1V時,
將被四捨五入成為00102=(4/3)V,因為位元深度造成
的誤差,就造成了數位還原為類比時的不連續,雜訊
就是這樣產生的
修剪


量化過程中如果位元深
原始波形
度不足,輸入的類比訊
號最大值超過此位元深
度可使用的區間時,就
會將振幅超出最大值的 修剪後波形
部分修剪為可用區間的
最大值
被修剪掉的部份就成為
了失真或是雜音,因此
輸入的聲音過大時,錄
製起來的聲音會「爆音」
即是此原因
音訊檔案容量

容量計算公式:
–
取樣率(Hz) * 時間(s) * 位元深度(bit) / 8 * 聲道數量


【其中位元深度 / 8 的8是因為一個位元組(byte)有8個bit】
例: 30秒的CD音質錄製下的立體聲檔案大小
為5292000bytes
–
–
44100 * 30 * 16 / 8 * 2 = 5,292,000bytes(位元組)
44100 *240* 16 / 8 * 2 = 42,336,000bytes(位元組)
≒ 42 MB(wav 檔格式)
常用的音訊設定格式與容量
取樣率(Hz)
解析度(bit)
聲道
容量(位元組每秒)
44100
16
2
172kbytes
44100
16
1
86kbytes
44100
8
2
86kbytes
22050
16
2
86kbytes
22050
16
1
43kbytes
22050
8
2
43kbytes
11025
16
2
43kbytes
11025
16
1
21kbytes
11025
8
2
21kbytes
MP3壓縮五個重要的技巧





最小聽覺門檻判定(The minimal audition
threshold)
遮蔽效應(The Masking effect)
位元儲存槽(The reservoir of bytes)
The Joint Stereo --立體聲編碼技巧
Huffman編碼
最小聽覺門檻



聽覺門檻是一種用來減少資料流的方法
人耳對於2kHz ~ 5kHz的敏銳度與察覺度最高
利用人耳的這項特性,將其他頻率的紀錄容量
減少,甚至將微小不易察覺的高頻與低頻訊號
刪除,以達到資料容量減少的目的
遮蔽效應




遮蔽效應是一種運用人類聽覺神經特性的技術
在心理學中的一種聽覺模型,它是說當一個感覺非常
強烈時,同時間人類不太容易覺察到其他的感覺。
舉例:
當眼睛注視強烈光源時,視線會被光線遮蔽,不容易
看見其他物體;對聲音而言,在一場震耳欲聾的演唱
會中,人耳很難去注意到五公尺以外傳來的微小咳嗽
聲
遮蔽效應
針對這些被其他較突出的聲音遮蔽後,變的較不易被
察覺的聲音,利用刪除、或是適當分配較低的取樣頻
率,來減少其容量大小的一種技術
The bytes reservoir 位元儲存槽




CBR是Constant Bitrate的縮寫,是說該MP3每秒鐘的資
料流量是固定的,常見的MP3都是以CBR編碼,好處是
壓縮速度快。
VBR是Variable Bitrate的縮寫,每秒鐘的流量是可以變化
的,好處是在訊號複雜時用比較多的容量去紀錄,波型簡
單時就用比較低的流量,以有效利用空間。
CBR的缺點:每秒鐘的流量都相同,很容易造成空間的
浪費,因此有reservoir of bytes的出現,用途是當波型簡
單時不要用那麼大的流量,把多餘的空間保留下來儲存將
來比較複雜的波性資料,維持流量的大小,達到類似
VBR 的效果。
VBR的MP3並不需要reservoir of bytes
The Joint Stereo coding 立體聲編碼



Joint Stereo是一種立體聲編碼技巧,主要分為
Intensity Stereo(IS)和Mid/Side (M/S) stereo兩種。
IS的是在比較低流量時使用,利用了人耳對於高頻訊
號向位分辨能力的不足,將音訊資料中的低頻分解出
來合成單聲道資料,剩餘的高頻資料則合成另一個單
聲道資料,並另外紀錄高頻資料的位置資訊,來重建
立體聲的效果。
例如:鋼琴獨奏的錄音就是利用這種方法,在有限的
資料流量中減少音場資訊,但大幅增加音色資訊。
The Huffman coding



一種常見的無失真壓縮方案。當PCM訊號被分成好幾個頻
段並經過以上的處理之後,最後經過MDCT(Modified
Discrete Cosine Transform),將波型轉換為一連串的係數
。這些係數最後經過Huffman編碼來做最後的壓縮。
編碼的原理是將比較常出現的字串用特定的符號表示,壓
縮後就得到一個紀錄每個符號代表的字串的編碼表以及一
連串由各符號組成的資料內容。
Huffman編碼可以節省約20%的空間。使用Huffman編碼後
,可以發現再用WinZip、WinRAR之類的壓縮軟體並沒有
辦法把MP3檔縮小多少,理由就是因為這些壓縮軟體也是
利用類似Huffman編碼的技巧,因此壓縮程度有限。
多聲道音訊

廣泛用於DVD Movie的多聲道音訊編碼格式為
–
–



Dolby Digital(AC3)
Digital Theater Systems(DTS)
兩種格式均為破壞性壓縮6聲道系統,包含中
央、前右、前左、後右、後左與重低音
AC3:位元率448kbps、較廣大的市場使用
DTS:位元率1536bps、有較佳的音質
虛擬環繞音效


對於一般家庭來說,多聲道喇叭系統需付出較
高成本,因此發展出「虛擬環繞音效系統」
虛擬環繞音效系統:
–
–

Dolby Headphone:耳機使用環境
Dolby Virtual Speaker:適用於一般雙聲道喇叭
兩種技術利用5.1聲道解碼後,透過「聲學模
型」與「頻域轉換」等演算法,使其在兩聲道
中也有5.1聲道的效果
環繞音效發展現況(1/2)


杜比試驗室以Dolby Digital為基礎,發展出
Dolby TrueHD
Dolby TrueHD
–
–
–
位元深度:24-bits,取樣率:96kHz
最高位元率 18Mbit/s,8聲道(比5.1聲道多了左、
右聲道)
最多可輸出14聲道
環繞音效發展現況(2/2)


DTS 的延續規格為 DTS-HD Master Audio
DTS-HD Master Audio
–
–
–
位元深度:24-bits,取樣率:96kHz
最高位元率 24.5Mbit/s,8聲道
使用LPCM非破壞性壓縮
音訊檔案格式




未壓縮的波形音訊格式
破壞性壓縮格式
網路串流格式
MIDI
未壓縮的波形音訊格式

.wav
–
–
–
–
–

由微軟制定,採PCM編碼的未壓縮波形格式
主要用於Windows PC中,副檔名為.wav
符合RIFF(Resource Interchange File Format)規範
具有檔案標頭,記載檔案的編碼參數
通常採用PCM編碼,但也可使用其他方式編碼
.au
–
–
–
是UNIX系統下的一種常用的格式
為昇陽(SUN)所開發,其副檔名為.au
支援多種壓縮模式,現在少用了
未壓縮的波形音訊格式

.aiff
–
–
–
–
–
AIFF是Apple的標準格式,其副檔名為.aiff
QuickTime就是使用aiff作為音訊的軟體
AIFF為功能很強的格式
支援多種壓縮技術,但為MacOS專用格式,PC少
見
仍有其佔有率
破壞性壓縮格式(1/4)

.mp3
–
–
–
–
MP3(MPEG Audio Layer 3)屬於MPEG標準的一環,
其副檔名為.mp3
MP3因有高效率的資料壓縮與音質效果,再加上便
利的播放程式以及編碼程式支援,使得MP3的使用
者越來越多,逐漸成為多媒體影音標準的趨勢
可以藉由調整位元傳輸速率來改變壓縮比率,範圍
16k bps~320k bps都有
在標準128k bps模式下,可以將一分鐘的MP3壓縮
成不到1MB的檔案,播放效果接近原來音效
破壞性壓縮格式(2/4)

.wma
–
–
–
–
–
WMA就是Windows Media Audio,由微軟開發,
其副檔名為.wma
其最大特色就是比MP3容量還要小一半,且音質不
輸mp3
支援無失真、有失真、語音,全方面的需求支援
網路串流品質極佳
因 Windows 系統內建播放器Windows media
player,這幾年迅速竄起
破壞性壓縮格式(3/4)

.aac
–
–
–
–
–
繼MP3後的新一代音訊壓縮標準
AAC => Advanced Audio Coding,屬於 MPEG-2
規格的一部份(part 7)
由 Fraunhofer IIS, Dolby, Apple, AT&T, SONY 等
公司共同開發
MPEG-4加入AAC並整合,故又稱 MPEG-4 AAC
,即 m4a
壓縮比較MP3高,並提供多聲道立體環場音效,勝
過雙聲道的MP3
破壞性壓縮格式(4/4)

.ogg(Ogg Vorbis)
–
–
–
–
類似於 MP3 的破壞性壓縮格式
有更佳的聲學模型
與AAC相同,可以藉由更複雜的壓縮解壓縮演算法
達到更加的音質與壓縮比
OGG的使用尚不普遍
非破壞性壓縮格式(1/3)

.APE(Monkey’s Audio)
–
–
–
–
–
是一種常見的非破壞性音訊壓縮格式
壓縮後的音質與未壓縮前一樣
使用.ape為副檔名
目前廣泛地用於音樂CD數位保存
官網:http://www.monkeysaudio.com/
非破壞性壓縮格式(2/3)

.FLAC
–
–
–
–
Free Lossless Audio Codec 縮寫
為著名的自由音訊壓縮編碼
亦為非破壞性壓縮,可以還原音樂CD品質
官網:http://flac.sourceforge.net/
非破壞性壓縮格式(3/3)

True Audio(縮寫TTA)
–
–
–
–
是一種自由又簡單的實時無損音頻編解碼器
一種基於自適應預測過濾的無損音頻壓縮
與目前主要的其他格式相比,能有相同或更好的壓
縮效果
相關網站:
http://www.true-audio.com/
常用媒體壓縮格式
文件副檔名
媒體類型與名稱
壓縮
mov
Quicktime Video V2.0
可以
mpg
MPEG 1 Video
有
mp3
MPEG Layer 3 Audio
有
wav
Wave Audio
沒有
aif
Audio Interchange Format
沒有
au
Audio File Format (Sun OS)
沒有
avi
Audio Video Interleaved V1.0
(Microsoft Win)
可以
網路串流格式





在網路上傳輸音/視頻等多媒體資訊目前主要有下載和串流傳輸
兩種方案
串流傳輸時,聲音、影像或動畫等影音媒體由音視頻伺服器向用
戶電腦的連續、 即時傳送,用戶不必等到整個檔全部下載完畢
,而只需經過幾秒或十數秒的啟動延時即可進行觀看
當聲音在客戶機上播放時,剩餘部分將在背景從伺服器內繼續下
載。串流不僅縮短等待時間,而且不需要太大的緩存容量。
串流傳輸避免了用戶必須等待整個檔全部從Internet上下載才能觀
看的缺點。
串流傳輸實作有兩種方法:
– 順序串流傳輸(Progressive streaming)
– 即時串流傳輸(Realtime streaming)
順序串流傳輸(Progressive streaming)








順序串流傳輸是順序下載,在下載檔的同時用戶可觀看
用戶只能觀看已下載的那部分,而不能跳到還未下載的前頭部分
順序串流傳輸不像即時串流傳輸在傳輸期間根據用戶連接的速度做
調整。
由於標準的HTTP伺服器可發送這種形式的檔,也不需要其他特殊
協定,它經常被稱作HTTP串流式傳輸
順序串流傳輸比較適合高品質的短片段,如片頭、片尾和廣告,由
於該檔在播放前觀看的部分是無損下載的,這種方法保證電影播放
的最終品質
用戶在觀看前,必須經歷延遲,對較慢的連接尤其如此
不適合長片段和有隨機訪問要求的視頻
不支援現場廣播,嚴格說來,它是一種點播技術
即時串流傳輸(Realtime streaming)





指保證媒體信號頻寬與網路連接匹配,使媒體可被即
時觀看到。
即時串流與HTTP串流式傳輸不同,它需要專用的串
流媒體伺服器與傳輸協議
即時串流傳輸總是即時傳送,特別適合現場事件,也
支持隨機訪問
用戶可快進或後退以觀看前面或後面的內容。理論上
,即時串流一經播放就可不停止
即時流式傳輸需要特定伺服器
–
如QuickTime Streaming Server、RealServer與Windows
Media Server。
串流檔格式


串流檔格式經過特殊編碼,使其適合在網路上邊下載
邊播放,而不是等到下載完整個檔才能播放。
串流檔編碼過程
基本的串流影音系統

Encoder—影音編碼器
–
–
–
負責把原始影音檔案,根據後端Stream Media
Server所需要的影音檔案格式進行編碼。
例如: RealNetwork將AVI, MPEG轉成rm格式檔案
Encoder還能從攝影機上直接獲取現場的影音資訊
,讓Server能提供即時現場內容。
Encoder
Media Server
Player
基本的串流影音系統

Stream Media Server—串流媒體伺服器
–
–
–

負責把編碼器獲取的影音檔案轉換為串流資訊
使用者發出影音要求時,伺服器就會把影音檔案在
記憶體中分割成多個資料片段,再將資料分段傳給
用戶
Server也能對影音檔案,登入用戶、傳送品質及頻
寬等方面進行控制
Player—用戶端播放器
常用串流檔格式
文件副檔名
媒體類型與名稱
asf
Advanced Streaming Format. (Microsoft)
rm
Real Video/Audio 文件(Progressive
Networks)
ra
Real Audio文件(Progressive Networks)
rp
Real Pix文件(Progressive Networks)
rt
Real Text文件(Progressive Networks)
swf
Shock Wav Flash (Macromedia)
網路串流格式 - RA 格式

RA 格式
–
–
–
–
–
–
RealNetwork 公司所發展的 RealAudio 格式
副檔名為 .ra
屬於串流(Streaming)型式,播放時不需完全下載
便可開始收聽
安裝RealPlayer播放器才可以播放此聲音格式
使用串流通道協定 RTSP (Real-Time Streaming
Protocol) 的技術,達成線上音訊的播放
相關網址:http://www.real.com
網路串流格式 - WMA 格式






微軟所開發的網路串流音訊格式
副檔名為 .wma
具良好的壓縮能力,壓縮率一般都可以達到 1:18 左
右
以減少數據流量但保持音質的方法來達到比 MP3 壓
縮率更高的目的
Windows XP 中預設的編碼格式
錄製時可對音質進行調整
音質 - 可與 CD 媲美
– 網路應用 – 可調高壓縮率讓資料能順暢播放
Windows Media 編碼器相關網址:
http://www.microsoft.com/windows/windowsmedia/download/de
fault.asp
–

播放網路串流音訊

RealNetworks 的 RealAudio (RA) 格式
–
–


使用 RealOne 軟體
freeware 軟體,可由 Internet 下載安裝、註冊後免費使用
Microsoft 的 Windows Media Audio (WMA) 格式
大部分的網路串流音訊是由網站中點選收聽的內容,
瀏覽器會依據串流音訊的格式自動執行所需的播放工
具
RealNetworks


1994年,最早在網際網路上使用媒體播放技術
網路上常見格式
副檔名
英文說明
中文對照
.ra
Real audio file
音樂檔案
.rm
Real media file
視訊檔案
.rp
Real picture file
圖片檔案
.rt
Real text file
動態文字檔案
mnd or mns
RealOne player
music file
RealONE Player播放
的音樂檔
Microsoft
副檔名
英文說明
中文對照
.asf
Advance Systems Format
進階系統格式
.asx
Advance Streaming extend 進階資料流延展
file
格式
.wma
Windows media Audio file Media Player專
用音樂檔案
.wmv
Windows media Video file Media Player專
用影像檔案
MIDI(Musical Instrument Digital
Interface)樂器數位界面



1983年世界著名電子音樂製造廠商共同制訂
MIDI標準,使各種與電子音樂有關的設備能相
互連接與訊息交流
MIDI是一種數位化的界面,對於電子設備該如
何發音訂出了一套統一的規格,所以不同廠商
所設計製造的軟、硬體,只要符合MIDI的規格,
便具有互通性
微軟的作業系統自Window 3.1起,把MIDI列
為支援的規格之後,使得MIDI成為電腦音樂軟
體必須遵循的標準格式
MIDI相關




MIDI像是一份純文字物件,主要記載哪項樂器
在哪個時間要用哪種演奏方法、演奏節拍、音
量大小等等資訊
MIDI制訂的樂器聲音都已經內建在支援的
MIDI音效卡中
MIDI檔案通常很小(小於10Kbytes)
MIDI有統一的格式與標準,現今的電腦均可播
放,沒有相容性的問題

similar documents