近年來,MP3技術受到了廣大消費者的熱烈歡迎。它的確是一種非常好的技術。一張和普通CD一樣的碟片,可以儲存高達600多分鐘的高質量音樂,比普通CD多了將近10倍。尤其是隨著flash 存儲器的價格的降低,便攜式的MP3更受到廣大消費者的歡迎。現在512mb的便攜式MP3播放器的價格在200-300元人民幣左右,這已經是在廣大的學生的購買能力范圍之內。在2005年,國內全年的銷售額達到了674.2萬臺。比2004年增長69%。而全球的銷售量更高達5600萬臺。根據in-stat的預計,到2010年全球的MP3銷售量將會達到2.86億臺。真可以說它是消費產業中的一顆燦爛的明星。
MP3的算法是很復雜的,在這里,我們將對MP3的算法進行一些深入淺出的解釋和說明。
一、概述
MP3 其實并不是什么新技術。它實際上就是一種音頻壓縮技術。而這種 音頻壓縮技術早就在vCD中已經采用了。也就是mpeg-1的音頻壓縮技術。只不過現在把這種技術單獨拿出來應用到音樂唱盤中去。但是為什么它會引起這么大的轟動呢?
在80年代初期,當時還廣泛流行著密紋唱片,發明了CD唱盤。CD是compact disk的縮寫。意思是輕便的碟片。CD唱盤相對于密紋唱片在技術上是一大進步。它第一次把高密度的激光存儲技術應用到消費類電子產品中去。相對于原來的 機械式密紋唱片,它帶來了很多優點:音質好、體積小、重量輕、便于攜帶。相對于磁帶錄音機來說,它沒有直接的機械接觸,因而噪聲低,不會磨損,使用壽命和保存時間提高很多。尤其重要的是,它第一次用數字技術代替了模擬技術,這為今后MP3的發展奠定了基礎。
到80年代中期,CD唱盤的技術日益成熟,但是售價還比較貴。經過了將近 10年的發展,CD唱盤現在已經完全取代了密紋唱片,也在很大程度上取代了錄音機。它幾乎已經深入到了每一個家庭。在汽車音響中也成為了標準裝備?磥碚嫦笠锶f代的存在下去。就在這個時候,出現了MP3。
MP3的光碟從外表上來看和普通CD完全一樣,音質也不比CD差,但是它所需的存儲容量卻比CD小了將近10倍。這完全靠了數字壓縮技術才能實現。
二、音頻信號的數字化
普通的CD雖然采用了數字技術,但是它只是簡單地把模擬信號加以數字化。為了把模擬信號數字化,首先要對模擬信號進行采樣。根據nyquest采樣定律,通常其采樣頻率至少是信號中的最高頻率分量的兩倍。對于高質量的音頻信號,其頻率范圍是從20hz~20khz。所以其采樣頻率必須在40khz以上。在CD中采用了44.1khz的采樣頻率。在對模擬信號采樣以后,還必須對其幅度上加以分層。在CD中,其分層以后的幅度信號用16比特的二進制信號來表示,也就是把模擬的音頻信號在幅度上分為 65536 層。 這樣,它的動態范圍就可以達到96分貝(6分貝/比特)。這種直接模數 (a/d)變換的方法也稱為pcm編碼。 直接數字化的最大缺點是比特率非 常高。達到44.1x16 = 705.6kb/s,或即 88.2kbyte/s。比特率高就意味著要求的 存儲容量很大。要記錄1分鐘的音樂,就需要5.292mb的存儲容量。對于兩路立體聲,就需要10.584mb。而要記錄幾十分鐘的音樂就需要幾百兆的存儲容量。
為了存儲數字化了的音樂,就只能盡量開發高容量的存儲系統。在70年代末,終于開 發出了利用激光讀寫的光盤存儲系統。因為這種光盤比起密紋唱片,無論在體積和 重量上都要小得多,輕得多,所以稱它為CD(compact disk)。意思為輕便的碟片。 而一張CD的容量大約為650mb,也就只能存儲61.4分鐘音樂。
純粹音樂CD通常也稱為CD-da。da就是數字音頻(digital audio)的縮寫。 它的技術指標是由一本所謂的“紅皮書”所定義。這本紅皮書是菲立普公司和索尼公司在1980年公布的。
以后,在1987年,又由國際電工委員會(iec)制定為iec908標準。根據這些標準可以比較精確地計算一張CD所能存儲的音樂時間。實際上在CD碟片中是以扇區為單位的,每個扇區中所包含的字節數為2352個字節。總共有345k個扇區。因此總的字節數為345kx2352=811440kb?梢源娣76.92分鐘的立體聲 音樂。還有一種方法來計算播放的時間,CD在播放時,其播放的速度為每秒鐘75個扇區。一張CD有345k個扇區,因而可以播放的時間為345k/75=4600”=76‘40”。兩種方法計算的結果是一樣的。
三、數字音頻信號的壓縮
因為音頻信號數字化以后需要很大的存儲容量來存放,所以很早就有人開始研究音頻信號的壓縮問題。音頻信號的壓縮不同于計算機中二進制信號的壓縮,在計算機中,二進制信號的壓縮必須是無損的,也就是說,信號經過壓縮和解壓縮以后,必須和原來的信號完全一樣,不能有一個比特的錯誤。這種壓縮稱為無損壓縮。但是音頻信號的壓縮就不一樣,它的壓縮可以是有損的只要壓縮以后的聲音和原來的聲音聽上去和原來的聲音一樣就可以了。因為人的耳朵對某些失真并不靈敏,所以,壓縮時的潛力就比較大,也就是壓縮的比例可以很大。音頻信號在采用各種標準的無損壓縮時,其壓縮比頂多可以達到1.4倍。但在采用有損壓縮時其壓縮比就可以很高。
需要注意的是,其中的mbyte不是正好1兆比特,而是1024x1024=1048576byte。必須指出,這些壓縮都是以犧牲音質作為代價的,尤其是最后兩種方法,完全靠降低采樣率和降低分辨率來取得的。這對音質的損失太大,所以這些方法并不可取。
四、MP3的壓縮方法
MP3實際上采用了mpeg-1的第三層的音頻壓縮方法。而vCD則是采用了mpeg-1的第一二音頻壓縮方法。第三層的壓縮方法可以在保持很高音質的情況下,得到比第二層更高的壓縮比。之所以能夠做到這點主要是利用了人耳的聽覺特性。
1. 人耳的頻率特性
雖然人耳可以聽到從20hz – 20 khz的頻率范圍,但是人耳在不同的頻率范圍中 的靈敏度是不同的。一般來說,人耳在特高頻和特低頻范圍里的靈敏度是很差的。
2. 人耳的遮蔽效應
人耳的另一個效應稱為遮蔽效應。這種遮蔽效應表現在強信號遮蔽鄰近頻率的弱信號。假如有一個1000hz的強信號,在其邊上有一個低18db的1100hz的弱信號。那么這個弱信號就被遮蔽掉。也就是說,任何一個在強信號邊上的弱信號都將會被遮蔽掉。但是假如有另一個低18db的2000hz弱信號,這個信號就能夠被聽見。必須要降低到-45db以下,才會被遮蔽掉。也就是說,信號的頻率離得越近,遮蔽效應就越嚴重。這意味著,我們可以提高在一個強信號的附近的噪聲電平。提高噪聲電平也就是減少量化的位數,從而達到壓縮的目的。但是,由于強信號是隨機出現的,所以減少強信號附近的量化位數必須是自適應地進行。
舉例來說,假如在第8個子帶中有一個強度為60db的1000hz的信號,可以計算出在整個第8子帶都會有遮蔽效應,其遮蔽的門限為35db。也就是說,在整個第8子帶中,所有低35db的信號都將會被遮蔽掉。此時,可以接受的信噪比s/n=60-35=25db。因而4位的分辨率就已經足夠了。同時,這種遮蔽效應也存在于鄰近的子帶中。也就是說,在第9-13,和第5-7個子帶中都有遮蔽效應,都可以降低其分辨率,只是離得越遠,效應越弱。
3. 人耳的前遮蔽和后遮蔽效應
前面講的遮蔽效應是指同時遮蔽,除此以外,還有一種非同時的遮蔽效應,稱為前遮蔽和后遮蔽。所謂前遮蔽就是指在一個強信號之前或之后的弱信號,也會被遮蔽掉。這是因為人腦需要有一定的時間來處理聲音信號的緣故。前遮蔽效應的時間比較短。大約只有2-5ms。而后遮蔽的時間比較長,大約有100ms。這種現象也可以加以利用,以進行壓縮。只要降低強信號之前和之后的分辨率就可以。
4. 減小低頻時的帶寬
從人耳的頻率響應可以看出,人耳在低頻時的靈敏度在700hz以后急劇降低,如果將頻段均勻劃分,每個頻段625hz寬,在低頻端就只有一個頻段,也就無法充分利用這一特性。因此在mpeg第二層和第三層中,就采用了不均勻的濾波器,即在低頻端采用較窄的子帶,而在高頻端則采用較寬的子帶。這就可以更充分利用人耳的這一特性。
5. 人耳的空間響應
人耳在某些頻率上,并不能分辨其聲源的方向。因而就可以利用一種所謂聯合立體聲的方法來降低碼率。 所謂聯合立體聲就是指在某些頻率上采用單聲道。 這樣也能達到降低碼率的效果。
此外,在mpeg-1的音頻壓縮中,還采用了其它措施,以降低碼率并保證質量。
五、用pc實現編解碼的MP3
MP3從一開始是在網上流行起來的。最早是一些大學里的學生公布了一些mpeg-1第三層音頻壓縮和解壓縮的軟件,因為這些軟件都是可以免費下載的,所 以很快就流行起來。這些軟件的使用也越來越方便。很多人用這些軟件壓縮了很多音樂和歌曲,也把它們公布在網上,可以免費下載。你只要有一個播放的軟件就可以用pc來對這些用MP3壓縮了的音樂和歌曲來進行解壓縮和播放。
最新的播放軟件是windows media player 11試用版,它要求采用至少intel奔騰ii的233mhz處理器,64mbram,200mb硬盤空間。而比較常用的壓縮軟件是一種稱之為lame的軟件,這種軟件可以在http://www.free-codecs.com/download/lame_encoder.htm免費下載。
六、MP3解壓縮硬件
雖然采用pc作為MP3的播放器有一定的可取之處,例如,對于已經擁有pc的人來說,就不需要再投資。當然也要看他的pc是否有足夠的功率。但是pc畢竟是體積大,重量重,不便于攜帶。因此首先就有人想到要開發出一種MP3的隨身聽來。美國的diamond公司在1997年首先開發出了一種小型的MP3隨身聽,稱為rio。以后samsung公司也開發了一種稱為yepp的MP3隨身聽,南韓的saehan信息系統公司則開發出了一種叫mpman的隨身聽。
經過了10年以后,現在各式各樣的MP3隨身聽如雨后春筍地出現。尤其是自從蘋果公司推出ipod以后,MP3的市場更是在全世界蓬勃發展,成為年輕人時尚的標志。而這類MP3大多利用專用的解壓芯片來解壓縮,F在采用最多的是珠海炬力和sigmatel的芯片。
七、硬盤和閃存的比較
目前閃存的適用最大容量為2gb,雖然已經開發出來了16gb的閃存,但是在價錢上還不能和微型硬盤競爭。超過2gb的容量就需要采用微型硬盤。最早的ipod就是采用微型硬盤。
最小的微型硬盤的直徑只有0.85英寸,它的尺寸可以和最早的cf閃存卡的大小兼容。而容量則隨年增加。下圖表明了微型硬盤的容量增加歷史。當然目前使用最多的還是1.8英寸的微型硬盤。因為它的成本更低、容量更大。這方面主要是日本日立和東芝公司的產品。微型硬盤和閃存相比較,由于閃存是全固態的,所以有體積小、可靠性高、功耗低等優點。
但是在容量上還是比不過硬盤。而硬盤的主要缺點是體積大、可靠性低、功耗大,然而硬盤的性能也在不斷地改進。例如微型硬盤的抗震能力,由于采用了特殊的磁頭載入載出技術,使抗沖擊能力高達1500g(非工作狀態)和175g(工作狀態)。
而采用nand作為存儲單元的閃存也發展得非?,隨著超大規模集成電路的線寬日益縮窄,單位面積硅片的存儲量日益加大,其成本也隨著降低。90納米的閃存已經大量出貨,三星現在已經有一條60納米的生產線,可以生產8gb的閃存,正在準備批量生產的是55納米的生產線,可以生產16gbb的閃存。目前nand閃存的價格正在以每年50%的速度降低。其降價的速度超過微型硬盤的降價速度。而且采用閃存做成的固體硬盤其讀取速度(53mb/s)要比硬盤快3倍,而寫入速度(28mb/s)要比硬盤快1.5倍。據估計,閃存大約在2008年將會趕上微硬盤的成本。
八、結束語
由上所述可見,MP3的確具有CD唱盤無可比擬的優越性。但是,好事多磨,MP3的普及受到了原來CD錄音公司和音像出版商的強烈反對。原因很簡單,他們本來可以出版10張碟片,現在只能出版一張碟片了。這就會大大損害他們的利益。因此,以美國錄音工業協會(riaa)為代表的出版商曾向法院提出申請,要求停止MP3隨身聽的發售。但被法院否決了這項請求。但是,在另一方面,因為MP3歌曲可以在網上隨意下載,也的確造成了容易侵犯版權問題。像最近蘋果公司的itune因為也有未經授權的歌曲而受到控告。其實,在網上可以直接下載幾百萬首MP3歌曲,其中有不少是沒有版權的。
中國現在已經是生產便攜式MP3的大國。連蘋果公司的ipod也是在中國生產的,但是中國本身的MP3市場還遠遠小于出口市場。而且作為一種產品,便攜式MP3正在受到各種威脅,目前最大的威脅是來自音樂手機,現在已經有一半的手機帶有播放MP3的功能。另一個威脅則是來自mp4和pmp。帶有視頻播放功能的便攜產品也將取代具有單一功能的MP3播放機。
不過作為一種音頻壓縮技術,MP3仍然具有廣闊的前景?梢灶A料,在不久的將來,從高檔的家庭影院,中檔的組合音響,低檔的書架式音響,直到小型的隨身聽,汽車音響。總之,凡是原來播放普通CD的播放機都將會變成能夠播放MP3碟片的播放機。就像當初CD取代磁帶錄音機一樣,一個用MP3全面取代現有CD的時代即將來臨!而中國將會走在這個時代的最前列!
更多MP3技術細節,請訪問http://power-analog.com/articles02.htm。