MPEG是Motion Picture Experts Group的縮寫,中文名稱為“運動圖像專家組”,是世界著名的數字視頻和音頻壓縮的標準化組織。MPEG組織制定了可用于數字存儲介質上的視頻、音頻的國際標準,簡稱MPEG系列標準,具體應用涵蓋傳統存儲設備、CD-ROM、DVD、數字音頻磁帶(DAT)、磁帶設備、硬盤、可寫光盤、以及電信通道如綜合服務網(IDSN)和局域網等。MPEG組織制定的這些標準,如MPEG-2、MPEG-4、MPEG-7和MPEG-21,對視頻和音頻技術的發展產生了深遠的影響。
近幾年來,為了擺脫專利技術受制于人的被動局面,以信息產業部科學技術司為主導的中國數字音視頻產業于2002年6月開始籌備“數字音視頻編解碼標準工作組”,制訂了一套擁有自主知識產權的“信息技術先進音視頻編碼”系列標準(AVS),并得到了主流廠商的認可。本文主要介紹了MPEG-1(ISO/IEC-11172)、MPEG-2(ISO/IEC-13818)、MPEG-4(ISO/IEC-14496)、MPEG-7、MPEG-21以及AVS標準的技術特點及應用趨勢。
MPEG-1
MPEG-1是最早的多媒體運動圖像和伴音的數據壓縮編碼標準。MPEG-1實際上包括三個部分:MPEG-1視頻、MPEG-1音頻和MPEG-1系統。MPEG-1標準是大家接觸得最多的標準之一,具有以下特點:隨機訪問;靈活的幀率;可變的圖像尺寸;定義了I-幀、P-幀和B-幀;運動補償可跨越多個幀;半像素精度的運動向量;量化矩陣;GOF結構;slice結構等。
MPEG-1是現在的VideoCD和MP3的基礎,可以將移動圖像和相關的聲音壓縮成數字存儲文件,文件處理速度可以達1.5Mbps以上,廣泛應用在VCD制作和一些視頻片段下載的網絡應用中。可以毫不夸張的說,99%的VCD都是用MPEG-1格式壓縮的。值得注意的是,VCD2.0并不是說明VCD是用MPEG-2壓縮的。使用MPEG-1壓縮算法,可以把一部120分鐘長的電影壓縮到1.2 GB左右大小。但是,MPEG-1算法理論雖然已經非常成熟,技術上卻很難克服噪聲、雪花和“鬼影”對壓縮圖像質量的影響,對于劣質的視頻信號源,MPEG-1算法會將噪聲和缺陷放大,使圖形圖像進一步惡化,這就使得MPEG-1壓縮方法對視頻節目源有一定的要求。
由于VCD采用MPEG-1算法對視頻圖像進行壓縮,因此其圖像質量將主要取決于節目源的質量,在制作VCD節目時最好使用高質量的視頻節目源,并盡量使用源帶,因為錄像帶每復制一次就增加一次背景噪聲,噪聲會大大增加每幀數據量而影響壓縮圖像的質量。
MPEG-2
MPEG-2于1994年由MPEG工作組發布的視頻和音頻壓縮國際標準。MPEG-2通常用來為廣播信號提供視頻和音頻編碼,包括數字衛星電視、有線電視等。經過少量修改后,MPEG-2也成為DVD產品的核心技術。使用MPEG-2壓縮算法,可以將一部120分鐘長的電影(未視頻文件)壓縮到4~8GB的大小。
MPEG-2技術是一種高質量視頻壓縮標準,最顯著的特征之一是通用性,即不依賴于特定的應用。MPEG-2由9部分組成,見圖3。其中,第一部分即系統描述部分定義了傳輸流,它采用一套在非可靠介質上傳輸數字視頻信號和音頻信號的機制,主要用在廣播電視領域。
MPEG-2的第二部分即視頻部分和MPEG-1類似,但是它提供對隔行掃描視頻顯示模式的支持(隔行掃描廣泛應用在廣播電視領域)。MPEG-2視頻并沒有對低比特率(小于1Mbps)進行優化,在3Mbit/s及以上比特率情況下,MPEG-2明顯優于MPEG-1。MPEG-2向后兼容,也即是說,所有符合標準的MPEG-2解碼器也能夠正常播放MPEG-1視頻流。MPEG-2技術也應用在了HDTV傳輸系統中。
MPEG-2的第三部分定義了音頻壓縮標準。該部分改進了MPEG-1的音頻壓縮,支持兩通道以上的音頻。MPEG-2音頻壓縮部分也保持了向后兼容的特點。
MPEG-2的第七部分定義了不能向后兼容的音頻壓縮。該部分提供了更強的音頻功能。通常我們所說的MPEG-2AAC指的就是這一部分。
MPEG-2核心技術大約涉及640個專利,這些專利主要集中在20間公司和一間大學,如Alcatel、佳能、哥倫比亞大學、法國電信(CNET)、富士通、General Electric Capital Corporation、General Instrument Corp.、GE Technology Development, Inc.、日立、KDDI、朗訊科技、LG電子、Matsushita、三菱、日本電信電話(NTT)、Philips、Robert Bosch GmbH、三星、三洋電氣、Scientific Atlanta、夏普、索尼、Thomson Licensing S.A.、東芝、JVC等。
MPEG-4
早在1993年,MPEG組織就開始制定MPEG-4,直到1998年10月方才定案,并于1999年2月正式公布了為國際標準的MPEG-4(ISO/IEC14496)第一版本,同年年底MPEG-4第二版亦告底定,且于2000年年初正式成為國際標準。
MPEG-4是一種新的壓縮算法,主要用途在于網上(串流媒體)及光盤分發,語音傳送(視像電話),以及電視廣播。使用這種算法的ASF格式可以把一部120分鐘長的電影(未視頻文件)壓縮到300M左右的視頻流,可供在網上觀看。MPEG-4已經不再是個單純的視頻音頻編解碼標準,它更多定義的是一種格式和框架,而不是具體的算法,從而為多媒體數據壓縮提供了一個更廣泛的平臺,能滿足三種族群的需求—多媒體內容創作者、網絡服務供貨商和終端消費者。
(1)MPEG-4的組成
MPEG-4由一系列的子標準組成,被稱為部,包括下面的部分:
第一部 (ISO/IEC 14496-1):系統,描述視頻和音頻的同步,以及復用方式(multiplexing)。
第二部 (ISO/IEC 14496-2):視頻,定義了一個對各種視覺信息(包括視頻、靜止紋理、計算機合成圖形等等)的編解碼器。對視頻部分來說,眾多“Profiles”中很常用的一種是Advanced Simple Profile (ASP)。
第三部 (ISO/IEC 14496-3):音頻,定義了一個對各種音頻信號進行編碼的編解碼器的集合。包括高級音頻編碼(AAC for Advanced Audio Coding)的若干變形和其他一些音頻/語音編碼工具。
第四部 (ISO/IEC 14496-4):一致性,定義了對本標準其他的部分進行一致性測試的程序。
第五部 (ISO/IEC 14496-5):參考軟件,提供了用于演示功能和說明本標準其他部分功能的軟件。
第六部 (ISO/IEC 14496-6):多媒體傳輸集成框架(DMIF for Delivery Multimedia Integration Framework)。
第七部 (ISO/IEC 14496-7):優化的參考軟件,提供了對實現進行優化的例子。(這里的實現指的是第五部分)。
第八部 (ISO/IEC 14496-8):在IP網絡上傳輸,定義了在IP網絡上傳輸MPEG-4內容的方式。
第九部 (ISO/IEC 14496-9):參考硬件,提供了用于演示怎樣在硬件上實現本標準其他部分功能的硬件設計方案。
第十部 (ISO/IEC 14496-10):先進視頻編碼(AVC for Advanced Video Coding),定義了一個被稱為AVC的視頻編解碼器,有時被稱為MPEG-4 AVC。從技術上講,MPEG-4 AVC和ITU-T H.264標準是一致的。
第十二部 (ISO/IEC 14496-12):基于ISO的媒體文件格式,定義了一個存儲媒體內容的文件格式。
第十三部 (ISO/IEC 14496-13):知識產權管理和保護(IPMP for Intellectual Property Management and Protection)拓展。
第十四部 (ISO/IEC 14496-14):MPEG-4文件格式,定義了基于第十二部分的用于存儲MPEG-4內容的容器文件格式。
第十五部 (ISO/IEC 14496-15):AVC文件格式,定義了基于第十二部分的用于存儲第十部分的視頻內容的文件格式。
第十六部 (ISO/IEC 14496-16):動畫框架擴展(AFX for Animation Framework eXtension)。
第十七部 (ISO/IEC 14496-17):同步文本字幕格式 (尚未完成,2005年1月達成“最終委員會草案(FCD for Final Committee Draft)”。
第十八部 (ISO/IEC 14496-18):字體壓縮和流式傳輸(針對公開字體格式)。
第十九部 (ISO/IEC 14496-19):綜合用材質流(Synthesized Texture Stream)。
第二十部 (ISO/IEC 14496-20):簡單場景表示(LASeR for Lightweight Scene Representation)(尚未完成,2005年1月達成“最終委員會草案(FCD for Final Committee Draft)”。
第二十一部 (ISO/IEC 14496-21):用于描繪(Rendering)的MPEG-J拓展(尚未完成,2005年1月達成“委員會草案(CD for Committee Draft)”。
(2)MPEG-4的市場應用
對多媒體內容創作者而言,MPEG-4使多媒體內容更多元化、更具有彈性,且多媒體組件更容易被再利用。它能將現今各自發展的技術及應用,如互聯網、動畫、視頻、音頻、交互電視等,整合至單一架構之下,進而提供更佳的資源管理方法和保護著作權的機能。MPEG-4標準前進之腳步并未因第二版的出現而暫緩,不斷有新的增加及修改,進一步擴展此標準所涵蓋范疇及應用領域。例如,2001年初于修訂三中加入了Studio Profile。Studio Profile將比特率進一步提升至1.2Gb/s,而分辨率則可達到4000×2000像素,如此使得MPEG-4標準得以延伸至電視電影專業影片制作領域。
對網絡服務供貨商而言,MPEG-4是透明度很高的信息傳遞工具。它可以藉由與其它國際標準的兼容相通而存在于各種形式網絡上,如寬帶電信網絡、有線電視網絡以及無線傳輸等。尤其在單純以視頻音頻傳輸為主的應用中,盡管位速率約為MPEG-2視帶大小的十分之一,但是播放的質量幾乎沒有改變。這表示MPEG-4比MPEG-2有更高的帶寬使用效率,在終端處可增加同時播放用戶之數量而視頻效果仍可保持。
對終端消費者而言,MPEG-4能讓消費者在原創作者限定的操作功能范圍之內,與節目內容中之對象交互,體會前所未有的娛樂效果。而且在低傳輸率、移動式的網絡中,MPEG-4能使多媒體應用得以發揮。這包括了交互式多媒體廣播和移動通訊等。
所以,與MPEG-1和MPEG-2視頻標準的功能相較之下,除了傳統的數字視頻編譯碼的功能之外,MPEG-4更具備了許多引人注目的功能,包括有以對象內容為基礎的視頻對象存取、以場景內容為基礎的可升級性、視頻存取、糾錯能力等等。MPEG-4視頻標準不僅可以提供一個更具壓縮效率的新多媒體信息傳輸標準,同時也可以達成更好的交互性、全方位存取以及強勁的糾錯能力。
(3)MPEG-4 AVC及其應用
H.264有時稱為MPEG-4 AVC,實際上是MPEG-4的第十部分,是由ITU-T視頻編碼專家組(VCEG)和ISO/IEC運動圖像專家組(MPEG)聯合組成的聯合視頻組(Joint Video Team,JVT)提出的高度壓縮數字視頻編解碼器標準。ITU-T的H.264標準和ISO/IECMPEG-4第10部分(正式名稱是ISO/IEC 14496-10)在編解碼技術上是相同的,這種編解碼技術也被稱為AVC,即高級視頻編碼(Advanced Video Coding)。該標準第一版的最終草案(FD)已于2003年5月完成。
和MPEG的其它視頻標準一樣,H.264/AVC也提供了一個參考軟件,并可以免費下載。它的主要目的是提供一個演示H.264/AVC各種功能的演示平臺,而不是作為一個直接的應用平臺(在後面的鏈接部分可以找到下載的地址)。目前在MPEG也同時在進行一些硬件參考設計的實現。
目前,MPEG-4的技術授權費讓許多運營商難以認同,不光是費用問題,就連計費方式也遭到強烈質疑,在最初的授權預案中,如果電視內容的營運商要以MPEG-4格式來播放節目,則每分鐘要支付0.000333美元,或者是以每年每個收視用戶收取0.25美元。同樣,DVD在發表之初的數年幾乎是難以推廣,主要原因也一樣歸咎于授權或專利費用。經過幾年后,DVD的授權與專利有了進一步的妥協,DVD才有今日的普及,所以從這個角度看MPEG-4授權實已成為一種“歐美常態”,只不過運營商不再愿意等待了,部分已經開始采用其它標準,如中國的AVS等。
MPEG-7
國際標準化組織(ISO)在制定MPEG-1、MPEG-2及MPEG-4的標準基礎上,推出了新的標準MPEG-7,該標準的正式名稱為“多媒體內容描述接口”(Multimedia Content Description Interface), 其目標就是產生一種描述多媒體內容數據的標準,滿足實時、非實時以及推-拉應用的需求,它既不同于基于波形和基于壓縮的表示方式如MPEG-1和MPEG-2,又不同于基于對象的表示方式如MPEG-4,而是將對各種不同類型的多媒體信息進行標準化描述,并將該描述與所描述的內容相聯系,以實現快速有效的搜索。
(1)MPEG-7的主要元素
MPEG-7描述了包括自由文本、n維時空結構、統計信息、客觀屬性、主觀屬性、生產屬性和組合信息。對于視覺信息,描述可能包括顏色、視覺對象、紋理、草圖、形狀、體積、空間關系、運動及變形等。對于音頻信息,描述可能包括音調、調式、音速、音速變化等。它根據信息的抽象層次,提供一種描述多媒體材料的方法以便表示不同層次的用戶對信息的需求,并支持數據管理的靈活性、數據資源的全球化和互操作性。MPEG-7的主要元素包括以下幾種:
(1)描述工具,包括一組描述符D(Descriptor )和描述方案DS(Description Schemes )。描述符是指用來定義和表達實體某一方面特征的句法或語法。表達實體是由特征標識符(如顏色)和數據類型(如字符串)等構成的。數據類型可以是“復合”的,既可以由幾個數據類型的組合來構成,也可以由數個D來“描述”一個特征。描述方案是由一個或多個D和DS構成,DS規定了它們相互關系的結構和語法。
(2)描述定義語言DDL(Description Definition Language),用來指定描述方案的一種語言。它是一種模式化語言,是對音視頻數據建模結果的一種表征。DDL規定了MPEG的描述工具,包括描述符和描述方案,并提供了把描述符構建為描述方案的規則。DDL同時也允許定義特殊應用中的擴展DS. 描述工具通過DDL被實例化,并以文本格式(XML)被描述。
(3)用來支持多路描述、同步問題、傳輸機理、文件格式等的系統工具。
(2)MPEG-7的主要應用
MPEG-7的主要應用包括“Pull”(拉)和“Push”(推)。這兩類應用與社會的政治和經濟有著密切的聯系,在教育、影視等專業領域和消費應用的不同場合都是必不可少的。
(1)Pull類應用:MPEG-7標準產生的目的是要定義一種規范,使對AV資料的查詢變得和現在的文本查詢一樣方便。盡管其公認的多媒體內容描述的應用遠不止“獲取”這一種,但它還是作為許多原始的MPEG-7應用而保留下來。這些“獲取”,即“Pull”類型的應用涉及到數據庫、多媒體信息檔案以及基于網絡的Intenet模型(用戶向服務器索取資料)。MPEG-7的Pull類應用包括:商業音樂類應用(卡拉OK和音樂銷售)、聲音效果庫、歷史數據庫、通過可回憶的聽覺事件進行電影場景“搜索”。
(2)Push型應用:
“Push”與“Pull”類型的應用是相反的,“Push”類型應用更像是廣播方式,以及剛出現的網絡廣播。“Pull”模型是從索引到“搜索”,“Push”模型是從選擇到“過濾”。這兩類應用有著完全不同的要求,通常“Pull”處理的是存儲在數據庫里的靜態信息“描述”,而“Push”處理的是變化的動態信息“描述”。“Push”,即“過濾”的要求是提供用戶只想收看或收聽到的多媒體信息。
如在數字系統中(包括數據廣播),MPEG-7描述可以幫助用戶選擇節目和各類數據廣播信息,用于當時或以后觀看,以及記錄、存貯。在個性化廣播系統的環境中,提供給用戶的數據可以按照各自的類型從數據廣播中“過濾”出來,而類型的生成可以是自動的(如根據地點、年齡、性別、或以前的選擇行為等),也可以是半自動的(如根據預設的興趣等)。
MPEG-21
隨著越來越多數字化媒體的出現,擁有一個先進的多媒體解決方案就變得至關重要了。這不僅是技術上的考慮,同時也是個人應用的需要。所有“內容提供商(content creator)”都有共同的關注目標:內容的管理、版權的保護、對非授權接入和修改防范以及對于提供商和使用者隱私的保護。所有這些需求激發了MPEG-21 Multimedia Framework的出現和發展,該標準正是致力于在大范圍的網絡上實現透明的傳輸和對多媒體資源的充分利用。
MPEG-21基于兩個基本概念:分布和處理基本單元DI(the Digital Item)以及DI與用戶間的互操作。MPEG-21也可表述為:以一種高效、透明和具有互操作性的方式支持用戶交換、接入、使用甚至操作DI的技術。
MPEG首先制定了一個技術報告(MPEG-21第一部分)。接著,在MPEG-21的標準化進程中,MPEG不斷考慮使協議基于需求之上,形成了MPEG-21標準的不同組成部分(如ISO/IEC 21000-N)。現在,MPEG的第二和第三部分主要是針對DI的聲明和定義,而第四、五和第六部分主要針對IPMP等相關問題。第七部分,DIA(Digital Item Adaptation)與UMA(universal multimedia access)相關。
其中,第一部分“前景、技術和策略(Vision,Technologies,and Strategy)”在2001年9月正式被批準。它主要提供了框架的定義并介紹了用戶和DI的概念,用于反映該技術標準的根本目的。MPEG-21的第一部分主要包括:為多媒體框架定義“前景”,使得在大范圍內針對不同的終端和網絡實現透明傳輸和對多媒體資源更充分的利用,以滿足所有用戶的要求;實現器件和標準間的集成,以達到DI的產生、管理、傳輸、控制、分布和使用技術之間的協調一致;制定一個策略,通過定義好的規范和標準,滿足不同用戶的需求。
第二部分DID(Digital Item Declaration)包括視頻、音頻、文本和圖形等媒體源。對于所有MPEG-21系統來說,DI的確切含義都是很重要的。但要想為DI定義一個精確的定義,同時滿足如此眾多的文件格式的要求,將是十分困難的。
第三部分DII(Digital Item Identification)以標準化的形式來描述特定地點中與之相關的DI、容器、器件和片斷等。在MPEG-21的框架中DI通過將統一的源標識符(URI-Uniform Resource Identifiers)壓縮成標識元素來進行區分。
第四部分IPMP(Intellectual Property Management and Protection)定義了一個互操作的框架。此部分包括從遠程位置重新獲得IPMP工具以及在IPMP工具之間、IPMP和終端之間交換信息的標準方法。它提出了IPMP工具的認證,同時實現了權力數據字典(Rights Data Dictionary)和權力表達語言(Rights Expression Language)二者的集成。
第五部分REL(Rights Expression Language)是一種機器解釋語言,可以提供靈活互操作的機制。它同時支持接入的規范和對數字內容的使用控制。REL也為個人數據提供靈活的互操作機制,滿足個人的要求,保證個人的權益。
第六部分RDD(Rights Data Dictionary)是一個關鍵術語的字典,其中存放了描述那些控制DI的用戶的不同權力。它包含一系列清晰、連貫、結構化和集成的術語,用來支持MPEG-21的REL。RDD規定了字典的結構和核心,同時也規定了如何在注冊授權的管理之下進一步定義術語。為了能在REL中使用,RDD提供了術語的定義;同時,RDD系統支持元數據從一個命名空間到另一個命名空間的映射和轉換,這種變換是基于自動或部分自動方式的,而且語義集成的不確定性和損耗最小。
MPEG-21致力于為多媒體傳輸和使用定義一個標準化的開放框架。這種框架將在開放的市場中為內容提供商和業務提供商創造同等的機會。同時,這將在一種互操作的模式下為用戶提供更豐富的信息,用戶將因此而受益。MPEG-21應用前景可以總結為:一個多媒體框架,如內容管理、版權保護、對非授權接入和修改防范以及對于提供商和使用者隱私的保護。