淺析MPEG-4技術及應用綜述

作者：時間：2012-10-10 來源：網絡

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

一．概述

本文引用地址：http://www.j9360.com/article/202171.htm

關于圖象視頻壓縮已有n×384kbps電視會議H.120建議、p×64kbps視頻編碼標準H.261、連續色調靜止圖象壓縮標準JPEG、PSTN等低比特率活動圖象壓縮標準H.263。1988年ISO與CCITT成立活動圖象專家組MPEG（MovingPictureExpertsGroup)，研究數字存儲媒體上的活動圖象及其伴音的編碼表示,1992年通過1.5Mbps編碼標準MPEG-1,1994年通過2Mbps、30Mbps高質量視頻音頻編碼標準MPEG-2。以上標準均偏重于某(幾)個應用領域,交互性較差,至多允許視頻序列可變速度的雙向播放,可重用性只限于矩形視頻區域及其相關音頻的線性片段,無法在同一場景集成自然信息與合成信息,不能提供對各種網絡的一致性訪問，容錯性、靈活性和可擴展性比較差。

MPEG于1991年5月提出關于視頻音頻編碼的MPEG-4項目，設系統、音頻、視頻、需求、實現研究、測試及自然合成混合編碼（SNHC）子組,1998年11月成為國際標準。MPEG-4提供更強的交互能力。場景中的每個對象獨立編碼,用戶可以選擇性地與其中某(幾)個對象交互,具有良好的重用性。重新組合音視對象AVO（AudioVisualObject）構造新場景,可以集成各種對象,無縫地集成自然信息與合成信息,實時信息與存儲信息,AVO可以是單/雙/多聲道音頻信息、單/雙/多鏡頭2D/3D視頻信息。可以透明地訪問信息,通過各種網絡傳輸的信息最終映射為本地信息,整個過程給用戶的感覺就如同訪問本地信息。而且允許基于內容(比特率、分辨率、幀率、防錯保護和解碼優先級)的可伸縮性和服務質量（QoS）參數,更加靈活,可擴展,充分考慮未來技術的發展及應用需求,將解碼器可編程能力分為:不可編程的標準工具集合（Flex-0）；由標準化工具及其接口靈活配置的算法（Flex-1）；多種工具構成可能算法的標準化可擴展機制（Flex-2）。

二．技術部分

2.1 MPEG-4標準概要

MPEG-4引入了對象基表達(object-based representation)的概念，用來表達視聽對象A VO(audio/visual objects)；MPEG-4擴充了編碼的數據類型，由自然數據對象擴展到計算機生成的合成數據對象，采用合成對象/自然對象混合編碼SNHC(Synthetic/Natural Hybrid Coding)算法；在實現交互功能和重用對象中引入了組合、合成和編排等重要概念。MPEG-4中制定了一個稱為傳輸多媒體集成框架DMIF(Delivery Multimedia Integration Framework)的會話協議，它用來管理多媒體數據流。該協議在原則上與文件傳輸協議FTP(File Transfer Protocol)類似，其差別是：FTP返回的是數據，而DMIF返回的是指向到何處獲取數據流的指針。DMIF覆蓋了三種主要技術：廣播技術，交互網絡技術和光盤技術。

MPEG-4將應用在移動通信和公用電話交換網PSTN(public switched telephone network )上，并支持可視電話(videophone)、電視郵件(video mail)、電子報紙(electronic newspapers)和其他低數據傳輸速率場合下的應用。

MPEG-4的標準名是Very-low bitrate audio-visual coding (甚低速率視聽編碼)。截止到1998年9月，已作為國際標準草案DIS (Draft International Standard)的MPEG-4文件有5個部分，它們是：

① MPEG-4系統標準，標準名是ISO/IEC DIS 14496-1 Very-low bitrate audio-visual coding - Part1: 　Systems。

② MPEG-4電視圖象標準，標準名是ISO/IEC DIS 14496-2 Very low bitrate audio-visual coding -Part 2: Video。

③ MPEG-4聲音標準，標準名是ISO/IEC DIS 14496-3 Very low bitrate audio-visual coding - Part3: Audio。

④ MPEG-4一致性測試標準，標準名是ISO/IEC DIS 14496-4 Very-low bitrate audio-visual coding -Part 4: Conformance Testing。

⑤ MPEG-4參考軟件，標準名是ISO/IEC DIS 14496-5 Very-low bitrate audio-visual coding - Part5: Reference software

⑥ MPEG-4傳輸多媒體集成框架，標準名是ISO/IEC DIS 14496-6 Very-low bitrate audio-visual coding - Part 6: Delivery Multimedia Integration Framework (DMIF)。

2.2 MPEG-4 標準的范圍和特點

MPEG-4標準提供了一整套技術來滿足作者的需要、服務提供商和最終用戶的偏好。

*對于作者來講，MPEG-4使得基于內容的產品成為現實，這種產品具有大得多的可用性，具有比現在的獨立技術例如數字電視、動態圖象、WWW網頁及其擴展技術所能提供的更大的靈活性。而且，現在有可能進行更好的管理和著作權的保護。

*對于網絡服務提供商來說，MPEG-4提供了透明的信息，它能夠在相對標準的實體的幫助下解釋并翻譯成每個網絡相應的本地信號訊息。不僅預先考慮到服務質量（QoS），MPEG-4還為不同的媒介提供一個通用的QoS描述符。為每種媒質從QoS的參數設置到網絡服務質量的精確翻譯超出了MPEG-4的范圍，留給了網絡提供商。端到端的發送MPEG-4媒質　QoS描述符就能夠在異種網絡間進行傳輸優化。

* 對于最終用戶來說，MPEG-4在作者所置的限制內提供更高水平的內容交互。它也為新興網絡，包括那些應用相對低速率的網絡以及移動網絡提供多媒體服務。MPEG主頁上的一份MPEG-4應用文檔描述了很多最終用戶應用，包括交互式多媒體廣播和移動通信。

對所有相關方面，MPEG力求避免大量的所有權、非交錯格式和播放器的使用。為實現以上目標，MPEG-4提供標準化方式來：

1．代表語音、視覺或語音視覺內容的單元，稱為媒體對象。這些媒體對象可能來自自然或合成源；這就是說他們能夠被相機或話筒所記錄，或者由計算機產生；

2．描述這些對象的組合以創建構成語音視頻屏幕的組合媒體對象；

3．復用和同步與媒體對象相關的數據，這樣他們能在提供了適于特殊媒體對象特性的QoS的網絡通道上傳輸；而且

4．與接收端產生的語音視頻景象交互。

2.2.1 媒體對象的編碼表示

MPEG-4 語音視頻場景由一些媒體對象組成，以分層方式組織起來。在這層次結構中，我們找到了基本的媒體對象，例如：

* 靜態圖象（例如固定背景）

* 視頻對象（例如正在說話的人-沒有背景）

* 語音對象（例如和這個人相關的聲音）

MPEG-4把這樣大量的能夠表現2-D或3-D自然和合成內容類型的基本媒體對象標準化。附加在上面提到的、除媒體對象之外，MPEG-4定義了如下對象的編碼表示法，

* 文本和圖形；

* 用來合成語言和運動頭部的正在講話的合成的頭部和相關的文本；

* 合成的聲音

編碼形式的媒體對象是由在語音視頻景象中處理該對象的描述元素和相關流數據組成。重要的是在編碼形式下每個媒體對象都能獨立與它的環境或背景獨立表現。考慮到要求的功能，這種媒體對象的編碼表示法是盡可能的高效的。這些功能包括差錯魯棒性、易釋性和可編輯性。

2.2.2 媒體對象的組合

基本媒體對象相應于描述樹中的葉子，而組合媒體對象包含了整個子樹。例如：相應于正在說話的人的視頻對象和相應的聲音捆綁在一起形成一個新的組合媒體對象，包含了那個人的語音和視頻部分。

* 這樣的組成允許作者構建復雜的景象，使客戶能處理有意義的對象。

* 更普遍地，MPEG-4提供了一種描述景象的標準化方式，例如允許：

* 在給定坐標系內隨處放置媒體對象；

* 應用變換來改變媒體對象的幾何和聲學表現；

* 整合基本媒體對象以形成組合媒體對象；

* 應用流數據于媒體對象以更改屬性（例如聲音，屬于某對象的移動中的文本，驅動合成面孔的動態參數成面孔的動態參數；

* 交互式地改變用戶在景象中的任何視聽點。

景象描述是建立在來自于對象合成結點的結構和功能意義上的虛擬現實（VRML）的一些基本概念而且擴展為完全實現上述特點。

2.2.3 媒體對象流數據的描述和同步

一個MPEG-4影音場景的例子媒體對象可能需要在一個或多個基本流中傳輸的流數據。對象描述符把與媒體對象相關的所有流中區分開來。這就允許處理分層編碼數據、內容變化信息的聯系（稱?quot;對象內容信息）和相關的知識產權。每個流自身由一套配置信息的描述符所區別，例如用來決定需要編碼源和編碼的時間信息精度。而且描述符可以攜帶傳輸需要的QoS的線索（例如最大位速率、位差錯速率、優先級等）。基本流的同步是通過基本流內單個訪問單元的時標實現的。同步層管碚庋的訪問單元和時標的識別。獨立于媒體類型之外，該層允許識別出訪問單元的類型恢復媒體對象或景象描述的時基，而且能在其間實現同步。該層的語法可以多種方式配置，允許在許多系統中使用?

2.2.4 流數據的傳輸

在不同QoS的網絡中從源到目的的流信息的同步傳輸，是由上述的同步層和包含兩子層的復合傳輸層確定的。第一個復用層根據MPEG-4標準的Part6中的DMIF規范進行管理。這種復用可在MPEG定義的FlexMux工具中體現，該工具允許以低復用費用組合基本流（ESS）。例如該層的復用可用來組合相似QoS需求的基本流，減少網絡連接數或者端-端延遲，TransMux（傳輸復用）層搭建了提供匹配需求QoS的傳輸服務的層。MPEG-4僅確定了該層的接口而具體的數據包和控制信號的規劃必須與各傳輸協議上有權的實體進行協商。任何現存的合適的傳輸協議棧，例如（RTP）/UDP/IP、（AAL5）/ATM或者MPEG-2在適合鏈路層上的傳輸流都可能成為TransMux的實例。選擇權留給了最終用戶和服務提供商，而允許MPEG-4用于廣泛的運行環境中。

FlexMux復用工具的使用是可選的，如果下層的TransMux實例提供了所有要求的功能，該層必須為空。而同步層總是存在的。以下是可行的：

1．識別訪問單元，傳輸時標和時鐘參考信息以及檢測數據丟失；

2．傳輸控制信息以實現：

* 為每個基本流和FlexMux流指示需要的QoS；

* 翻譯這樣的QoS需求為實際網絡資源；

* 連接基本流到媒體對象；

* 轉換基本流的映射為FlexMux和TransMux通道。

部分控制功能在和DMIF框架這樣的傳輸控制實體聯結后才可實現。

2.2.5 與媒體對象交互

總體來說用戶看到的是依據作者設計組合而成的影象。然而，用戶和影象交互的可能性依賴于作者所允許的自由度。用戶可能被允許進行的操作包括：

* 改變景象的視/聽點，例如在景象中漫游；

* 把景象中的對象拖到不同的位置上；

* 點擊特定對象以觸發一系列事件，例如開始或終止視頻流；

* 多語言音軌時選擇想要的語言。

更復雜的動作也能被觸發，例如一個虛擬的電話鈴響，用戶接聽并建立通信鏈路。

2.2.6 知識產權的管理和識別

能夠在MPEG-4媒體對象中識別出知識產權是重要的。為支持這一點，MPEG與不同制造商的代表就語法定義和工具進行合作。MPEG-4通過存儲唯一標識來實現識別，該標識由國際編號系統公布。該數字可用于識別媒體對象的當前所有者。因為并非所有的內容都由此數字識別，MPEG-4 Version1提供用關鍵值對來識別知識產權的可能。而且MPEG-4為想使用控制訪問知識產權的系統的人提供一個緊密結合進系統層的標準化系統的人提供一個緊密結合進系統層的標準化接口。通過該接口，所有權控制系統可輕易地與解碼器的標準化部分組合。

2.3 MPEG-4 標準的技術細節

顯示了從網絡（或存儲設備）來的流作為TransMux流，復用為FlexMux流并傳給適當的獲取基本流的FlexMux解復器的。基本流（ES）被解析并傳遞給適當的解碼器。解碼是從編碼形式中恢復出AV對象中的數據并進行必要的操作以重建初始的AV對象以備在適當設備上演示。重建的AV對象可為影象演示中的潛在需要組合成層。解碼的AV對象和影象描述信息都被用來組合作者所描述的影象。用戶可在作者允許的程度上與最終演示展現的影象交互。

2.3.1 傳輸多媒體集成框架DMIF

傳輸多媒體集成框架DMIF（Delivery Multimedia Integration Framework）是在通用傳輸技術上的管理多媒體流的會話協議。原理上與FTP相似，唯一也是基本的差別是FTP返回數據，DMIF返回獲取（流）數據的指針。類似地，當DMIF運行時，第一個動作是和遠端建立會話。然后，選擇流并發要求（request）流注，DMIF對端將返回連接流注點的指針，并建立連接。

MPEG-4終端（接收側）的主要部分與FTP相比，DMIF既是框架又是協議。DMIF提供的功能是由稱為DMIF應用接口（DAI）的接口來表達，并翻譯為協議消息。這些協議消息可能基于運行的網絡而不同。服務質量同樣為DMIF設計所考慮，DAI允許DMIF用戶為所需的流指定要求。這樣就要求DMIF執行時保證要求得以實現。DMIF規格提供了在幾個新網絡類型，例如Internet上實現該任務的線索。

DAI也用來訪問廣播介質和本地文件，這意味著在多傳輸技術上定義訪問多媒體內容的單一、統一的接口。

因此，我們適合這樣說，DMIF的集成框架涵蓋了三種主要技術，交互網絡技術、廣播技術和磁盤技術。DMIF如此以至依賴于DMIF通信的應用不必關心底層的通信方法。DMIF執行以處理關于簡單應用接口的傳輸技術細節。應用通過DMIF應用接口訪問數據，無論該數據來自廣播源、本地存儲器或遠端服務器。在所有的情況下本地應用只通過統一接口（DAI）交互。不同的DMIF實例考慮到采用傳輸技術的特性把本地應用翻譯為送至遠端應用的特定消息。類似地，（從遠端服務器、廣播網絡或消息。類似地，（從遠端服務器、廣播網絡或本地文件）進入終端的數據通過DAI統一地傳給本地應用。不同的、特定的DMIF實例被管理各種特定傳輸技術的應用喚醒，雖然這對于應用是通明的，它只是和單一的DMIF過濾器交互。該過濾器負責為特定DAI向正確的實例粗定向。DMIF不規定該機制，只假設它是運行的。這在該圖的陰影框內有所強調，目的是澄清DMIF應用的邊界，此時DMIF通信構架定義了若干模塊，實際的DMIF應用只需要在邊界上保持他們的表現。這樣，通過例如基于IP的或ATM的網絡訪問的真實的遠程應用，和從廣播源或磁盤獲取內容的模擬遠端制造者應用。然而在前一種情況中，兩實體間交換的信息必須規范定義以確保互操作性。在后一種情況中，兩個DMIF實體間的接口和模擬遠端應用在單一實現中不需考慮該規范。對于廣播和本地存儲，該圖展示了一條本地DMIF、遠端DMIF（模擬）、遠端應用（模擬）的鏈條。該鏈條只表達概念化模型而不需對應為實際實現（全部在陰影區內）。

DMIF構架考慮廣播和本地存儲時，假設模擬遠端應用了解數據如何發送和存儲。如何可以得到處理中的應用種類的信息。對于MPEG-4，這實際就是如基本流ID、首對象描述符、服務名之類的概念。雖然DMIF層理論上不了解正提供支持的應用，由于（模擬）遠端應用的存在，對廣播和本地存儲等特殊情況該概念并不完全正確。因為（模擬）遠端應用不了解數據是如何傳送/存儲的，對于這樣的DMIF應用數據傳送/存儲的細致描述是無意義的。

而當考慮遠端交互時，DMIF層是完全不了解應用的。引入附加接口-DMIF網絡接口（DNI ）以確定DMIF對需要交換何種信息。該附加模塊負責把DNI原語映射為特定網絡使用的消息。應當注意DNI原語只是為信息目的所指定，并不需要在實際應用中表現DNI接口。為了支持相同的終端多傳輸技術甚至多場景（廣播、本地存儲器、遠端交互），DMIF支持允許一個或多個DMIF實例同時出現，每個面對特定的傳輸技術。多傳輸技術可被相同應用激活，這樣就能夠管理被廣播網絡、本地文件系統和遠端交互點傳送的數據。

2.3.2 流數據的多路復用，同步和描述

必須要在傳輸層從網絡連接或存儲設備來的數據中獲得各基本流。在MPEG-4系統模型中每個網絡連接或文件被單獨看成一個TransMux通道。依應用而異復用部分或完全地作用于MPEG-4范圍之外的層。MPEG-4唯一定義的復用工具是FlexMux工具，它對于低延遲、低負載復用及為節省網絡連接資源來說是可選的。

為了在系統環境中集成MPEG-4的目的，DMIF應用接口成為可作為同步層--打包流訪問的基本流的參考點。DMIF網絡接口確定了同步層-打包流-無FlexMux或FlexMux流如何從TransMux層得到的。這就是不被MPEG定義的傳輸功能的接口。這里考慮接口的數據部分，控制部分由DMIF處理。

與MPEG-1和MPEG-2以位流語法和語意描述理想解碼設備的方式相同，MPEG-4定義了系統解碼模型。這就允許不做非必要假設和精確細節準確定義終端操作。這對于以不同方式自由地實現設計真實MPEG-4終端和解碼設備是必要的。這些設備包括從不能與發端通信的電視接收機到能完全雙向交互的計算機。一些設備通過同步網絡MPEG-4流，另一些通過非同步方式（例如Internet）交換MPEG-4信息。系統編碼模塊提供所有MPEG-4終端應用基于的通用模塊。確定緩沖和延遲模型對不知道如何接收編碼流的編碼設備是必要的。雖然MPEG-4使編碼設備可通知資源需求的解碼設備，如前所述，該設備也可能不響應發端。同樣有可能一個MPEG-4會話同時接受不同設備的信息。但這將根據設備的容量來進行。

2.3.3 語法描述

MPEG-4定義了一種語法描述語言來描述位流傳送媒體對象和景象描述信息位流的精確位語法。該語言從C語言出發，是C++語言的擴展，用來以綜合方式描述對象的句法表達、所有媒體對象的類定義和景象描述信息。這提供了精確地恒定統一描述語法的方式，同時簡化位流依從測試。軟件工具可用來進行語法描述，產生進行判定的程序的必要代碼。

2.3.4音頻對象編碼

MPEG-4音頻對象編碼為表達自然聲音（例如話音和音樂）和基于機構化描述的合成聲音都提供工具。合成聲音的表達可從文本數據或所謂的結構描述，以編碼參數提供反射、空間定向等效果的方式實現。該方式提供壓縮和其他例如可伸縮性和效果處理等其他功能。覆蓋6kbit/s到24kbit/s速率的MPEG-4語音編碼工具已和NADIB合作通過AM數字語音廣播應用檢驗性測試。為辯識合適的數字語音廣播格式以改進現有的AM模式服務，包括MPEG-4 CELP、TwinVQ、和AAC工具一些編碼設置與一個參考AM系統進行了比較。發現數字技術可在同樣帶寬上實現更高質量，而且編碼設置提供了優于聯播的效果。MPEG還進行了附加檢驗測試，把話音和普通語音編碼的工具與現存標準進行比較。

2.3.5 視頻對象(VO)編碼

為了支持基于內容的交互性,即支持對內容(場景中的物理對象)獨立地進行編解碼，MPE G-4視頻檢驗模型(即發展完善中的視頻編碼算法和工具集)引入了視頻對象面（VOP）的概念。假設輸入的視頻序列的每一幀都被分割成多個任意形狀的圖像區域（視頻對象面），每個區域可能覆蓋場景中特定的感興趣的圖像或視頻內容。輸入進行編碼的VOP可以是任意形狀的,且形狀和位置可隨幀而變。屬于場景中同一物理對象的連續VOP序列稱為視頻對象（VO）。同一視頻對象的VOP序列的形狀、運動和紋理信息被編碼傳輸,或者編碼為一個隔離的視頻對象層（VOL）。除此之外,辨別各個視頻對象層,以及接收端合成不同的視頻對象層以重建完整的原序列所需的相關信息也包含在比特流中。這使得可以對每個VOP獨立地進行編解碼,且可以對視頻序列進行靈活操作。輸入進行編碼的源視頻對象序列可以是獨立實體,也可以由在線或脫線的分割算法產生。

有些多媒體業務需要提供面向對象的操作和編輯功能,如遠程數據庫訪問、視頻編輯等。有些情況下,人們只對場景中的某個對象感興趣,如多媒體會議,人們感興趣的只是與會者的頭肩像,而不關心背景。因此,為了節省帶寬,可以只傳送頭肩像的視頻信息,接收端再把收到的頭肩像信息解碼重建,并置于一間虛擬會議室中。基于內容的視頻編碼系統可以在比特流層支持這種基于對象的訪問和操作功能。

有兩種類型的視頻編碼系統支持基于內容的交互性,一種是模型基編碼;另一種是在傳統的基于塊的視頻編碼系統的基礎上擴充而成的。對于前者,在此不做討論。而后者則是傳統的,基于塊的混合運動預測/補嘗編碼系統擴展到任意形狀的視頻序列而成的。傳統的、基于塊的編碼方法已被MPEG-1/2和H.261/3等標準所采用。這種系統主要由場景分析和對象分割、形狀編碼、運動編碼、紋理編碼等模塊構成,具體的編碼算法則做為實現系統中各個功能模塊的工具,可根據實際需要選取組合。首先對輸入的原圖像序列進行場景分析和對象分割,以劃分不同的VOP，得到各個VOP的形狀和位置信息。VOP的形狀和位置信息可以用上文提到的alpha平面來表示。發送端只需傳送alpha平面,接收端就可以確定VOP的形狀和位置。alpha平面所需的比特數是比較多的,需要進行壓縮編碼。顯然,只要對VOP的輪廓進行編碼和傳送，接收端就可以恢復alpha平面,輪廓信息在輪廓編碼器中進行編碼。提取出的形狀和位置信息又用來控制VOP的運動和紋理編碼。對運動和紋理信息編碼仍然采用經典的類似停校牛嗆H.261/3標準的運動預測/補償法。輸入的第N幀的VOP與幀存儲器中存儲的N-1幀的VOP進行比較,找到運動矢量,然后對兩幀VOP的差值進行量化、編碼。對不同對象的運動和紋理信息的編碼可因地制宜地采用不同的方法,以提高編碼效率。編碼后得到的紋理信息,與運動編碼器和形狀編碼器輸出的運動信息和形狀信息復接形成該VOP的比特流層。不同視頻對象的VOP序列分別進行編碼,形成各自的比特流層,經復接后在信道上傳送。傳送的順序依次為形狀信息、運動信息和紋理信息。接收端的解碼過程是編碼過程的逆操作。當VOP的形狀為矩形時,不需要進行形狀編碼,該系統退化為傳統的規則形狀的視頻編碼系統,保持了后向兼容性基于內容的視頻編碼技術,可以對任意形狀的視頻對象序列進行編碼,編碼后的視頻對象的比特流以對象層的形式而存在。同一場景中的不同視頻對象可分別獨立地進行編碼和傳輸,因此,接收端可獨立地有選擇地解碼和重建視頻對象,也可靈活地在比特流層對視頻對象進行操作而改變原場景。基于內容的視頻編碼技術在遠程監控、移動多媒體、信息娛樂(infotainment)、多媒體會議、交互購物、電影和電視的后期制作、虛擬現實、計算機支持的協同工作(CSCW)等領域具有十分廣闊的應用前景,它必然對多媒體事業產生巨大的沖擊

三．應用部分

3.1 MPEG-4技術動態

ACTS是歐洲的一個研究與技術開發組織,其MCM子組的工作與MPEG-4系統、算法和工具、臉部特征跟蹤及動畫等密切相關。目前項目研究和開發一族PSTN等低比特率可視電話視頻編碼算法,允許異質網間視頻會議的比特流可伸縮性。

VIDAS項目為時間相關表現、編碼和AV流操縱設計一個合適算法,在可視電話場景(編碼器)分析、(解碼器)合成時充分利用語音和臉動的相關性,在真實幀之間插入合成幀提高幀率,平滑顯示與語音同步的唇部運動,面向分布式創作和分布式虛擬現實。藍室(BlueRoom)、計算機、合成三者可分布在不同地點,藍室視頻信號、控制信號和跟蹤信號由遠地傳來,而背景和動畫則在本地實時繪制,它們與藍室視頻信號合成后生成最終信號。分布式虛擬現實系統中一次性傳送基本3D模型,然后只傳輸動態交互引起的模型變化量,人們通過高速網絡可以在虛擬世界里交互。最近東芝公司推出首款基于MPEG-4視頻流系統MobileMotion套件,包括Motion套件,包括MPEG-4產品、服務器和播放器軟件,用于Internet/Intranet上構建視頻和多媒體應用,支持CIF和亞1/4CIF,6kbps-384kbps時每秒可處理30幀視頻數據。

3.2 MPEG-4及其在VOD業務中的應用

視頻點播是近年發展起來的基于多媒體技術的交互式服務方式,VOD是以數字壓縮技術為基礎、網絡與多媒體技術相結合的交互電視系統。VOD業務是指用戶可以從自己的終端(機頂盒、普通模擬電視機)上申請所需信息,提供服務的部門按用戶需要提供有關信息。VOD業務主要有影視選播、電視購物、遠程教學、遠程醫療、電子圖書館和交互式電子游戲等。目前流行的VOD系統主要采用MPEG-2編碼標準。這種標準的畫面質量好,壓縮比高。然而MPEG-2標準在VOD業務的應用中也暴露出其不足方面:基于宏塊和幀的編碼方式限制了對內容的交互操作、壓縮效率仍不理想、窄帶網上的傳輸質量受到限制和對媒體的兼容能力有待提高等。因此VOD業務的發展急需一種以多媒體應用為目標的新一代編碼標準。

MPEG-4基于對象編碼的技術特點和它可實現的功能,在VOD業務中有很大的應用潛力。同采用MPEG-2標準的VOD業務相比,基于MPEG-4的VOD業務具有以下特點:

(1)圖像主觀質量更好由于采用基于視頻對象的編碼方式,編碼時可以根據人眼的視覺特性,區分不同視頻對象的主次關系,合理安排壓縮比。與現存的標準相比,這種編碼方式容易獲得更好的圖像主觀質量。

(2)交互性更完善

MPEG-4VOD用戶突破了傳統上基于幀進行操作的限制,可以根據各自的需求,針對幀中的某一個視頻對象,進行平移、旋轉、縮放、剪帖和檢索等交互式操作,使交互性能有了質的飛躍。這種基于對象的交互操作,使用戶能根據某一具體畫面(如某種植物)查詢相關內容,或是查詢畫面中某一物質對象的其它資料（即VOD電子圖書館業務）。用戶還可放大自己存放在醫院的Ｘ光照片,取出自己關心的那部分畫面仔細觀察(即VOD遠程醫療業務)等等。

(3)靈活性更大

VOD業務部門可以根據不同地域的具體條件、使用不同的傳輸網絡（如HDSL、ADSL、HFC和FTTH/FTTC等），開展VOD業務。VOD用戶也可以對音/視頻的質量、實時性和接入網方式等作自由選擇。

(4)多媒體兼容能力更強

MPEG-4不但支持自然音頻、視頻,而且支持自然和合成的混合音頻、視頻。在VOD電子游戲中,用戶可以利用自然的音頻和視頻創作動畫和合成聲音。在VOD影視節目點播中,用戶可以在畫面上選擇疊加自己母語的字幕,或者疊加其它文字信息（如股票行情等）。

對于采用MPEG-4標準的VOD系統,還可以利用MPEG-4多個并行數據流編碼技術提供的多視點編碼功能,開展虛擬現實游戲、三維電影和多視角演示等其它新業務。也可以利用音頻編碼的TTS功能,提高遠程教學的質量。

此外,尚待解決的主要技術問題有:

(1)為了適應MPEG-規定的5kbps～4Mbps視頻速率范圍,為用戶提供高質量乃至DVD質量的圖像,目前的圖像壓縮技術仍需進一步提高。

(2)為了實現基于視頻對象的交互操作,需要解決如何定義、描述、劃分和分離視頻對象

的問題。

MPEG-4標準具有比現存標準更好的主觀畫面質量、更完善的交互性能、更強的媒體兼容能力和更大的靈活性。將MPEG-4用于VOD業務,一方面可以發揮它在多媒體應用方面的優勢,另一方面也可以提高VOD業務的質量,拓寬VOD業務的范圍。隨著數據壓縮技術的不斷發展，MPEG-4必將成為VOD系統編解碼技術的核心標準

3.3 MPEG-4在無線/移動多媒體通信中的應用

ISO/IEC正在進行標準化的MPEG-4是一種可用于通信、廣播和計算機等諸多領域的通用多媒體編碼方式 ,1997年10月已公布了草案，正式標準(第1版)于1998年12月頒布。MPEG-1和MPEG-2是以CD-ROM和DVD等存儲媒體以及廣播系統的高質量、高比特率(2Mbps以上)為對象的音頻和視頻編碼方式,已完成標準化。

MPEG-4則尤為重視壓縮效率,是一種能用于低比特率（64kbps以下）的編碼方式,對傳輸誤差有較強的耐受性。

另一方面,ITU-T還推進模擬電話線路所用多媒體通信終端的標準方式（H-324）與無線/移動通信相對應, 準備將之作為H 324AnnexC,加以標準化。具體說來,就是對H- 324中所用H 223(在一個分組內對聲音和圖像進行多路復用方式)的抗誤差性進行分級強化,分別作為H 223AnnexA、AnnexB和AnnexC進行標準化(下文中AnnexA、B、C統稱Annex)。目前,就多媒體通信所必需的多路復用方式而言,除了MPEG-4外，ISO還能夠采用H 223和MPEG 2TS（傳輸流）等已有的多路復用方式。因此,為了在無線/移動環境中實現多媒體通信,有必要將具有抗誤差性的ISO標準MPEG 4編碼方式與ITU-T標準H 223Annex多路復用方式結合起來。

圖1多媒體通信網絡范例

圖1給出了包含無線/移動通信系統的多媒體通信網絡范例。本例中,便攜式終端通過各種網絡實現電視電話、圖像監視和圖像瀏覽等功能。把便攜式終端和電視攝像裝置獲取的圖像存儲在服務話、圖像監視和圖像瀏覽等功能。把便攜式終端和電視攝像裝置獲取的圖像存儲在服務器中,并建立數據庫,利用因特網進行信息分配,從而使其他便攜式終端用戶也能夠看到這些圖像。圖像傳輸是多媒體通信的核心,采用何種圖像編碼方式是構筑多媒體網絡的關鍵。特別是在用于要求實時性的電視電話和廣播業場合,不能在收發方之間進行信息重發和到達確認等特殊控制,因此MPEG-4圖像編碼方式是比較理想的,它無需這種控制,且抗誤差性較強。對應于不同的網絡,多媒體信息傳輸時所需的多路復用方式有很多種。例如,因特網等分組網通常用不同的分組分別傳送聲音和圖像,并通過內藏于各媒體的時間標記,各自取得同步的H 225多路復用方式或MPEG2TS多路復用方式。在使用模擬電話線路電視電話的場合,在同一分組內對聲音和圖像進行多路復用的H.223方式已經成為ITU-T標準。另外,在無線/移動環境中,具有抗誤差性的H 223Annex多路復用方式也是行之有效的。

因此,在構筑多媒體網絡時,可以采用抗傳輸誤差性能較強的MPEG-4作為圖像編碼方式,而多路復用則采用與各網絡相適應的方式。這樣,當通過不同的網絡進行圖像傳輸時,只需調換多路復用方式就可以了。

參考文獻

* 劉占平,董士海 MPEG-4標準及相關進展中國圖象圖形學報1999.06>

* 岳云 MPEG-4在無線/移動多媒體通信中的應用電信快報1999.09>

* 唐冬,鄭善賢 MPEG-4及其在VOD業務中的應用電信快報1999.09>

* 翁南釤,蔡德鈞,容太平基于內容的視頻編碼技術通信技術1999.03>

* 夏天,陳磊,余兆明 MPEG-4的基于內容的視頻編碼技術電子工程師1999.10>

* Rob Koenen Overview of the MPEG-4 Standard Stockholm - July 1997

* MPEG -4 FAQs ISO/IEC JTC1/SC29/WG11 N MPEG 97/ July 1997

* Rob Koenen MPEG-4 Overview - (Melbourne Version) October 1999/Melbourne