基于關鍵幀提取技術的網絡視頻監控系統

作者：時間：2016-09-12 來源：網絡

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

Microsoft公司的Windows Media的核心是ASF(Advanced Stream Format)。微軟將ASF 定義為同步媒體的統一容器文件格式。ASF是一種數據格式，音頻、視頻、圖像以及控制命令腳本等多媒體信息通過這種格式，以網絡數據包的形式傳輸，實現流式多媒體內容發布。

ASF最大優點就是體積小，因此適合網絡傳輸，使用微軟公司的最新媒體播放器可以直接播放該格式的文件。用戶可以將圖形、聲音和動畫數據組合成一個ASF格式的文件，當然也可以將其他格式的視頻和音頻轉換為ASF格式，而且用戶還可以通過聲卡和視頻捕獲卡將諸如麥克風、錄像機等等外設的數據保存為ASF格式

ASF具有可擴展的媒體類型，ASF文件允許制作者很容易地定義新的媒體類型。ASF格式提供了非常有效的靈活地定義符合ASF文件格式定義的新的媒體流類型。任一存儲的媒體流邏輯上都是獨立于其他媒體流的，除非在文件頭部分明顯地定義了其與另一媒體流的關系。

ASF是設計用來表示可伸縮的媒體類型的帶寬之間的依賴關系。ASF存儲各個帶寬就像一個單獨的媒體流。媒體流之間的依賴關系存儲在文件頭部分，為客戶機以一個獨立于壓縮的方式解釋可伸縮的選項提供了豐富的信息流的優先級，現代的多媒體傳輸系統能夠動態地調整以適應網絡資源緊張的情況如帶寬不足。多媒體內容的制作者要能夠根據流的優先級表達他們的參考信息，如最低保證音頻流的傳輸。隨著可伸縮媒體類型的出現，流的優先級的安排變得復雜起來，因為在制作的時候很難決定各媒體流的順序。

ASF設計為支持多語言。媒體流能夠可選地指示所含媒體的語言。這個功能常用于音頻和文本流。一個多語言ASF文件指的是包含不同語言版本的同一內容的一系列媒體流，其允許客戶機在播放的過程中選擇最合適的版本。

ASF提供可繼續擴展的目錄信息的功能，該功能的擴展性和靈活性都非常好。所有的目錄信息都以無格式編碼的形式存儲在文件頭部分，并且支持多語言，如果需要，目錄信息既可預先定義如作者和標題，也可以是制作者自定義。目錄信息功能既可以用于整個文件也可以用于單個媒體流。

ASF文件主要有三種數據對象組成Header Object，Data Object，Index Object。Header Object包括ASF文件的主要信息，必須位于文件首部。Data Object包含數據信息，緊跟在Header Object之后，Index Object是非必須，提供跳躍索引，位于文件結尾。RTSP協議中，ASF的Header Object用Base64編碼加密以后放在SDP(Session Description Protocol)數據包中。

在系統中，我們采用了移植在eBox-4300上的WinCE作為系統的嵌入式操作系統，為了解碼器的工作效率和移植方便，我們采用ASF流媒體文件格式。根據搭建的基于RTSP協議的流媒體服務器，可以校驗在網絡中截取到數據包的特定協議字段，如果應用層協議有RTSP的協議字段，就將數據包取出，按協議進行對包的卸載，提取出ASF文件，再將ASF文件按序列傳輸到下一處理單元進行視頻解碼，并提取出關鍵幀。

2.網絡視頻關鍵幀提取

視頻數據是分層結構，結構粒度從上到下逐漸減小。最頂層是粒度最大的視頻，即一段視頻流。最底層是粒度最小的幀，即單個的視頻幀圖像，對幀圖像的處理可以采用圖像特征提取技術，提取諸如顏色、紋理、形狀等靜態特征或空間運動的動態特征。鏡頭是一組時間上連續的幀序列，它代表一個場景中在時間上和空間上連續的動作，對應著攝像機的一次記錄起停操作，也稱為剪裁或拍攝。鏡頭是視頻數據的最小單元，視頻檢索的結果就是獲得符合條件的若干鏡頭。場景是一組語義上相關聯及在時間上相鄰的鏡頭的集合。

圖3 視頻層次結構示意圖

關鍵幀是反映一組鏡頭中主要信息內容的一幀或若干幀圖像，可以簡潔地表達鏡頭內容。因為每個鏡頭都是在同一場景下拍攝的，同一個鏡頭中的各幀圖像有相當大的重復信息?？紤]到存儲容量和處理效率的因素，僅需要存儲鏡頭關鍵幀，可達到降低系統存儲容量和減少處理器冗余工作的效果。其次，從關鍵幀的匹配效率考慮，用關鍵幀來代表鏡頭，作用類似于入侵檢測系統中的匹配規則，這樣對網絡視頻流可用圖像匹配技術進行處理。

針對關鍵幀的特點，選取時有兩個基本要求:第一，所選幀必須能夠反映鏡頭中的主要事件，描述應盡可能準確完全，所以一般采用保守原則，寧可錯選，也不能少提取;第二，為了減少系統存儲設備，提高處理數據包的效率，數據處理量應盡量小，計算不宜過于復雜，因此關鍵幀的抽取應盡量少而精確。

早期的提取關鍵幀的嘗試主要是采用顏色特征。一個簡單的提取關鍵幀的想法是選擇鏡頭片段的第一幀作為關鍵幀。當然這樣提取的關鍵幀是很不準確的。在基于鏡頭的方法中，比較經典的有幀平均法和直方圖平均法。幀平均法是從鏡頭中取所有幀在某個位置上像素值的平均值，然后將鏡頭中該點位置的像素值最接近平均值的幀作為關鍵幀。直方圖平均法則是將鏡頭中所有幀的統計直方圖取平均，然后選擇與該平均直方圖最接近的幀作為關鍵幀。這些方法的優點是計算比較簡單，所選取的幀具有平均代表意義。缺點是只從一個鏡頭中選取一個關鍵幀，無法處理運動強度較高的鏡頭。一般說來，從鏡頭中選取一幀或固定數目的關鍵幀的方法并不是很好，因為當處理變化很少的鏡頭時，這樣選取的關鍵幀過多，而對于運動較多的鏡頭，用一兩個關鍵幀又無法充分描述其內容。所以有人提出了基于內容分析的方法。

綜合前人的研究成果，我們在本系統采用漸變控制的方法。首先選取每個鏡頭的第一幀作為關鍵幀，同時作為其他候選關鍵幀的參考幀，將后續每幀和參考幀比較，當其差別大于預定的閥值時，即將當前幀作為新的關鍵幀，同時將此幀作為新的參考幀。

3. 視頻關鍵幀匹配

常用的圖像特征有顏色特征、紋理特征、形狀特征、空間關系特征等。

顏色特征是一種全局特征,描述了圖像或圖像區域所對應的景物的表面性質。一般顏色特征是基于像素點的特征，此時所有屬于圖像或圖像區域的像素都有各自的貢獻。由于顏色對圖像或圖像區域的方向、大小等變化不敏感，所以顏色特征不能很好地捕捉圖像中對象的局部特征。