a一级爱做片免费观看欧美,久久国产一区二区,日本一二三区免费,久草视频手机在线观看

關 閉

新聞中心

EEPW首頁 > 工控自動化 > 設計應用 > 視頻圖像中文本的檢測、定位與提取

視頻圖像中文本的檢測、定位與提取

——
作者: 時間:2010-01-25 來源:電子產品世界 收藏

  目前,基于內容的視頻信息檢索(Content―Based Video Retrieval,簡稱CBVR)的研究已取得了較大的進展,但是檢索所采用的特征基本上都是低級視覺特征,如顏色、紋理、形狀、空間關系和運動等。這其中存在的主要問題是低級視覺特征對視頻的描述與人對視頻的描述存在較大差異,而且用戶也不熟悉特征值的變化對視覺效果帶來的影響。而視頻本質上是由文本、視頻和音頻等多種媒質融合而成,它們之間存在語義關聯,一種媒質和另外一種媒質表示同一語義或是其補充。只有通過挖掘構成視頻的各種媒質所表達的豐富語義信息,克服單純的視覺特征語義表達能力較弱這一缺點,充分提取視頻中的高層語義,才能符合人們對視頻信息的理解習慣,實現實用的基于內容的視頻檢索系統。

本文引用地址:http://www.j9360.com/article/103942.htm

  在視頻中,文本信息(如新聞標題、節目內容、旁白、工作人員名單等)均包含了豐富的高層語義信息,可用于對相應視頻流所表達的事件、情節以及情感等進行高級語義標注。如果這些文本能自動地被檢測、分割、識別出來,則對視頻高層語義的自動理解、索引和檢索是非常有價值的。視頻中的文本分為人工文本和場景文本。目前的研究主要集中于人工文本,而場景文本的研究才剛剛起步。正是由于文本的種類、形狀的多樣差異性,目前文本提取算法還沒有一個通用的評價準則和標準數據庫。

  文中針對水平和豎直排列的靜止及滾動文本,提出利用小波多尺度局部模極大值邊緣檢測算法來檢測文本圖像邊緣,利用形態學處理生成候選文本區域,用由粗到精的多次水平、豎直投影來定位精確的文本位置。然后,對于文本子圖用局部Otsu方法和區域填充處理進行文字二值化提取。

  1 小波模極大值算法提取視頻圖像的文字邊緣

  1.1 二維小波變換模極大值原理

  設θ(x,y)是一個二維平滑函數,引入尺度因

  

 

  

模M2jf(x,y)取極大值的點(x,y)對應于f*θs(x,y)的突變點或尖銳陡峭變化的位置,從而對應于圖像f(x,y)的邊緣。梯度grad(f*θs)(x,y)在點(x,y)處的方向表示在圖像平面(x,y)上f(x,y)的方向導數的絕對值取極大值的方向。即計算一個光滑函數的導數沿梯度方向的模極大值等價于計算其小波變換的模極大值。

 

  1.2 文本圖像的邊緣提取

  在圖像中,文本字符具有特殊的線條結構和紋理特點,其灰度(顏色)與背景相差較大,邊緣變化劇烈,呈現出明顯的橫向、豎向、斜向邊緣特征,中、高頻信息較強。在小波圖像中表現為相應區域高頻細節子圖的系數較大;橫向線條、豎向線條和斜向線條分別在LH,HL以及HH子圖相應位置表現為較大的小波系數。

  

 

  根據上述原理,在實際計算時,采用3次B樣條小波,對輸入灰度文中圖像進行保持圖像大小不變的二維小波變換,得到W12jf(x,y)和W22jf(x,y)。改變j的值得到在不同尺度下圖像的小波變換,文中選取小波分解最大尺度為J=3,其中1≤J≤J。由式(2)、式(3)計算每一點的模值和幅角,找出模圖像在梯度方向上的極大值。設置閾值T0,保留大于T的像素的模值。最后連接邊界點,形成邊緣。

  圖1(a)為使用小波模極大值算法提取的視頻圖像中的文字邊緣,圖1(b)、(c)、(d)分別為使用Canny算子、LOG算子和Sobel算子的結果。由圖1可知,文中方法比傳統邊緣檢測方法,能在檢測出文本邊緣的同時很好的抑制背景邊緣。

  2 文本定位

  由于有的圖像背景過于復雜,在上階段處理得到的邊緣圖中仍存在一定數量的背景邊緣噪聲,將其通過局部閾值處理來濾除;在采用形態學處理生成候選文本區域后,用基于局部區域直方圖和閾值的定位方法對水平和豎直文本進行定位;為適應不同尺度文本,采用兩層金字塔模型分別定位并合成結果。

  2.1 背景噪聲濾除

  受文獻的啟發,用兩個同心窗對當前待處理的二值邊緣圖像EMP進行掃描。在實驗中,選擇經驗值,外窗高為3h=30,內窗高為h=10,以h為步長進行掃描。根據外窗中的邊緣密度直方圖來決定對內窗處理時的閾值。同心窗的結構及外窗內的邊緣水平投影,如圖2所示,Pi(i=1,…,3h)是第i行的邊緣像素數目。內窗內的局部閾值Tkernel就可以按照下面的公式計算

  

 

  

 

  其中,Smax是最高邊緣強度(O或255)。由式(4)可見,如果外窗內的邊緣像素的數量非常少,密度小于某個閾值ξ,那么內窗內就很可能是背景噪聲,則將內窗內的閾值設置為Smax;否則,內窗內很可能是一個文本區域,將內窗內的閾值設置為Tmiddle,Tmiddle可以是0~255中任意一個數字。則在當前掃描窗口,內窗內大于閾值的邊緣像素被標記為文本;否則,將其值設置為0,即小于閾值的邊緣像素被覆蓋掉。

  2.2 基于形態學的候選文本區域生成

  形態學可將圖像信號與其幾何形狀聯系起來,用具有一定形態的結構元素去量度和提取圖像中的對應形狀以達到對圖像分析和識別的目的。所以文中采用形態學處理來形成候選文本區域。形態學最基本的概念是腐蝕和膨脹,以及由它們組合而成的各種形態操作算子。

  設Ω為二維歐幾里德空間,圖像A是Ω的一個子集,結構元素B也是Ω的一個子集,b∈Ω是歐氏空間的一個點,定義4個基本運算:

  

 

  其中,膨脹具有擴大目標區域的作用,腐蝕具有收縮目標區域的作用,開運算可刪除目標區域中的小分支,閉運算可填補目標區域中的空洞。 基于以上4個運算,文中的形態處理流程為:選取3×3的矩型結構元素進行膨脹,然后用2×2的矩型結構元素進行腐蝕,再用長為7,角度為0°的線型結構元素進行閉運算處理??紤]到豎直文本的情況,再用長為4,角度為90°的線型結構元素進行閉運算處理。實驗發現,結構元素的尺寸太大,會導致無效的膨脹重疊現象,增大計算量;而結構元素尺寸過小將不能有效形成文本塊區域。所以結構元素B的選擇對于候選文本區域形成與文本區域提取至關重要。實驗證明,文中所采用的結構元素很好地形成了候選文本區域。

  2.3 基于兩層金字塔和局部區域直方圖的文本定位

  對于生成候選文本區域的邊緣圖,在原圖和分辨率降低一半的圖像這兩個尺度的金字塔級別上分別采用由粗到精的多次水平、豎直投影,并合成結果,來確定文本塊的具體行列。對水平文本定位先水平投影后豎直投影,對豎直文本定位則交換投影順序。

  定義一種局部區域的直方圖(Local Region histogram,即LRH)如下:

  給定一幅圖像f(x,y),對于其中由若干連續的行或列(行數或列數為L)所構成的任意子圖像,可分別按行或列生成局部區域直方圖LRH。LRH函數可定義為

  

 

  其中,k為子圖像的像素行(列)號,N表示一行(列)中的像素總數,Nk則是經過處理的邊緣圖中的高亮像素數,即是代表文本所在位置的那些白色像素數。圖3給出了一幅處理后的邊緣圖像所生成的LRH圖。

  

 

  由圖3可見,文本區域在LRH圖中形成具有一定寬度的高函數值連續區域。利用閾值法來檢測行/列邊界,由于閾值T取值過小會造成不能分割出單獨的行/列,過大則會遺漏行/列。為了能自動適應不同的圖像,將閾值T定義為T=c*Mean(LRH)。c為一個微調系數,可根據不同的視頻源的統計特性進行調整。針對文中選取的視頻片段,在進行了大量實驗對比后,選取了實驗效果較好的經驗值,對于水平的LRH圖,選擇c為1.O;對于豎直的LRH圖,選擇c為0.5。

  最后,對標出的矩形框,根據文本的尺寸比例,制定簡單的約束條件來去除非文本區。

  3 文本二值化提取

  為適應OCR軟件識別,需將文本子圖轉換成二值化圖像。在進行二值化前,采用雙三次插值法將所有水平文本區域高度歸一化成60像素,而寬度則根據原區域的比例進行相應的放大或縮小(對于豎直排列的文字塊則放縮到60像素寬,高度隨比例放縮)。為了增強文本子圖中字符與背景的對比度,對插值后的圖像進行灰度拉伸,自動搜索直方圖上非0最小值a和最大值b,把[a,b]拉伸到[0,255]的整個區間。采用文獻中的方法對文字極性進行判斷,并將其統一為“白底黑字”的形式。

  Otsu算法是一種最大類間方差法,能夠自動選取閾值,來分割圖像成兩部分。對于以上處理得到的圖像,二值化過程采用文獻中的基于滑動窗口的局部自適應Otsu方法和向內填充的區域生長方法,并對區域生長方法的文本標記做了改進。根據文本字符的筆劃特點,對文本點定義水平、豎直、右對角和左對角4個方向連通長度,對文本進行標記保護。將文本像素標記點定義為

  

 

  MIN_W,MAX_W和MAX_L定義了連通最長數目的范圍。經過此步驟,再對背景進行填充,并將連通區域面積過小的噪聲點去除。最后送入漢王OCR5.0增強版軟件進行識別。圖4給出了二值化過程。

  

 

  4 實驗及分析

  為了驗證文中檢測定位算法的性能,人工挑選了150幀背景非常復雜的視頻圖像進行了測試。其中有中文也有英文,有靜止也有線性滾動,有單行也有多行文本,字體多樣,尺寸有大有小。在實驗之前已經手工統計了這150幀圖像中所包含的文本塊總數,實驗結果,如表l所示。

  

 

  其中,誤檢的原因主要是復雜背景下存在與文本相似性很高的區域,而漏檢的原因是由于該文本區域與周圍背景對比度太低,幾乎完全溶入到背景中或單獨出現的字符在一系列處理中不滿足文本塊的尺寸限定而被當作背景噪聲濾除掉。采用軟件漢王OCR5.0增強版對二值化后的文本字符的最終識別率為88.7%。

  5 結束語

  提出采用小波多尺度局部模極大值邊緣檢測方法來對文本圖像進行邊緣檢測。對于檢測到的文本邊緣圖,先用局部閾值處理來濾除背景噪聲,采用形態學處理生成候選文本區域。使用由粗到精的遞歸投影和基于局部區域直方圖的定位算法,利用兩層金字塔模型以檢測出大小不一的文本來降低漏檢率,并用相應的準則來消除虛假的文本區域。文本提取方面,采用雙三次插值來統一各文本的高度/寬度,用灰度拉伸的方法來增強文本圖像的分辨率。然后用改進的Otsu方法和種子填充方法進行二值化,去除連通面積過小的噪聲點,最后送入OCR軟件進行識別。實驗結果證明本文算法對于提取視頻圖像文本的有效性。

絕對值編碼器相關文章:絕對值編碼器原理
全息投影相關文章:全息投影原理


評論


相關推薦

技術專區

關閉