一種基于hvs的視頻感興趣區(qū)域提取方法
【專利摘要】本發(fā)明公開了一種基于HVS的視頻感興趣區(qū)域提取方法,首先根據(jù)視頻的幀間相關(guān)性和幀內(nèi)相關(guān)性分別度量視頻的時(shí)域信息量和空域信息量,然后采用特征融合策略將分別代表視頻時(shí)域特征和空域特征的時(shí)域信息量和空域信息量融合獲得視頻信息量分布,再以基于人眼視覺系統(tǒng)(HVS)的視覺遲滯映射模型將視頻信息量映射為視覺顯著度,最后將視頻的視覺顯著度經(jīng)過(guò)自適應(yīng)閾值判斷獲得視頻的感興趣區(qū)域。本發(fā)明提出的基于HVS特性映射模型能將視頻特征轉(zhuǎn)化為符合人眼視覺特性的視頻顯著度,同時(shí)采用信息量度量視頻的時(shí)域和空域特征,算法復(fù)雜度低且精度較高。
【專利說(shuō)明】—種基于HVS的視頻感興趣區(qū)域提取方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種視頻信號(hào)的處理方法,特別涉及一種基于HVS的視頻感興趣區(qū)域提取方法。
【背景技術(shù)】
[0002]視頻服務(wù)的終端用戶對(duì)視頻質(zhì)量的評(píng)價(jià)是最可靠的結(jié)果。然而這種主觀評(píng)價(jià)方法,因其不具備實(shí)時(shí)性、耗時(shí)長(zhǎng)并且過(guò)程繁瑣。實(shí)際研究和工程中會(huì)使用多種結(jié)合了人眼視覺特性的客觀評(píng)價(jià)方法來(lái)模擬主觀評(píng)價(jià)效果。通過(guò)這樣的途徑獲得與主觀評(píng)價(jià)相匹配的結(jié)
果O
[0003]人眼視覺特性包括視覺空間特性和時(shí)間特性,這是由人眼的結(jié)構(gòu)特性決定的。神經(jīng)生物學(xué)的觀點(diǎn)認(rèn)為,人眼視覺敏感度決定了圖像和視頻在人眼中的感官質(zhì)量變化。在靜止的圖像中,人眼視覺敏感度主要體現(xiàn)在空間特性上,常用的人眼視覺特性為視覺非線性、對(duì)比敏感度、多通道結(jié)構(gòu)和掩蓋效應(yīng)等。而對(duì)時(shí)間連續(xù)的視頻序列,人眼視覺會(huì)還有時(shí)間特性上的敏感性,視頻質(zhì)量評(píng)價(jià)中用運(yùn)動(dòng)檢測(cè)等方法來(lái)體現(xiàn)這種時(shí)間上的敏感性。同時(shí),這些人眼視覺系統(tǒng)(HVS)的生理的和心理視覺的顯著特征,決定了人眼對(duì)視頻序列中多個(gè)場(chǎng)景的感興趣程度會(huì)不同。換言之,人眼會(huì)將注意力集中在少數(shù)幾個(gè)顯著的視覺對(duì)象上,這些視覺對(duì)象被稱為感興趣區(qū)域(R0I)。我們認(rèn)為視頻中感興趣區(qū)域的存在,是人眼視覺特性的時(shí)間和空間特性的綜合體現(xiàn)。首先,將ROI這種HVS特性加入客觀評(píng)價(jià)方法,能顯著提高評(píng)價(jià)結(jié)果的可靠性和真實(shí)性,即更符合主觀評(píng)價(jià)結(jié)果。其次,基于ROI加權(quán)策略的客觀評(píng)價(jià)方法,只對(duì)ROI內(nèi)的視覺對(duì)象進(jìn)行質(zhì)量評(píng)估,能大大降低算法復(fù)雜度。因此,如何提取ROI是一個(gè)很值得關(guān)注的問(wèn)題。
[0004]視頻感興趣區(qū)域是視覺感興趣程度大于某個(gè)閾值的視覺對(duì)象的集合。現(xiàn)有很多方法用于表示視覺感興趣程度。為了獲得視覺感興趣映射圖,有些方法采用了運(yùn)動(dòng)檢測(cè),有些方法計(jì)算視頻幀的空間特性。然而,ROI是HVS的時(shí)間和空間特征的綜合體現(xiàn)。僅計(jì)算了空間或者時(shí)間感興趣程度的方法,所獲得的感興趣區(qū)域精確度較低。另外,有的方法采用綜合了多種視覺特征的概率密度函數(shù)來(lái)表示視覺感興趣程度,這類方法需要在高維空間中計(jì)算,十分復(fù)雜。
[0005]視頻或圖像中一個(gè)區(qū)域的視覺信息量大小能影響其視覺顯著程度。1991年T.N.Topper提出用香農(nóng)自信息量來(lái)度量靜止圖像的顯著度。而圖像的顯著度只是空間性的顯著度,對(duì)于視頻來(lái)說(shuō),需要加入時(shí)域顯著度,并且將時(shí)域空域顯著度恰當(dāng)結(jié)合才能提取到更準(zhǔn)確的感興趣區(qū)域。已有一種基于視覺信息量的ROI提取方法,其模型中將視頻表示為時(shí)空域塊的集合,巧妙地表示了每塊區(qū)域的時(shí)空顯著度,從而能得到基于視覺信息的ROI映射。然而,視覺顯著度與感興趣程度的映射并非為線性的,比如兩個(gè)重要的人眼視覺特性:運(yùn)動(dòng)敏感性和視覺遲滯性,這兩個(gè)特性將對(duì)視頻顯著度造成影響。
[0006]本發(fā)明從信息論的角度,基于視頻的幀間相關(guān)性和幀內(nèi)相關(guān)性,提取出視頻的時(shí)域信息量和空域信息量,并以一定策略加權(quán)獲得視頻視覺信息量。同時(shí),采用了基于HVS的非線性映射,將視覺信息量映射為視覺顯著度。最后,使用自適應(yīng)閾值對(duì)視覺顯著度進(jìn)行判斷,獲得的感興趣區(qū)域與主觀結(jié)果一致性較高。
【發(fā)明內(nèi)容】
[0007]本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種以較低的算法復(fù)雜度、提取的感興趣區(qū)域精度較高的基于HVS的視頻感興趣區(qū)域提取方法。
[0008]本發(fā)明所述的一種基于HVS的視頻感興趣區(qū)域提取方法,該方法至少包括如下的步驟:
[0009]步驟1:將視頻時(shí)域特征和空域特征分別表示為視頻的時(shí)域信息量和空域信息量,根據(jù)視頻的幀間相關(guān)性和幀內(nèi)相關(guān)性計(jì)算出時(shí)域信息量I一。Ml和空域信息量Ispatial;
[0010]步驟2:采用特征融合策略將視頻時(shí)域信息與空域信息加權(quán),如下式計(jì)算視頻信
息量;
_] I = a Itemporal+β Ispatial
[0012]其中系數(shù)α與 β取決于視頻序列的運(yùn)動(dòng)復(fù)雜度和空間復(fù)雜度的相對(duì)強(qiáng)度;
[0013]步驟3:定義視頻特征為視頻信息量,定義人眼實(shí)際觀察到的視頻特征為視覺顯著度,根據(jù)下式的視覺遲滯性映射模型可以由視頻信息量獲得視頻的視覺顯著度;
[0014]S = F(I)
[0015]步驟4:依據(jù)視頻序列當(dāng)前幀的視覺顯著度分布,獲取一個(gè)自適應(yīng)閾值,將該幀視覺顯著度二值化,從而提取當(dāng)前幀的視覺感興趣區(qū)域。
[0016]本發(fā)明所述的一種基于HVS的視頻感興趣區(qū)域提取方法,步驟I中的視頻時(shí)域信息量的計(jì)算其步驟為:
[0017]步驟11:將視頻序列中出現(xiàn)在t時(shí)刻的視頻幀分為RXC個(gè)尺寸為8X8的視頻子塊,其中空間位置為(X,y)的子塊定義為B(X,y, t),將空間位置相同的具有相關(guān)性的N個(gè)視頻子塊組成的集合表示為 V (X,y, t) = {B (χ, y, t), B (x, y, t_l),..., B(x, y, t-N+1)};
[0018]步驟12:將連續(xù)V(x,y,t)的N個(gè)元素進(jìn)行DCT變換得矩陣E,則塊B (x,y,t)的一個(gè) DCT 分量可表示為 E(i, j, t), t = I, 2,..., N ;
[0019]步驟13:N個(gè)塊的第(i,j)個(gè)分量組成的矩陣為E(i,j,:),求該矩陣的概率矩陣Pi;Jj;feB(X,y,t)的第(i,j)個(gè)分量取值的概率為Pi,」(t);
[0020]步驟14:視頻子塊B(x,y,t)在t時(shí)刻這一幀視頻中出現(xiàn)的概率為條件概率
g C
m0r,r,r) I1}) =,根據(jù)香農(nóng)信息論塊B (x, y, t)包含的時(shí)域信息量為.M
/flw/W(tf(-v._v./)) =j/) I V(x, vJ — I))) ? -1og2 nnL
'I J I
[0021]本發(fā)明所述的一種基于HVS的視頻感興趣區(qū)域提取方法,步驟I中的視頻空域信息量計(jì)算其步驟為:
[0022]步驟15:將t時(shí)刻的這一幀視頻所包含的時(shí)間事件表示為F(t),解釋為視頻幀F(xiàn)(t)上所有其他位置視頻子塊的集合;
[0023]步驟16:將t時(shí)刻幀F(xiàn)⑴逐塊進(jìn)行DCT變換得矩陣D,塊B (x, y, t)的一個(gè)DCT分量可表示為D(x, y, i, j),其中(x,y)表示塊的幀內(nèi)空間位置,(i, j)表示塊內(nèi)DCT分量位置,i = l,2,...,R;j = 1,2,...,C;
[0024]步驟17:所有塊的第(i,j)個(gè)分量組成的矩陣為D (:,:,i,j),求該矩陣的概率矩陣Pu (即矩陣值的概率值組成的新矩陣),塊B(X,y,t)的第(i,j)個(gè)分量取值的概率為Pi, j (χ, y);
[0025]步驟18:這一幀視頻中視頻子塊B(x,y,t)出現(xiàn)的概率表示為條件概率
P(B(x,yJ) I Fm) = ΠΠ P;,;(x,y),塊B (x, y, t)包含的空域信息量表示為下式。
【權(quán)利要求】
1.一種基于HVS的視頻感興趣區(qū)域提取方法,其特征在于,該方法至少包括如下的步驟: 步驟1:將視頻時(shí)域特征和空域特征分別表示為視頻的時(shí)域信息量和空域信息量,根據(jù)視頻的幀間相關(guān)性和幀內(nèi)相關(guān)性計(jì)算出時(shí)域信息量Itemporal和空域信息量Ispatial; 步驟2:采用特征融合策略將視頻時(shí)域信息與空域信息加權(quán),如下式計(jì)算視頻信息量;
I =αItemporal+β Ispatial 其中系數(shù)α與β取決于視頻序列的運(yùn)動(dòng)復(fù)雜度和空間復(fù)雜度的相對(duì)強(qiáng)度; 步驟3:定義視頻特征為視頻信息量,定義人眼實(shí)際觀察到的視頻特征為視覺顯著度,根據(jù)下式的視覺遲滯性映射模型可以由視頻信息量獲得視頻的視覺顯著度;
S = F(I) 步驟4:依據(jù)視頻序列當(dāng)前幀的視覺顯著度分布,獲取一個(gè)自適應(yīng)閾值,將該幀視覺顯著度二值化,從而提取當(dāng)前幀的視覺感興趣區(qū)域。
2.根據(jù)權(quán)利要求1所述的一種基于HVS的視頻感興趣區(qū)域提取方法,其特征在于,步驟I中的視頻時(shí)域信息量的計(jì)算,其步驟為: 步驟11:將視頻序列中出現(xiàn)在t時(shí)刻的視頻幀分為RXC個(gè)尺寸為8X8的視頻子塊,其中空間位置為(x,y)的子塊定義為B(x,y,t),將空間位置相同的具有相關(guān)性的N個(gè)視頻子塊組成的集合表示為 V (X,y, t) = {B (X,y, t), B (x, y, t_l),..., B(x, y, t-N+1)}; 步驟12:將連續(xù)V(x,y, t)的N個(gè)元素進(jìn)行DCT變換得矩陣E,則塊B(x,y, t)的一個(gè)DCT 分量可表示為 E(i, j, t), t = I, 2,..., N ; 步驟13:N個(gè)塊的第(i,j)個(gè)分量組成的矩陣為E(i,j,:),求該矩陣的概率矩陣Pu,塊B(x,y,t)的第(i,j)個(gè)分量取值的概率為Pi,j(t); 步驟14:視頻子塊B (X,y, t)在t時(shí)刻這一幀視頻中出現(xiàn)的概率為條件概率
3.根據(jù)權(quán)利要求1所述的一種基于HVS的視頻感興趣區(qū)域提取方法,其特征在于,步驟I中的視頻空域信息量計(jì)算,其步驟為: 步驟15:將t時(shí)刻的這一幀視頻所包含的時(shí)間事件表示為F(t),解釋為視頻幀F(xiàn)(t)上所有其他位置視頻子塊的集合; 步驟16:將t時(shí)刻幀F(xiàn) (t)逐塊進(jìn)行DCT變換得矩陣D,塊B (X,y, t)的一個(gè)DCT分量可表示為D(x, y, i, j),其中(x,y)表示塊的幀內(nèi)空間位置,(i, j)表示塊內(nèi)DCT分量位置,i=1, 2,..., R; j = I, 2,..., C ; 步驟17:所有塊的第(i,j)個(gè)分量組成的矩陣為D(:,:, i, j),求該矩陣的概率矩陣Pu (即矩陣值的概率值組成的新矩陣),塊B(x,y,t)的第(i,j)個(gè)分量取值的概率為Pi, j (χ, y); 步驟18:這一幀視頻中視頻子塊B (X,y, t)出現(xiàn)的概率表示為條件概率
4.根據(jù)權(quán)利要求1所述的一種基于HVS的視頻感興趣區(qū)域提取方法,其特征在于,步驟2中的采用特征融合策略將視頻時(shí)域信息與空域信息加權(quán),計(jì)算視頻信息量,其步驟為:步驟21:分別按照如下公式將所求得時(shí)域和空域信息量進(jìn)行線性歸一化;
5.根據(jù)權(quán)利要求1所述的一種基于HVS的視頻感興趣區(qū)域提取方法,其特征在于,步驟3中的根據(jù)視覺遲滯性映射模型,由視頻信息量獲得視頻視覺顯著度,其步驟為: 步驟31:定義人眼所能察覺的信息量下限為L(zhǎng)lower,最大信息量為L(zhǎng)uppct ; 步驟32:根據(jù)雙曲正切函數(shù)的特征和人眼視覺敏感性,我們采用映射模型S =
6.根據(jù)權(quán)利要求1所述的一種基于HVS的視頻感興趣區(qū)域提取方法,其特征在于,步驟4中的根據(jù)視頻視覺顯著度提取感興趣區(qū)域,其步驟為:
【文檔編號(hào)】H04N19/167GK103686178SQ201310645819
【公開日】2014年3月26日 申請(qǐng)日期:2013年12月4日 優(yōu)先權(quán)日:2013年12月4日
【發(fā)明者】鄧佳君, 路兆銘, 溫向明, 傅彬, 邵華, 王魯晗, 王剛, 廖青, 趙振民 申請(qǐng)人:北京郵電大學(xué)