2014年3月6日 星期四

Efficient visual search of videos cast as text retrieval

Efficient visual search of videos cast as text retrieval

 Josef Sivic and Andrew Zisserman
IEEE TPAMI, 2009.


概述


這篇paper想要在影片的object search 上使用傳統的text retrieval 的技巧。
大致上來看,使用者所框出的區域(image query)就是 text retrieval 中,包含數個word的query;
而每個frame則是一個包含更多word的文本。



大體上分成三個部分,
第一部分是如何去描述一個object,
第二部分則是將描述轉換成visual word 並且建立dictionary,
最後一部分則是如何利用retrieval 的技巧。












黃色框框部分是使用者標出的query
左方兩圖則是retrieval 出來的frame





1. viewpoint invariant description


    這邊首先主要想要找到一些不會受到攝影機視角、光線、放大縮小、甚至可以忍受部分遮掩的區域。


兩種affine covariant  regions在這裡被計算。

一種是Shape Adapted(SA):對應到影像中的corner like的區域;

另外一種則是Maximally Stable(MS):對應到像是灰牆上的黑窗戶這種跟周圍有差異的區域。



這兩種區域都用橢圓來表達,一個720*576的frame 大概會有1200個區域(如下圖)。

















接著,每一個橢圓的affine covariant  regions都被利用SIFT descripter表達成一個128維的向量。
值得注意的是,這邊我們沒有用到顏色的資訊。


為了減少noise還有不穩定的區域,我們去除了所有不存在超過三個frame的區域
這個作法使得一個frame的平均區域數從 1200降到600。

 

2. build a visual vocabulary

  visual word不像text的word有固定的詞彙,因此要如何建立visual vocabulary便是另一個重點了。




在這裡我們利用了k-means clustering,
把同一群的visual word當作是同一個word來建立visual vocabulary


值得注意的是,我們將SA跟MS分開做,這個理由是因為SA跟MS就像是兩種不同表達方式,雖然他們有可能描述的是同一部分。













圖中上排是SA,下排是MS,
而他們有的是像abde這種抽象的結構,也有可能是像cf這種具體的物件





3. visual indexing using text retrieval methods

這個部分主要就跟text retrieval類似,利用tf-idf、stop list的技巧。
並且利用spatial consistency來re-rank。




第一排到第二排是增加了stop list 的結果,
而第二排到第三排則是增加了spatial consistency re-rank
       
       


實驗

作者選了三部電影來當作實驗的data,並且利用Groundhog day中的六個物件來計算AP。









而在速度的部分5640個keyframe(每秒一張)在2GHz Pentium 平均使用0.82秒




 弱點

下面的這張圖展現出了三個這個work較無法處理的地方














A:無region,我覺得這比較不會造成困擾,因為大部分的query不會長這樣
B:反光
C:皺褶


但是BC可能就會造成一些實用上的問題,我們可能很常會去搜尋金屬表面的東西或者是衣服類的。


另外這篇也做了不同frequency method 的比較,結果如下


















我們可以看到不同object,AP最好的method也不同,或許這部分能進一步分析?

沒有留言:

張貼留言