Efficient visual search of videos cast as text retrieval
Josef Sivic and Andrew Zisserman
IEEE TPAMI, 2009.
概述
大致上來看,使用者所框出的區域(image query)就是 text retrieval 中,包含數個word的query;
而每個frame則是一個包含更多word的文本。
大體上分成三個部分,
第一部分是如何去描述一個object,
第二部分則是將描述轉換成visual word 並且建立dictionary,
最後一部分則是如何利用retrieval 的技巧。

黃色框框部分是使用者標出的query
左方兩圖則是retrieval 出來的frame
1. viewpoint invariant description
兩種affine covariant regions在這裡被計算。
一種是Shape Adapted(SA):對應到影像中的corner like的區域;
另外一種則是Maximally Stable(MS):對應到像是灰牆上的黑窗戶這種跟周圍有差異的區域。
這兩種區域都用橢圓來表達,一個720*576的frame 大概會有1200個區域(如下圖)。
接著,每一個橢圓的affine covariant regions都被利用SIFT descripter表達成一個128維的向量。
值得注意的是,這邊我們沒有用到顏色的資訊。
為了減少noise還有不穩定的區域,我們去除了所有不存在超過三個frame的區域
這個作法使得一個frame的平均區域數從 1200降到600。
2. build a visual vocabulary
visual word不像text的word有固定的詞彙,因此要如何建立visual vocabulary便是另一個重點了。在這裡我們利用了k-means clustering,
把同一群的visual word當作是同一個word來建立visual vocabulary
值得注意的是,我們將SA跟MS分開做,這個理由是因為SA跟MS就像是兩種不同表達方式,雖然他們有可能描述的是同一部分。

圖中上排是SA,下排是MS,
而他們有的是像abde這種抽象的結構,也有可能是像cf這種具體的物件
3. visual indexing using text retrieval methods
這個部分主要就跟text retrieval類似,利用tf-idf、stop list的技巧。並且利用spatial consistency來re-rank。
第一排到第二排是增加了stop list 的結果,
而第二排到第三排則是增加了spatial consistency re-rank
實驗
作者選了三部電影來當作實驗的data,並且利用Groundhog day中的六個物件來計算AP。而在速度的部分5640個keyframe(每秒一張)在2GHz Pentium 平均使用0.82秒
弱點
下面的這張圖展現出了三個這個work較無法處理的地方A:無region,我覺得這比較不會造成困擾,因為大部分的query不會長這樣
B:反光
C:皺褶
但是BC可能就會造成一些實用上的問題,我們可能很常會去搜尋金屬表面的東西或者是衣服類的。
另外這篇也做了不同frequency method 的比較,結果如下

我們可以看到不同object,AP最好的method也不同,或許這部分能進一步分析?





