諾比讀paper

Efﬁcient visual search of videos cast as text retrieval

Josef Sivic and Andrew Zisserman
IEEE TPAMI, 2009.

概述

這篇paper想要在影片的object search 上使用傳統的text retrieval 的技巧。
大致上來看，使用者所框出的區域(image query)就是 text retrieval 中，包含數個word的query；
而每個frame則是一個包含更多word的文本。

大體上分成三個部分，
第一部分是如何去描述一個object，
第二部分則是將描述轉換成visual word 並且建立dictionary，
最後一部分則是如何利用retrieval 的技巧。

黃色框框部分是使用者標出的query
左方兩圖則是retrieval 出來的frame

1. viewpoint invariant description

這邊首先主要想要找到一些不會受到攝影機視角、光線、放大縮小、甚至可以忍受部分遮掩的區域。

兩種affine covariant regions在這裡被計算。

一種是Shape Adapted(SA):對應到影像中的corner like的區域；

另外一種則是Maximally Stable(MS):對應到像是灰牆上的黑窗戶這種跟周圍有差異的區域。

這兩種區域都用橢圓來表達，一個720*576的frame 大概會有1200個區域(如下圖)。

接著，每一個橢圓的affine covariant regions都被利用SIFT descripter表達成一個128維的向量。
值得注意的是，這邊我們沒有用到顏色的資訊。

為了減少noise還有不穩定的區域，我們去除了所有不存在超過三個frame的區域
這個作法使得一個frame的平均區域數從 1200降到600。

2. build a visual vocabulary

visual word不像text的word有固定的詞彙，因此要如何建立visual vocabulary便是另一個重點了。

在這裡我們利用了k-means clustering，
把同一群的visual word當作是同一個word來建立visual vocabulary

值得注意的是，我們將SA跟MS分開做，這個理由是因為SA跟MS就像是兩種不同表達方式，雖然他們有可能描述的是同一部分。