諾比讀paper

2014年6月23日星期一

Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups

Hinton, Geoffrey, et al. "Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups." Signal Processing Magazine, IEEE 29.6 (2012): 82-97.

下集待續T____T

Representation Learning: A Review and New Perspectives

Bengio, Yoshua, Aaron Courville, and Pascal Vincent. "Representation learning: A review and new perspectives." Pattern Analysis and Machine Intelligence, IEEE Transactions on 35.8 (2013): 1798-1828.

機器學習表現如何有很大一部分取決於選擇了怎樣的方式來表達資料，
而這篇paper就是關於Representation Learning，也就是，學著去表達資料，
以便於當我們需要建立分類器或者其他的predictors的時候，
可以更簡單，也更有效的去找到資料中有效的資訊

過去的幾年中，包括了:語音辨識與信號處理、object recognition、自然語言處理
、以及了multi-task learning, transfer learning, domain adaptation等領域，Representation Learning的概念都大量的被使用，也得到了很好的結果，這一再得顯示了，我們必須要關心Representation Learning這個概念!

不過，怎麼樣的Representation 才算是一個好的Representation 呢?
通常我們會有以下的這些考量:

smoothness,

這也就是說，當x跟y很接近的時候，我們必須要讓f(x)跟f(y)也很接近，

但是另外一方面，我們會遇到curse of dimention的問題

multiple explanatory factors,

這個概念是建立在distributed representation的概念上，

也就是，我們希望用盡可能少的表達，去展現出大量的原始資訊的構造

a hierarchical organization of explanatory factors,

在日常生活中的物件往往都是具有階層性的構造的，像是橡膠表面與金屬螺絲構成輪胎

而輪胎又是機車或者汽車等不同物件的一個小部分。

而這樣的概念就運用在deep representation上，

deep representation的關鍵就是feature reuse，就像是同樣的金屬螺絲，或者是較大的輪胎等共同部分，而這部分同時也是distributed representation的核心

而其他的部份我們還會有以下的一些關於機器學習上的考量

semi-supervised learning,

shared factors across tasks

manifolds,

natural clustering,

temporal and spatial coherence

sparsity

simplicity of factor dependencies

綜合以上的考量，deep arcitecture似乎是我們的選擇，

因此這篇paper剩下的部分就著重在一些可以運用在深度結構學習的

feature learning 演算法。

大致上可以分成下面三個部分

1. probabilistic models

包含了 directed graphical models : PCA 、sparse coding

以及undirected graphical models : RBM

2.Directly Learning A parametric Map from Input to Representation

也就是我們所謂的auto-encoder

3.Representation learning as manifold learning

2014年6月22日星期日

A Survey on Transfer Learning

	A Survey on Transfer Learning Pan, Sinno Jialin, and Qiang Yang. "A survey on transfer learning." Knowledge and Data Engineering, IEEE Transactions on 22.10 (2010): 1345-1359.

傳統的機器學習通常只在測試數據以及訓練數據來自同樣的特徵空間(feature space)、以及同樣的機率分布下，會有良好的表現。但是在現實生活物中，這樣的假設並不一定總是正確的，而重新在不同的機率分布下蒐集資料是很昂貴的。因此transfer learning便是試圖要解決這一類的問題。

從上圖中，我們可以看出傳統的機器學習，以及transfer learning有何不同。

如圖右所示，transfer learning試圖利用在source tasks中學到的知識，加以解決Target task。

下面我們會稍微解釋一下問題的定義

1. Domain : 包含了兩個部分 : feature space( χ )以及probability distribution( P(X) ),

其中 X = {x1,x2,x3....} ∈ χ

綜合兩點，我們可以將domain D表示成 D = { χ ,P(X) }

2.Task : 也包含了兩個部分 : label space(Y) 以及 objective predictive function ( f(.) )

我們也可以將 Task 表示成T = {Y,f(.) }

而transfer learningk的使用情境便是在source 以及 target 在domain 或者是task有任一或者兩者皆不同的情況下。而隨著情況不同，我們也對該情形下的transfer learning有著不同的稱呼，如下圖所示

而另外一方面，隨著source 以及 target的標記與否，我們又有另外一種表示方式如下

結合以上兩張表格，我們可以得到一個更詳細的統整如下

Online dictionary learning for sparse coding

Mairal, Julien, et al. "Online dictionary learning for sparse coding."

Proceedings of the 26th Annual International Conference on Machine Learning. ACM, 2009.

所謂的sparse coding 指的就是如何將一堆的數據向量表達成一些basis的稀疏線性組合。

而這篇paper說明了一種利用stochastic approximation去學習basis set(也就是我們所說的dictionary)，的方法，同時的，這個方法也達到不錯的效果在較大規模的數據上。

問題定義:

對於一個有限大小的training set X = [x1,x2,x3.....xn]

我們可以將cost function定義如下

其中l(xi,D)指的是D這個dictionary可以多好的表達xi這筆數據，我們選擇以下的式子

其中α指的是sparse decomposition的係數

而λ是 regularization的參數

統合一下，我們就可以把optimization problem轉換成如下形式

Algoritm:

實際上為了加速收斂的時間，我們會一次處理多筆數據

也就是將algorithm1的5、6行部分換成如下:

2014年4月23日星期三

A global Geometric Framework for Nonlinear Dimensionality Reduction

在很多的研究當中，設法從高維度的資料當中找出具有意義的低維度的結構是很重要的事情

比如在下面這張圖中，雖然在原始資料中，
每一張圖片是64*64 pixel，
如果用row feature來表示的話，我們會有4096維的資料，
但是其實我們可以用三個維度(也就是上下、左右、光線角度)
來表示data

傳統的降維技巧包括了PCA跟MDS，
他們都實做簡單、計算快速、並且能確實發現在高維之下的線性子空間投影

但是實際上，我們可能會遇到非線性的情況，
例如在下圖A的例子中，
資料非線性的分布在一個我們稱為"二維瑞士捲"的子空間上

圖A中的兩個點，即便他們在二維瑞士捲上的距離異常的遙遠，
但是在真正的空間中，可能會詐欺似的靠近，
在這種情況下，PCA跟MDS都會失敗

這篇paper設法解決這個問題，我們設法設法找到兩點之間的真實距離
而方法的核心是如何計算在原始空間中遙遠的兩點的真實距離
大致上來說，
距離較近的兩點，我們直接使用原始空間的距離當作距離，
而對於距離遙遠的兩點，我們使用類似於shortest path的方法來處理
藉由加總path上的short hops的距離，來估計真正的距離。

首先，我們先決定哪些點是靠近的兩點，並且將那些點的距離代入原始空間的距離
並且在圖上將他們連線

在這裡我們有兩個'方法，第一個是取一個固定的半徑，只取在半徑內的
而第二個則是建立K-NN graph

第二步，我們計算all pair shortest path，並以此做維兩點之間的真正距離

第三步，我們設法利用這些距離的資料，在低維度的空間中找到合理的映射

式子如上，其中前項是我們計算出來的distance matrix，後項是在映射的子空間中，我們所得到的距離

Nonlinear Dimensionality Reduction by Locally Linear Embedding

承上篇文章，我們往往會將一個複雜的資訊用一個高維的空間中的點加以表達。
而我們常常會遇到需要將維度加以減少的情況，
如下圖所示

這篇PAPER提出了一個 Locally Linear Embedding的方法，
可以避免計算距離過遠的兩個點的距離。

而LLE的大致過程我們可以由下圖表達

首先，我們對點選取特定數量的鄰居(通常用KNN)，
接著，設法利用這些選定的鄰居線性組合出i這個點，
也就是最小化下式

值得注意的是，如果j點並非i的鄰居，那他們之間的權重即為0，
另外一個是，我們加入了下式的限制。

而minimize這個的過程，也就等同於解least-squares problem，

值得一提的是，這樣提出來的組合，
在縮放，旋轉，變形之下，都是保持穩定的。

接著，我們設法將這樣的線性組合關係映射到低維度的空間中，
也就是minimize下面的式子

同樣的，這樣的問題也可以表達成quadratic 的形式，
更明確的說，我們可以利用解疏矩陣的eigenvalue來找到解。

LLE這個方法有一些其他方法所缺乏的特點，

最顯而易見的就是，不同於一些其他的方法需要大量參數，
他只有一個參數，也就是KNN的K

另外一個則是，LLE可以較輕易的達到global optimality

接著，由於LLE在區域性結構的穩定性，'當我們所映射到的子空間維度提升時，
我們不需要重新處理原先高維度的空間中的資料

最後，由於避免掉了計算兩點間的距離，
LLE也可以避免掉計算高維的DP所花費的時間。

2014年4月1日星期二

2012 Multimedia Grand challenge

Analyzing social media via event facets

Wang, Zhiyu, et al. "Analyzing social media via event facets." Proceedings of the 20th ACM international conference on Multimedia. ACM, 2012.

facets:

5w1h : who, when , where , what , why ,how

事情的六個面向

兩步驟:

1.同時藉由影像及文字得到更豐富的內容

2.利用BC-LDA設法得到具代表性的內容

最後再視覺化

做法

1.先做斷詞，斷出來的詞跟TAG常常有很大的不同
2.影像部分用SIFT

利用BC-LDA學習文字與影像的主題

一個事件利用上述的六個面向展示
同時，我們也可以利用時間軸展示事件的起始與結束

how!!!!!!!!找不到tech report QQ
同時把文字跟影像放進LDA感覺是個不錯的做法
可以避免將文字跟影像分開做時，要將兩者link在一起的困難

Multimedia news digger on emerging topics from social streams

Bao, Bing-Kun, et al. "Multimedia news digger on emerging topics from social streams." Proceedings of the 20th ACM international conference on Multimedia. ACM, 2012.

同時利用了三個資料來源:
Twitter, Flicker, Google news

步驟

(1)在不需要使用者介入下，自動從Twitter偵測緊急的主題
(2)在不受訊息長度影響下，正確偵測關鍵字
(3)自動的從三個資料來源收集資料

方法

co-clustering 應該盡量減少資訊的損失

其他用到的方法

(1) 資料蒐集

text: TF-IDF 加入stop word

image: vector of Bag of Word features

Porter, Martin F. "An algorithm for suffix stripping." Program: electronic library and information systems 14.3 (1980):

(2)緊急關鍵字探勘

age theory

Chen, Kuan-Yu, Luesak Luesukprasert, and Seng-cho Timothy Chou. "Hot topic extraction based on timeline analysis and multidimensional sentence modeling." IEEE transactions on knowledge and data engineering 19.8 (2007): 1016.

(3)跨媒體的搜尋

manifold ranking

感覺要做的好還是必須要跨媒體去做，而不能只考慮單一媒體的資訊

TWIPIX: a web magazine curated from social media

Bansal, Romil, et al. "Twipix: a web magazine curated from social media."Proceedings of the 20th ACM international conference on Multimedia. ACM, 2012.

interestingness : I = P*F*R*N

popularity : P : number of unique user tweeting about the tweet

information value :F = a*log(w) + b*i +c*n

a.b.c:weight

w:word-count of the event title

i :number of image

n:number of news article

recentness :R:number of original tweet on data

novelty :N: 1/(1+e^(eta*(d-delta)))

d:number of days which event is active

如果相似度比T1大，並且時間有重疊，那就把兩個合併在一起

如果相似度比T2大，不管時間有沒有重疊，他們會被稱做相關的，並且，如果他們共用了同一個影像或者新聞文章，那麼他們就會被合併在一起

(T1>T2)

訂閱：文章 (Atom)

2014年6月23日 星期一