Ⅰ 採用 em 演算法求解的模型有哪些
1、蒙特卡羅演算法(該演算法又稱隨機性模擬演算法,是通過計算機模擬來解決問題的算 法,同時可以通過模擬可以來檢驗自己模型的正確性,是比賽時必用的方法) 2、數據擬合、參數估計、插值等數據處理演算法(比賽中通常會遇到大量的數據需要 處理,而處理數。
Ⅱ EM演算法怎麼用在聚類上
k-means -> probabilistic model mixtures -> infinite probabilistic model mixtures(DP) 或者 infinite k-means
EM為含隱變數的概率模型提供了一個通用的框架。
而用於聚類的模型其實都是離散混合模型。有限混合或者無限混合(狄利克雷過程),離散混合模型一定是含有隱變數的。所以EM就可以用來求解了。你先選一個聚類模型。你的任務簡單,就沒得選GMM或者DPGMM。若任務復雜些,可以搞分層的,或者時序的。然後用EM求解即可,求解過程中還會用到采樣或者變分,自己看想用哪個。
Ⅲ GMM模型是什麼
就是用高斯概率密度函數(正態分布曲線)精確地量化事物,將一個事物分解為若乾的基於高斯概率密度函數(正態分布曲線)形成的模型。GMMs已經在數值逼近、語音識別、圖像分類、圖像去噪、圖像重構、故障診斷、視頻分析、郵件過濾、密度估計、目標識別與跟蹤等領域取得了良好的效果。
對圖像背景建立高斯模型的原理及過程:圖像灰度直方圖反映的是圖像中某個灰度值出現的頻次,也可以認為是圖像灰度概率密度的估計。如果圖像所包含的目標區域和背景區域相比比較大,且背景區域和目標區域在灰度上有一定的差異,那麼該圖像的灰度直方圖呈現雙峰-谷形狀。
主要步驟
1、為圖像的每個像素點指定一個初始的均值、標准差以及權重。
2、收集N(一般取200以上,否則很難得到像樣的結果)幀圖像利用在線EM演算法得到每個像素點的均值、標准差以及權重)。
3、從N+1幀開始檢測,檢測的方法:
對每個像素點:
1)將所有的高斯核按照ω/σ降序排序
2)選擇滿足公式的前M個高斯核:M= arg min(ω/σ>T)
3)如果當前像素點的像素值在中有一個滿足:就可以認為其為背景點。
Ⅳ 中心極限定理和高斯分布
中心極限定理:
1.在獨立同分布的情況下,無論隨機變數的分布函數為何,當數據量充分大的時候,它們的平均值總是近似地服從正態分布。
2.自然界與生產中,一些現象受到許多相互獨立的隨機因素的影響,如果每個因素所產生的影響都很微小時,總的影響可以看作是服從正態分布的。比如LSTM的輸出分布是不確定的,但它受到多種不明因素的影響,這時候根據中心極限定理假設它服從高斯分布是一種自然而然的假設。我們或許可以假設LSTM輸出分布服從更加復雜的分布比如GMM混合高斯分布、GGD廣義高斯分布,因為它們具備更好的建模能力。但它們計算相當復雜,而且不能保證計算的可靠性。
3.GMM
3.1什麼是GMM?
多個高斯分布的加權求和叫GMM。
3.2求解困難在哪裡?
多個p(x)相乘,如果用極大似然估計取log等式右邊無法計算。
3.3怎麼解決? EM演算法(Expectation-Maximum)
我們沒法知道每個樣本X是來自哪個分量,但是可以知道這個樣本處於每個分量的概率是多少
E-step最大化樣本的期望
M-step尋找使Q函數最大的參數值
重復計算 E-step 和 M-step 直至收斂
Ⅳ em演算法是什麼
最大期望演算法(Expectation-Maximization algorithm, EM),或Dempster-Laird-Rubin演算法,是一類通過迭代進行極大似然估計(Maximum Likelihood Estimation, MLE)的優化演算法 ,通常作為牛頓迭代法(Newton-Raphson method)的替代用於對包含隱變數(latent variable)或缺失數據(incomplete-data)的概率模型進行參數估計。
EM演算法的標准計算框架由E步(Expectation-step)和M步(Maximization step)交替組成,演算法的收斂性可以確保迭代至少逼近局部極大值 。EM演算法是MM演算法(Minorize-Maximization algorithm)的特例之一,有多個改進版本,包括使用了貝葉斯推斷的EM演算法、EM梯度演算法、廣義EM演算法等 。
由於迭代規則容易實現並可以靈活考慮隱變數,EM演算法被廣泛應用於處理數據的缺測值 ,以及很多機器學習(machine learning)演算法,包括高斯混合模型(Gaussian Mixture Model, GMM) 和隱馬爾可夫模型(Hidden Markov Model, HMM) 的參數估計。
Ⅵ EM演算法及其應用GMM/pLSA/LDA
從樣本觀察數據(顯性特徵x)中,找出樣本的模型參數( )。 最常用的方法就是極大化模型分布的對數似然函數。
是樣本特徵和label的聯合分布, ,為了使得估計的結果泛化能力更好,我們將 分解為 , 就是隱變數。
這類問題有:
以上問題,主要是通過引入隱變數,把樣本表述為隱變數的分布,從而簡化每個樣本點表述。對於此問題通用的數學描述為:
給定一個樣本集 ,我們假設觀察到的 還對應著隱含變數的概率分布 ,記 。則該模型 的對數似然函數為:
而 根據具體的問題來定義。
目標是求得參數 ,使得對數似然函數最大:
這時候,交叉熵為:
優化目標為:
它的梯度是
都是概率分布,即大於0且滿足:
直接梯度下降是行不通的,這就需要藉助EM演算法。
對於最大似然函數的參數求解:
是隱變數,觀測不到,為了求解上式,假設我們知道 的概率分布 :
根據 Jensen 不等式 [1],對於任意分布 都有:
且上面的不等式在 為常數時取等號。
(備註:關鍵的點就是Jensen不等式在x為常數時取等號(x的所有值重疊,等於1個值)。這里正好對應隱變數的分布的確定,即E步求解的隱變數的分布)
於是我們就得到了 的一個下界函數。我們要想套用上面的演算法,還要讓這個不等式在 處取等號,這就這要求在 時 為常數,即 。由於 是一個概率分布,必須滿足 ,所以這樣的 只能是 。那我們就把 代入上式,得到:
最大化這個下界函數:
其中倒數第二步是因為 這一項與 無關,所以就直接扔掉了。這樣就得到了本文第二節 EM 演算法中的形式——它就是這么來的。
以上就是 EM 了。至於獨立同分布的情況推導也類似。
[1]
Jensen 不等式:
對於凸函數 ,其函數的期望大於等於期望的函數
若 是嚴格凸的,則上式取等號當前僅當 為常數。
在這里 函數是嚴格 凹 的,所以要把上面的不等號方向
假設某個數據分布是由K個高斯分布加權疊加而來:
目標是,求出這K個高斯分布及其權重。
換一種說法,也就是,用K個高斯分布的加權和來擬合數據分布
相比於K-means,只是把原本樣本一定屬於某一類改成了一個樣本屬於某類的概率。K-means的結果是把每個數據點assign到其中某一個cluster,而GMM則是給出每個數據點被assign到每一個cluster的概率,又稱作soft assignment。
pLSA 模型有兩個 基本的設定:
即:
而我們感興趣的正是其中的 和 ,即文章的主題分布,和主題的詞分布。記 , 表示我們希望估計的模型參數(模型中共有 個參數)。
根據最大log似然估計法,我們要求的就是
這里由於 這一項與 無關,在 中可以被直接扔掉。 [1]
因此
這里出現了 套 的形式,導致很難直接拿它做最大似然。但假如能觀察到 ,問題就很簡單了。於是我們想到根據 EM 演算法 ,可以用下式迭代逼近 :
其中
在 E-step 中,我們需要求出 中除 外的其它未知量,也就是說對於每組 我們都需要求出 。 根據貝葉斯定理貝葉斯定理,我們知道:
而 和 就是上輪迭代求出的 。這樣就完成了 E-step。
接下來 M-step 就是要求 了。利用基本的微積分工具 [2],可以分別對每對 和 求出:
以上就是 pLSA 演算法了。
EM求解方法:
E-step:
M-step:
在pLSA中用極大似然估計的思想去推斷參數(文檔的主題分布和主題的詞分布),而LDA把這兩參數視為概率分布,其先驗信息為dirichlet分布。因此,在數據量不大的時候,LDA能緩解過擬合問題,而在數據量很大的時候,pLSA是比較好的選擇。
LDA中,估計Φ、Θ這兩未知參數可以用變分(Variational inference)-EM演算法,也可以用gibbs采樣,前者的思想是最大後驗估計MAP,後者的思想是貝葉斯估計。
https://spaces.ac.cn/archives/4277
EM演算法原理總結
Probabilistic latent semantic analysis (pLSA)
A Note on EM Algorithm and PLSA --- Xinyan Lu
李航-統計機器學習第一版
高斯混合模型
github
推薦我的開源項目 exFM c++ deepFM
Ⅶ EM Algorithm
EM演算法和之前學的都不太一樣,EM演算法更多的是一種思想,所以後面用幾個例子講解,同時也會重點講解GMM高斯混合模型。
極大似然估計這裡面用的比較多。假設我們想要知道我們學生身高的分布,首先先假設這些學生都是符合高斯分布 我們要做的就是要估計這兩個參數到底是多少。學生這么多,挨個挨個來肯定是不切實際的,所以自然就是抽樣了。
為了統計學生身高,我們抽樣200個人組成樣本
我們需要估計的參數 首先估計一下抽到這兩百人的概率一共是多少,抽到男生A的概率 抽到學生B的概率 所以同時抽到這兩個學生的概率就是 那麼同時抽到這200個學生的G概率
最後再取一個對數就好了:
似然函數的執行步驟:
1.得到似然函數
2.取對數整理
3.求導數,另導數為零
4.解方程得到解
首先引出凸函數的概念 那麼就是凸函數,所以它的圖像就是一個勾形的,看起來是一個凹函數,實際上是凸函數。
正常來看先是要引入一個最大似然函數: 但這樣其實是和難求的,P(x|θ)完全混在了一起,根本求不出來,所以我們要引入一個輔助變數z。
所以我們引入隱變數的原因是為了轉化成和這幾個高斯模型相關的式子,否則無從下手。化簡一下上式子: 既然z可以指定x,那麼我們只需要求解出z就好了。
注意上面凸函數所提到的一個期望性質,這里就可以使用了。因為雖然優化了上面的式子,還是不能求出來,因為z變數實在是太抽象了,找不到一個合適的公式來表示它。EM的一個方法就是用優化下界函數的方法來達到優化目標函數的目的。
既然z很抽象,那麼我們就需要一個轉變一下。對於每一個樣例x都會對應一個z,那麼假設一個分布Q(z)是滿足了z的分布的,而Q(z)滿足的條件是 Qi意味著每一個x對應的z都會對應著一個Q了,這里有點復雜,再詳細解釋一下。一個x對應一組z,z是一個向量,但是每一個z又會分別對應一個一個分布Q。以為最後得到的z不會是一個數字,而是一個概率,也就是說Q(z)得到的是這個x樣例屬於這個類別的概率是多少。而z的數量,一個是當前有多少個分布混合在一起的數量。
再梳理一下:現在的樣本是xi,那麼每一個xi將會對應著一組的z,每一個xi同時也會對應著一個分布Qi,z其實就是反應了這個樣本是來自於哪個分布的。比如這個x是A1分布做了3,A2分布做了5,那麼z可能就是={3,5}。所以Qi(z)得到的是這個x屬於這些個分布的概率,也就是說這些分布對x做了多少百分比的功,自然就是要等於1了。
還要注意的是,上面的 這個並不能得到Qi(z)就是分布對x做了多少功的結論,得到這個結論是後面下界函數與目標函數相等得到的。這里只是知道了總和等於1,因為是分布的總和嘛。
現在就到了公式的化簡:
仔細看一下這個式子 這個式子其實就是求 的期望,假設 ,那麼可以利用上面 。於是化簡:
這個時候就得到了下界函數,上面也講過了,想要相等,自然就是x要是常數,所以 既然 ,而且z也是一樣的,因為一個樣本嘛。所以上下加和(如果是離散的,那就sum一下,連續的那就積分,這里是離散的,所以就是sum一下)。於是有
於是有:
這就是整一個EM演算法的框架了,可以看到其實沒有比較具體的演算法,大致上就是一個框架。那麼問題來了,怎麼樣證明這東西是一個收斂的??
可以直接把高斯混合模型代入EM框架裡面。
存在多個高斯分布混合生成了一堆數據X,取各個高斯分布的概率是 ,第i個高斯分布的均值是 ,方差是 ,求法φ,μ,σ。
按照套路,第一個E-step求出Q,於是有:
意思就是求出第i個樣本屬於第j個分布的概率是多少。之後就是M-step了,就是化簡了:
這里可能需要解釋一下,根據 至於條件,因為很明顯,z是隱變數,只是指明了x是屬於哪個類別,和μ,Σ沒有什麼關系,所以直接忽略那兩個參數了,所以P(z)是沒有那兩個參數的,z是代表了分布,所以每一個分布的概率肯定是包括了,所以就只有一個概率的參數。P(x|z)是本身的概率,就是已經知道分布是那個了,求屬於這個分布的概率是多少,既然已經選定了分布那麼自然就不需要再看φ了,因為φ是各個分布的概率。
現在有兩個硬幣AB,進行5次試驗每一次投10次,並不知道是哪個硬幣投的,求兩種硬幣的正面的概率。
首先E-step:
首先先初始化一下,
第一個試驗選中A的概率:
同樣求得
計算機出每一個試驗的概率然後相加求均值。
之後就是M-step了:
方差的求解就不玩了,主要就是迭代求解μ和φ的值了。
首先是生成數據,4個高斯分布,每一個高斯分布的sigma都是一樣的,不一樣的只有μ和α,也就是φ,習慣上把前面的一個參數叫做權值,所以用α來表示。
這四個模型的比例分別是1:2:3:4,使用EM來找到他們屬於的類別。
其實如果用kmeans聚類的話更加快速,但是這里還是用EM。
E-step:
就是按照公式來求解w即可,求解每一個分布對樣本點做了多少的功,之後求單個樣本點求比例。
M-step:
直接按照公式優化即可。
運行函數。看看結果:
結果其實還是相差不大。達到預期。
上面所講的其實只是一種理解方法,在李航老師的統計學習方法裡面是另一種比較厲害的解法:
1.E-step:求出Q函數。
2.M-step:利用Q函數求極大值。
其實這兩種方法是完全一樣的,Q函數就是下界函數,
EM和Kmeans演算法其實很類似,事實上步驟基本可以用EM框架來替換,但是Kmeans演算法是硬分類,說一不二,但是EM演算法不太一樣,是軟分類,百分之幾是那個,百分之幾是這個。
缺點也還是有的:初值敏感,局部最優。因為存在了隱變數,所以導致了直接對x做極大似然是不可行的,log已經在sum的外面了。所以EM演算法就轉向了下界函數,而這種方法本來就不保證找到局部最優解。
如果將樣本看作觀察值,潛在類別看作是隱藏變數,那麼聚類問題也就是參數估計問題。如果一個目標函數存在多個變數,那麼梯度下降牛頓法這些逼近方法就用不了了。但我們可以使用坐標上升方法,固定一個變數,對另外一個求導數,然後替換最後逐步逼近極值點。對應到EM演算法也是一樣,E步求隱含的z變數,Mstep求解其他參數。
Ⅷ 高斯混合模型(GMM)和EM演算法
學號:20021110074 電院 姓名:梁雪玲
【嵌牛導讀】:GMM與EM演算法的學習與推導。
【嵌牛鼻子】:GMM EM
【嵌牛提問】:GMM是什麼?EM演算法是什麼?二者之間的關系?演算法的推導?如何深入學習?
【嵌牛正文】:
在深度學習的路上,從頭開始了解一下各項技術。本人是DL小白,連續記錄我自己看的一些東西,大家可以互相交流。
本文參考:
http://www.ituring.com.cn/article/497545(GMM)
https://blog.csdn.net/xmu_jupiter/article/details/50889023(GMM)
http://www.cnblogs.com/wjy-lulu/p/7010258.html(EM演算法)
https://blog.csdn.net/zouxy09/article/details/8537620(EM演算法)
一、前言
高斯混合模型(Gaussian Mixture Model)簡稱GMM,是一種業界廣泛使用的聚類演算法。它是多個高斯分布函數的線性組合,理論上GMM可以擬合出任意類型的分布,通常用於解決同一集合下的數據包含多種不同的分布的情況。高斯混合模型使用了期望最大(Expectation Maximization, 簡稱EM)演算法進行訓練,故此我們在了解GMM之後,也需要了解如何通過EM演算法訓練(求解)GMM。
二、高斯混合模型(GMM)
在了解高斯混合模型之前,我們先了解一下這種模型的具體參數模型-高斯分布。高斯分布又稱正態分布,是一種在自然界中大量存在的,最為常見的分布形式。
如上圖,這是一個關於身高的生態分布曲線,關於175-180對稱,中間高兩邊低,相信大家在高中已經很了解了,這里就不再闡述。
現在,我們引用《統計學習方法》-李航 書中的定義,如下圖:
根據定義,我們可以理解為,GMM是多個高斯分布的加權和,並且權重α之和等於1。這里不難理解,因為GMM最終反映出的是一個概率,而整個模型的概率之和為1,所以權重之和即為1。高斯混合模型實則不難理解,接下來我們介紹GMM的訓練(求解)方法。
PS.從數學角度看,對於一個概率模型的求解,即為求其最大值。從深度學習角度看,我們希望降低這個概率模型的損失函數,也就是希望訓練模型,獲得最大值。訓練和求解是不同專業,但相同目標的術語。
三、最大似然估計
想要了解EM演算法,我們首先需要了解最大似然估計這個概念。我們通過一個簡單的例子來解釋一下。
假設,我們需要調查學校男女生的身高分布。我們用抽樣的思想,在校園里隨機抽取了100男生和100女生,共計200個人(身高樣本數據)。我們假設整個學校的身高分布服從於高斯分布。但是這個高斯分布的均值u和方差∂2我們不知道,這兩個參數就是我們需要估計的值。記作θ=[u, ∂]T。
由於每個樣本都是獨立地從p(x|θ)中抽取的,並且所有的樣本都服從於同一個高斯分布p(x|θ)。那麼我們從整個學校中,那麼我抽到男生A(的身高)的概率是p(xA|θ),抽到男生B的概率是p(xB|θ)。而恰好抽取出這100個男生的概率,就是每個男生的概率乘積。用下式表示:
這個概率反映了,在概率密度函數的參數是θ時,得到X這組樣本的概率。在公式中,x已知,而θ是未知,所以它是θ的函數。這個函數放映的是在不同的參數θ取值下,取得當前這個樣本集的可能性,因此稱為參數θ相對於樣本集X的似然函數(likehood function)。記為L(θ)。
我們先穿插一個小例子,來闡述似然的概念。
某位同學與一位獵人一起外出打獵,一隻野兔從前方竄過。只聽一聲槍響,野兔應聲到下,如果要你推測,這一發命中的子彈是誰打的?你就會想,只發一槍便打中,由於獵人命中的概率一般大於這位同學命中的概率,看來這一槍是獵人射中的。
這個例子所作的推斷就體現了極大似然法的基本思想,我們並不知道具體是誰打的兔子,但是我們可以估計到一個看似正確的參數。回到男生身高的例子中。在整個學校中我們一次抽到這100個男生(樣本),而不是其他的人,那麼我們可以認為這100個男生(樣本)出現的概率最大,用上面的似然函數L(θ)來表示。
所以,我們就只需要找到一個參數θ,其對應的似然函數L(θ)最大,也就是說抽到這100個男生(的身高)概率最大。這個叫做θ的最大似然估計量,記為:
因為L(θ)是一個連乘函數,我們為了便於分析,可以定義對數似然函數,運用對數的運算規則,把連乘轉變為連加:
PS.這種數學方法在MFCC中我們曾經用過,可以回溯一下上一篇文章。
此時,我們要求θ,只需要使θ的似然函數L(θ)極大化,然後極大值對應的θ就是我們的估計。在數學中求一個函數的最值問題,即為求導,使導數為0,解方程式即可(前提是函數L(θ)連續可微)。在深度學習中,θ是包含多個參數的向量,運用高等數學中的求偏導,固定其中一個變數的思想,即可求出極致點,解方程。
總結而言:
最大似然估計,只是一種概率論在統計學的應用,它是參數估計的方法之一。說的是已知某個隨機樣本滿足某種概率分布,但是其中具體的參數不清楚,參數估計就是通過若干次試驗,觀察其結果,利用結果推出參數的大概值。最大似然估計是建立在這樣的思想上:已知某個參數能使這個樣本出現的概率最大,我們當然不會再去選擇其他小概率的樣本,所以乾脆就把這個參數作為估計的真實值。
求最大似然函數估計值的一般步驟:
(1)寫出似然函數;
(2)對似然函數取對數,並整理;(化乘為加)
(3)求導數,令導數為0,得到似然方程;
(4)解似然方程,得到的參數即為所求。
四、EM演算法
期望最大(Expectation Maximization, 簡稱EM)演算法,稱為機器學習十大演算法之一。它是一種從不完全數據或有數據丟失的數據集(存在隱含變數)中求解概率模型參數的最大似然估計方法。
現在,我們重新回到男女生身高分布的例子。我們通過抽取100個男生身高,並假設身高分布服從於高斯分布,我們通過最大化其似然函數,可以求的高斯分布的參數θ=[u, ∂]T了,對女生同理。但是,假如這200人,我們只能統計到其身高數據,但是沒有男女信息(其實就是面對200個樣本,抽取得到的每個樣本都不知道是從哪個分布抽取的,這對於深度學習的樣本分類很常見)。這個時候,我們需要對樣本進行兩個東西的猜測或者估計了。
EM演算法就可以解決這個問題。假設我們想估計知道A和B兩個參數,在開始狀態下二者都是未知的,但如果知道了A的信息就可以得到B的信息,反過來知道了B也就得到了A。可以考慮首先賦予A某種初值,以此得到B的估計值,然後從B的當前值出發,重新估計A的取值,這個過程一直持續到收斂為止。
在男女生身高分布的例子中,我們運用EM演算法的思想。首先隨便猜一下男生的高斯分布參數:均值和方差。假設均值是1.7米,方差是0.1米,然後計算出每個人更可能屬於第一個還是第二個正態分布中。這是第一步,Expectation。在分開了兩類之後,我們可以通過之前用的最大似然,通過這兩部分,重新估算第一個和第二個分布的高斯分布參數:均值和方差。這是第二步,Maximization。然後更新這兩個分布的參數。這是可以根據更新的分布,重新調整E(Expectation)步驟...如此往復,迭代到參數基本不再發生變化。
這里原作者提到了一個數學思維,很受啟發,轉給大家看一眼(比較雞湯和啰嗦,大家可以跳過)
這時候你就不服了,說你老迭代迭代的,你咋知道新的參數的估計就比原來的好啊?為什麼這種方法行得通呢?有沒有失效的時候呢?什麼時候失效呢?用到這個方法需要注意什麼問題呢?呵呵,一下子拋出那麼多問題,搞得我適應不過來了,不過這證明了你有很好的搞研究的潛質啊。呵呵,其實這些問題就是數學家需要解決的問題。在數學上是可以穩當的證明的或者得出結論的。那咱們用數學來把上面的問題重新描述下。(在這里可以知道,不管多麼復雜或者簡單的物理世界的思想,都需要通過數學工具進行建模抽象才得以使用並發揮其強大的作用,而且,這裡面蘊含的數學往往能帶給你更多想像不到的東西,這就是數學的精妙所在啊)
五、EM演算法的簡單理解方式
在提出EM演算法的推導過程之前,先提出中形象的理解方式,便於大家理解整個EM演算法,如果只是實現深度學習模型,個人認為可以不需要去看後面的演算法推導,看這個就足夠了。
坐標上升法(Coordinate ascent):
圖中的直線式迭代優化的途徑,可以看到每一步都會向最優值靠近,而每一步前進的路線都平行於坐標軸。那麼我們可以將其理解為兩個未知數的方程求解。倆個未知數求解的方式,其實是固定其中一個未知數,求另一個未知數的偏導數,之後再反過來固定後者,求前者的偏導數。EM演算法的思想,其實也是如此。使用坐標上升法,一次固定一個變數,對另外的求極值,最後逐步逼近極值。對應到EM上,E步:固定θ,優化Q;M步:固定Q,優化θ;交替將極值推向最大。
六、EM演算法推導
現在很多深度學習框架可以簡單調用EM演算法,實際上這一段大家可以不用看,直接跳過看最後的總結即可。但是如果你希望了解一些內部的邏輯,可以看一下這一段推導過程。
假設我們有一個樣本集{x(1),…,x(m)},包含m個獨立的樣本(右上角為樣本序號)。但每個樣本i對應的類別z(i)是未知的(相當於聚類),也即隱含變數。故我們需要估計概率模型p(x,z)的參數θ(在文中可理解為高斯分布),但是由於裡麵包含隱含變數z,所以很難用最大似然求解,但如果z知道了,那我們就很容易求解了。
首先放出似然函數公式,我們接下來對公式進行化簡:
對於參數估計,我們本質上的思路是想獲得一個使似然函數最大化的參數θ,現在多出一個未知變數z,公式(1)。那麼我們的目標就轉變為:找到適合的θ和z讓L(θ)最大。
對於多個未知數的方程分別對未知的θ和z分別求偏導,再設偏導為0,即可解方程。
因為(1)式是和的對數,當我們在求導的時候,形式會很復雜。
這里我們需要做一個數學轉化。我們對和的部分,乘以一個相等的函數,得到(2)式,利用Jensen不等式的性質,將(2)式轉化為(3)式。(Jensen不等式數學推到比較復雜,知道結果即可)
Note:
Jensen不等式表述如下:
如果f是凸函數,X是隨機變數,那麼:E[f(X)]>=f(E[X])
特別地,如果f是嚴格凸函數,當且僅當X是常量時,上式取等號。參考鏈接: https://blog.csdn.net/zouxy09/article/details/8537620
至此,上面的式(2)和式(3)不等式可以寫成:似然函數L(θ)>=J(z,Q),那麼我們可以通過不斷的最大化這個下界J(z,Q)函數,來使得L(θ)不斷提高,最終達到它的最大值。
現在,我們推導出了在固定參數θ後,使下界拉升的Q(z)的計算公式就是後驗概率,解決了Q(z)如何選擇的問題。這一步就是E步,建立L(θ)的下界。接下來的M步,就是在給定Q(z)後,調整θ,去極大化L(θ)的下界J(在固定Q(z)後,下界還可以調整的更大)。
總結而言
EM演算法是一種從不完全數據或有數據丟失的數據集(存在隱藏變數)中,求解概率模型參數的最大似然估計方法。
EM的演算法流程:
1>初始化分布參數θ;
重復2>, 3>直到收斂:
2>E步驟(Expectation):根據參數初始值或上一次迭代的模型參數來計算出隱性變數的後驗概率,其實就是隱性變數的期望。作為隱藏變數的現估計值:
3>M步驟(Maximization):將似然函數最大化以獲得新的參數值:
這個不斷迭代的過程,最終會讓E、M步驟收斂,得到使似然函數L(θ)最大化的參數θ。
在L(θ)的收斂證明:
Ⅸ 高斯混合模型GMM
最近在學習語音識別,由於傳統的基於HMM-GMM架構的語音識別具有成熟的理論、工具鏈,且其一直以來神秘感讓人十分好奇;所以我打算從傳統框架入手學習,並嘗試認真地弄懂相關技術;在看了一些語音識別相關簡介後,知道雖然GMM模型在很多年前,在」混合模型「(hybrid model)中就被DNN所取代了;甚至在當今深度學習背景下,HMM也有被完全取代的趨勢;但是從學習的角度,我覺得GMM仍然是很好的學習材料。
其中:D為數據空間的維數,K為混合分支個數
在 多元正態分布 文中,中我們證實了 的積分為1,在這里由積分的線性性質有:
所以需要 ,且為了保證概率都為正數,這里還要求 都大於0,這時 成為合法的密度函數。
下面關於參數的極大似然估計主要學習PRML書中的相關討論,這里我只是補充了一些推導過程中的數學細節,這些數學細節書上一般不會寫出來,所以這里我決定自己推推看,讓心裡更加踏實。
為了不至於使得下面ML估計的公式推導太亂,我們在這里提前把部分相關的導數計算好。
1. 設二次型為 ,其中 為D維列向量,而 為D階方陣,而 為點 處的切空間(tangent space)中的向量,根據下式:
顯然 是關於切空間中向量 的線性函數;且 顯然是關於 的高階部分,即當 時, 。
即:
以上便是函數的可微性定義,因而導數(雅可比矩陣)為: 。
進而,若 是對稱矩陣,則
2. 同樣是上面的二次型,這次我們把參數矩陣看作變數,即 ,有: ,寫成矩陣形式就有:
3. 行列式的求導,行列式函數: ,是n階實方陣空間上的實值函數;事實上我們直接將行列式看作原型是 的函數即可,因為這里我們關心的求導運算跟矩陣的代數運算沒有關系,因此可以忽略其結構;從線代課本可知有兩種方式定義行列式:
1)組合式定義: ,其中 是n階方陣, 是n元對稱群, 是其中任取的置換,也可以將 看作 的一個全排列,而 是全排列 的符號。
2)遞歸定義,按第k行展開:
其中: 是矩陣的第k行第j列元素, 是元素 對應的餘子式,而記 為元素 的代數餘子式。
在這里應該用遞歸定義比較方便,比如要對元素 求導: 來自第 行、第 列,又因為按照行列式的遞歸定義(3)式,同樣的第 行,但是不同的列 上的元素 的餘子式 顯然不會包括當前被求導元素 ,因為它不會包含第 行除了 以外的任何元素。因此,我們有:
即行列式關於第 元素的偏導數,就是該元素對應的代數餘子式。因此把所有的偏導數整理到矩陣裡面,就有:
其中 為 的伴隨矩陣的轉置。
再次,若 為對稱矩陣,且可逆,則根據公式 有: ,即 的伴隨矩陣也是對稱的。
現在我們用一組數據 來擬合GMM模型,假設數據之間是獨立的,則該組數據在模型上的對數似然為:
下面根據微分學計算該似然函數取得極大值的必要條件,由於需要滿足約束 ,根據Lagrange乘子法,求下面關於參數 的函數 的極大值點:
先對 求導 ,根據多元復合函數的鏈式求導法則,有:
,其中 為密度函數指數部分的二次型,即:
令 ,則: ,其中:根據之前的推導,雅可比矩陣 ,而雅可比矩陣 ,所以: 。
按照書中所說將 定義為 關於隱變數的後驗概率,則(6)式變為: ,寫成梯度形式,就有: ,令其等於 ,並利用 的非奇異性,兩邊同時左乘 ,將其解出來得:
下面對協方差矩陣求導: 為了保持一致,我們還是用 代替 作為行列式函數;但是這里為了方便,我們不直接對協方差矩陣求導,而是對其逆矩陣求導,我們令 ,重寫一遍(0)式:
在上式中,令 ,則根據乘法求導法則有:
其中,根據上面的(4)式有:
因為 是對稱矩陣,故而 也是對稱矩陣(由 易知),再利用上面證過的(5)式就得到了上式。
令其乘以 ,有:
再利用上面證好的(2)式,有:
其中:
同樣,令其乘以 ,有:
最後將(9),(10)兩式代入(8)式,整理整理就得到:
令其等於 ,且注意到 ,我們得到:
最後,我們對混合系數 求導:
我們發現其中: 與 只相差一個 ,令 ,並在等式兩邊同乘以 得:
現在,對一個特定的k,將 代入(11)式,得:
由於無法閉式求解,可以用EM演算法來迭代式地拉高數據在模型參數上的似然,抄一抄書本上的演算法,加深一下印象:
1. 初始化GMM所有分支的均值向量 、協方差矩陣 ,以及各分支的混合系數 ;
2. E Step : 固定當前模型參數,計算 ,即書上所說的分支 要為解釋數據 承擔的那部分責任,即後驗概率分布:
3. M Step : 利用當前的後驗概率分布,重新估計模型的所有參數:
4. 計算對數似然:
檢查參數或者對數似然值是否已經達到收斂條件;若否,返回第2步,繼續訓練。