高斯混合演算法在聚類當中的優勢_使用k-means聚類演算法的優點是什麼使用高斯混合模型聚類演算法的優點是什麼

㈠高斯混合模型擬合結果是什麼最優

EM演算法。
高斯混合模型擬合目標函數是和的對數，難以展開和對其求偏導。因此我們使用EM演算法來逐漸逼近最優解。
GMM假設每個簇的數據都是符合高斯分布的，當前數據呈現的分布就是各個簇的高斯分布疊加在一起的結果。

㈡高斯混合模型(GMM)和EM演算法

學號：20021110074 電院姓名：梁雪玲

【嵌牛導讀】：GMM與EM演算法的學習與推導。

【嵌牛鼻子】：GMM EM

【嵌牛提問】：GMM是什麼？EM演算法是什麼？二者之間的關系？演算法的推導？如何深入學習？

【嵌牛正文】：

在深度學習的路上，從頭開始了解一下各項技術。本人是DL小白，連續記錄我自己看的一些東西，大家可以互相交流。

本文參考：

http://www.ituring.com.cn/article/497545(GMM)

https://blog.csdn.net/xmu_jupiter/article/details/50889023(GMM)

http://www.cnblogs.com/wjy-lulu/p/7010258.html(EM演算法)

https://blog.csdn.net/zouxy09/article/details/8537620(EM演算法)

一、前言

    高斯混合模型(Gaussian Mixture Model)簡稱GMM，是一種業界廣泛使用的聚類演算法。它是多個高斯分布函數的線性組合，理論上GMM可以擬合出任意類型的分布，通常用於解決同一集合下的數據包含多種不同的分布的情況。高斯混合模型使用了期望最大(Expectation Maximization，簡稱EM)演算法進行訓練，故此我們在了解GMM之後，也需要了解如何通過EM演算法訓練(求解)GMM。

二、高斯混合模型(GMM)

在了解高斯混合模型之前，我們先了解一下這種模型的具體參數模型-高斯分布。高斯分布又稱正態分布，是一種在自然界中大量存在的，最為常見的分布形式。

    如上圖，這是一個關於身高的生態分布曲線，關於175-180對稱，中間高兩邊低，相信大家在高中已經很了解了，這里就不再闡述。

現在，我們引用《統計學習方法》-李航書中的定義，如下圖：

    根據定義，我們可以理解為，GMM是多個高斯分布的加權和，並且權重α之和等於1。這里不難理解，因為GMM最終反映出的是一個概率，而整個模型的概率之和為1，所以權重之和即為1。高斯混合模型實則不難理解，接下來我們介紹GMM的訓練(求解)方法。

PS.從數學角度看，對於一個概率模型的求解，即為求其最大值。從深度學習角度看，我們希望降低這個概率模型的損失函數，也就是希望訓練模型，獲得最大值。訓練和求解是不同專業，但相同目標的術語。

三、最大似然估計

想要了解EM演算法，我們首先需要了解最大似然估計這個概念。我們通過一個簡單的例子來解釋一下。

假設，我們需要調查學校男女生的身高分布。我們用抽樣的思想，在校園里隨機抽取了100男生和100女生，共計200個人(身高樣本數據)。我們假設整個學校的身高分布服從於高斯分布。但是這個高斯分布的均值u和方差∂2我們不知道，這兩個參數就是我們需要估計的值。記作θ=[u, ∂]T。

由於每個樣本都是獨立地從p(x|θ)中抽取的，並且所有的樣本都服從於同一個高斯分布p(x|θ)。那麼我們從整個學校中，那麼我抽到男生A（的身高）的概率是p(xA|θ)，抽到男生B的概率是p(xB|θ)。而恰好抽取出這100個男生的概率，就是每個男生的概率乘積。用下式表示：

這個概率反映了，在概率密度函數的參數是θ時，得到X這組樣本的概率。在公式中，x已知，而θ是未知，所以它是θ的函數。這個函數放映的是在不同的參數θ取值下，取得當前這個樣本集的可能性，因此稱為參數θ相對於樣本集X的似然函數（likehood function）。記為L(θ)。

我們先穿插一個小例子，來闡述似然的概念。

某位同學與一位獵人一起外出打獵，一隻野兔從前方竄過。只聽一聲槍響，野兔應聲到下，如果要你推測，這一發命中的子彈是誰打的？你就會想，只發一槍便打中，由於獵人命中的概率一般大於這位同學命中的概率，看來這一槍是獵人射中的。

      這個例子所作的推斷就體現了極大似然法的基本思想，我們並不知道具體是誰打的兔子，但是我們可以估計到一個看似正確的參數。回到男生身高的例子中。在整個學校中我們一次抽到這100個男生(樣本)，而不是其他的人，那麼我們可以認為這100個男生(樣本)出現的概率最大，用上面的似然函數L(θ)來表示。

所以，我們就只需要找到一個參數θ，其對應的似然函數L(θ)最大，也就是說抽到這100個男生（的身高）概率最大。這個叫做θ的最大似然估計量，記為：

因為L(θ)是一個連乘函數，我們為了便於分析，可以定義對數似然函數，運用對數的運算規則，把連乘轉變為連加：

PS.這種數學方法在MFCC中我們曾經用過，可以回溯一下上一篇文章。

此時，我們要求θ，只需要使θ的似然函數L(θ)極大化，然後極大值對應的θ就是我們的估計。在數學中求一個函數的最值問題，即為求導，使導數為0，解方程式即可(前提是函數L(θ)連續可微)。在深度學習中，θ是包含多個參數的向量，運用高等數學中的求偏導，固定其中一個變數的思想，即可求出極致點，解方程。

總結而言：

    最大似然估計，只是一種概率論在統計學的應用，它是參數估計的方法之一。說的是已知某個隨機樣本滿足某種概率分布，但是其中具體的參數不清楚，參數估計就是通過若干次試驗，觀察其結果，利用結果推出參數的大概值。最大似然估計是建立在這樣的思想上：已知某個參數能使這個樣本出現的概率最大，我們當然不會再去選擇其他小概率的樣本，所以乾脆就把這個參數作為估計的真實值。

    求最大似然函數估計值的一般步驟：

（1）寫出似然函數；

（2）對似然函數取對數，並整理；(化乘為加)

（3）求導數，令導數為0，得到似然方程；

（4）解似然方程，得到的參數即為所求。

四、EM演算法

期望最大(Expectation Maximization，簡稱EM)演算法，稱為機器學習十大演算法之一。它是一種從不完全數據或有數據丟失的數據集（存在隱含變數）中求解概率模型參數的最大似然估計方法。

現在，我們重新回到男女生身高分布的例子。我們通過抽取100個男生身高，並假設身高分布服從於高斯分布，我們通過最大化其似然函數，可以求的高斯分布的參數θ=[u, ∂]T了，對女生同理。但是，假如這200人，我們只能統計到其身高數據，但是沒有男女信息(其實就是面對200個樣本，抽取得到的每個樣本都不知道是從哪個分布抽取的，這對於深度學習的樣本分類很常見)。這個時候，我們需要對樣本進行兩個東西的猜測或者估計了。

    EM演算法就可以解決這個問題。假設我們想估計知道A和B兩個參數，在開始狀態下二者都是未知的，但如果知道了A的信息就可以得到B的信息，反過來知道了B也就得到了A。可以考慮首先賦予A某種初值，以此得到B的估計值，然後從B的當前值出發，重新估計A的取值，這個過程一直持續到收斂為止。

在男女生身高分布的例子中，我們運用EM演算法的思想。首先隨便猜一下男生的高斯分布參數:均值和方差。假設均值是1.7米，方差是0.1米，然後計算出每個人更可能屬於第一個還是第二個正態分布中。這是第一步，Expectation。在分開了兩類之後，我們可以通過之前用的最大似然，通過這兩部分，重新估算第一個和第二個分布的高斯分布參數:均值和方差。這是第二步，Maximization。然後更新這兩個分布的參數。這是可以根據更新的分布，重新調整E(Expectation)步驟...如此往復，迭代到參數基本不再發生變化。

這里原作者提到了一個數學思維，很受啟發，轉給大家看一眼(比較雞湯和啰嗦，大家可以跳過)

這時候你就不服了，說你老迭代迭代的，你咋知道新的參數的估計就比原來的好啊？為什麼這種方法行得通呢？有沒有失效的時候呢？什麼時候失效呢？用到這個方法需要注意什麼問題呢？呵呵，一下子拋出那麼多問題，搞得我適應不過來了，不過這證明了你有很好的搞研究的潛質啊。呵呵，其實這些問題就是數學家需要解決的問題。在數學上是可以穩當的證明的或者得出結論的。那咱們用數學來把上面的問題重新描述下。（在這里可以知道，不管多麼復雜或者簡單的物理世界的思想，都需要通過數學工具進行建模抽象才得以使用並發揮其強大的作用，而且，這裡面蘊含的數學往往能帶給你更多想像不到的東西，這就是數學的精妙所在啊）

五、EM演算法的簡單理解方式

在提出EM演算法的推導過程之前，先提出中形象的理解方式，便於大家理解整個EM演算法，如果只是實現深度學習模型，個人認為可以不需要去看後面的演算法推導，看這個就足夠了。

坐標上升法(Coordinate ascent):

圖中的直線式迭代優化的途徑，可以看到每一步都會向最優值靠近，而每一步前進的路線都平行於坐標軸。那麼我們可以將其理解為兩個未知數的方程求解。倆個未知數求解的方式，其實是固定其中一個未知數，求另一個未知數的偏導數，之後再反過來固定後者，求前者的偏導數。EM演算法的思想，其實也是如此。使用坐標上升法，一次固定一個變數，對另外的求極值，最後逐步逼近極值。對應到EM上，E步：固定θ，優化Q；M步：固定Q，優化θ；交替將極值推向最大。

六、EM演算法推導

現在很多深度學習框架可以簡單調用EM演算法，實際上這一段大家可以不用看，直接跳過看最後的總結即可。但是如果你希望了解一些內部的邏輯，可以看一下這一段推導過程。

假設我們有一個樣本集{x(1),…,x(m)}，包含m個獨立的樣本(右上角為樣本序號)。但每個樣本i對應的類別z(i)是未知的（相當於聚類），也即隱含變數。故我們需要估計概率模型p(x,z)的參數θ(在文中可理解為高斯分布)，但是由於裡麵包含隱含變數z，所以很難用最大似然求解，但如果z知道了，那我們就很容易求解了。

首先放出似然函數公式，我們接下來對公式進行化簡：

對於參數估計，我們本質上的思路是想獲得一個使似然函數最大化的參數θ，現在多出一個未知變數z，公式(1)。那麼我們的目標就轉變為：找到適合的θ和z讓L(θ)最大。

對於多個未知數的方程分別對未知的θ和z分別求偏導，再設偏導為0，即可解方程。

因為(1)式是和的對數，當我們在求導的時候，形式會很復雜。

    這里我們需要做一個數學轉化。我們對和的部分，乘以一個相等的函數，得到(2)式，利用Jensen不等式的性質，將(2)式轉化為(3)式。(Jensen不等式數學推到比較復雜，知道結果即可)

Note:

Jensen不等式表述如下：

如果f是凸函數，X是隨機變數，那麼：E[f(X)]>=f(E[X])

特別地，如果f是嚴格凸函數，當且僅當X是常量時，上式取等號。參考鏈接: https://blog.csdn.net/zouxy09/article/details/8537620

至此，上面的式（2）和式（3）不等式可以寫成：似然函數L(θ)>=J(z,Q)，那麼我們可以通過不斷的最大化這個下界J(z,Q)函數，來使得L(θ)不斷提高，最終達到它的最大值。

    現在，我們推導出了在固定參數θ後，使下界拉升的Q(z)的計算公式就是後驗概率，解決了Q(z)如何選擇的問題。這一步就是E步，建立L(θ)的下界。接下來的M步，就是在給定Q(z)後，調整θ，去極大化L(θ)的下界J（在固定Q(z)後，下界還可以調整的更大）。

總結而言

EM演算法是一種從不完全數據或有數據丟失的數據集(存在隱藏變數)中，求解概率模型參數的最大似然估計方法。

EM的演算法流程：

1>初始化分布參數θ；

重復2>, 3>直到收斂:

2>E步驟(Expectation):根據參數初始值或上一次迭代的模型參數來計算出隱性變數的後驗概率，其實就是隱性變數的期望。作為隱藏變數的現估計值：

    3>M步驟(Maximization):將似然函數最大化以獲得新的參數值：

這個不斷迭代的過程，最終會讓E、M步驟收斂，得到使似然函數L(θ)最大化的參數θ。

在L(θ)的收斂證明:

㈢如何用高斯混合模型 GMM 做聚類

當我們在做聚類任務時，
如果每一類的分布已知的話，那麼要求出每個樣本屬於哪一類，
只需要計算出它歸屬於 k 個不同簇的概率，然後選擇概率值最高的那個簇作為它最終的歸屬即可。

但很多時候，樣本分布的參數乃至概率密度函數的形式都是未知的
這時，我們通過設定一個目標，在優化目標的時候求出這些未知的參數。

在聚類這個問題中，我們希望達到的目標是：
第 i 個樣本 x(i) 之所以被歸屬到了第 k 個簇，是因為它在這一類的概率是所有類中概率最大的。

所以目標為最大化樣本集的集體概率：

這其實是一個似然函數，要優化它，可以用極大化對數似然函數的方法，所以取對數。
這裡面的每個 ϕ 都是一個獨立的概率密度函數形式，而 θ 是對應的參數集合，
這時 K 個分模型的概率分布都不相同——每個概率密度函數的形式不同，對應參數集合不同，參數本身又都是未知的，如果直接求解就會非常困難，

所以，這時我們可以把所有的 ϕ 都當作高斯分布即可。也就是說這些樣本分屬的模型對應的概率密度函數形式相同，參數類型也相同，只是參數的具體取值有所差別：

高斯分布（Gaussian Distribution），又名正態分布（Normal distribtion），它的密度函數如上圖公式所示。

現實生活中的許多自然現象都被發現近似地符合高斯分布，比如人類的壽命、身高、體重等，在金融、科研、工業等各個領域都有大量現實業務產生的數據被證明是符合高斯分布的。

這時就用到了高斯混合模型（GMM），
就是將若干個概率分布為高斯分布的分模型混合在一起的模型。

之所以可以把所有的 ϕ 都當作高斯分布，
是高斯分布有一個非常重要的性質：中心極限定理

中心極限定理：
在適當的條件下，大量相互獨立的隨機變數的均值經適當標准化後，依分布收斂於高斯分布，
即無論 xi 的自身分布是什麼，隨著 n 變大，這些樣本平均值經過標准化處理—後的分布，都會逐步接近高斯分布。

有了這個定理，當我們遇到一個問題的時候，如果對某一變數做定量分析時其確定的分布情況未知，只要掌握了大量的觀測樣本，都可以按照服從高斯分布來處理這些樣本。
例如我們要做一個聚類任務，無論原本每一簇自身的分布如何，我們都可以用高斯模型來近似表示它們。這個混合模型，就可以是一個高斯混合模型（GMM）

GMM 的學習目標為：

x(i) 是已經觀測到的樣本觀測數據，是已知的，zik 是未知的。
因為有沒被觀測到的隱變數存在，這樣的對數似然函數需要用 EM 演算法來優化。

用 EM 演算法學習 GMM 的參數分為4步：

各參數取初始值開始迭代；
E 步；
M 步；
重復 E 步和 M 步，直到收斂

E 步的任務是求 Q
M 步的任務是求 arg max Q

在 E 步，求出了 zik，代入 Q，得到 Q 只和參數 α，μ，σ 有關，
在 M 步，通過分別對各個自變數求偏導，再令導數為0，來求取 α，μ，σ 的極值點，
然後再帶回到函數中去求整體 arg max Q 的值。

㈣機器學習day15高斯混合模型

高斯混合模型（Gaussian Mixed Model，GMM）也是常見的聚類演算法。使用EM演算法進行迭代計算。高斯混合模型假設了每個簇的數據符合正態分布（高斯分布），當前的數據分布就是各個簇的高斯分布疊加在一起。

當數據明顯無法使用一個正態分布擬合的時候，這時候我們就需要推廣到多個正態分布的疊加，然後進行數據的擬合，這就是所謂的高斯混合模型，即採用多個正態分布函數的線性組合進行數據分布擬合，理論上，高斯混合模型可以擬合出任意類型的分布。

我們假設同一類的數據符合正態分布，不同簇的數據符合各自不同的正態分布。
我們需要計算每個正態分布的參數，均值和方差。我們還為每個正態分布添加一個參數代表權重，或者說生成數據的概率。

高斯混合模型是生成式的模型，例如，一種最簡單的情況。存在兩個一維正態分布的分模型為N(0,1)和N(5,1)，權重分別為0.7和0.3。那麼生成第一個數據點的時候，先按照權重的比例，隨機選擇一個分布，然後根據分模線參數進行隨機生成，之後第二...，直到生成所有的數據點。

一般情況下，我們無法直接得到高斯混合模型的參數，而是觀察一些數據點，給定一個大概的類別數量K，然後求出最佳的K個正態分布模型。因此，我們需要計算的是最佳的均值，方差和權重。

如果使用最大似然求解，必將極其復雜，因此我們使用EM演算法。

㈤單高斯模型SGM & 高斯混合模型GMM

在了解高斯混合模型之前，我們先來看看什麼是高斯分布，高斯分布大家應該都比較熟悉了，就是我們平時所說的正態分布，也叫高斯分布。正態分布是一個在數學、物理及工程等領域都非常重要的概率分布，在統計學的許多方面有著重大的影響力。

正態分布的特點
集中性：正態曲線的高峰位於正中央，即均數所在的位置。
對稱性：正態曲線以均數為中心，左右對稱，曲線兩端永遠不與橫軸相交。
均勻變動性：正態曲線由均數所在處開始，分別向左右兩側逐漸均勻下降。

若隨機變數服從一個數學期望為、方差為的正態分布，記為。其中期望值決定了其位置，標准差決定了分布的幅度。當 = 0， = 1時，正態分布是標准正態分布。

正態分布有極其廣泛的實際背景， 生產與科學實驗中很多隨機變數的概率分布都可以近似地用正態分布來描述 。例如，在生產條件不變的情況下，產品的強力、抗壓強度、口徑、長度等指標；同一種生物體的身長、體重等指標；同一種種子的重量；測量同一物體的誤差；彈著點沿某一方向的偏差；某個地區的年降水量；以及理想氣體分子的速度分量，等等。一般來說，如果一個量是由許多微小的獨立隨機因素影響的結果，那麼就可以認為這個量具有正態分布（見中心極限定理）。從理論上看，正態分布具有很多良好的性質，許多概率分布可以用它來近似；還有一些常用的概率分布是由它直接導出的，例如對數正態分布、t分布、F分布等。

高斯模型有單高斯模型（SGM）和混合高斯模型（GMM）兩種。

概率密度函數服從上面的正態分布的模型叫做單高斯模型，具體形式如下：

當樣本數據是一維數據（Univariate）時，高斯模型的概率密度函數為：

其中：為數據的均值，為數據的標准差。

當樣本數據是多維數據（Univariate）時，高斯模型的概率密度函數為：

其中：為數據的均值，為協方差，d為數據維度。

高斯混合模型（GMM）是單高斯概率密度函數的延伸，就是用多個高斯概率密度函數（正態分布曲線）精確地量化變數分布，是將變數分布分解為若干基於高斯概率密度函數（正態分布曲線）分布的統計模型。

用通俗一點的語言解釋就是，個單高斯模型混合在一起，生成的模型，就是高斯混合模型。這個子模型是混合模型的隱變數（Hidden variable）。一般來說，一個混合模型可以使用任何概率分布，這里使用高斯混合模型是因為高斯分布具備很好的數學性質以及良好的計算性能。

GMM是工業界使用最多的一種聚類演算法。它本身是一種概率式的聚類方法，假定所有的樣本數據X由K個混合多元高斯分布組合成的混合分布生成。

高斯混合模型的概率密度函數可以表示為：

其中：
是觀察數據屬於第個子模型的概率，；
是第個的單高斯子模型的概率密度函數，或
，具體函數見上方單高斯模型的概率密度函數。

參數估計有多種方法，有矩估計、極大似然法、一致最小方差無偏估計、最小風險估計、同變估計、最小二乘法、貝葉斯估計、極大驗後法、最小風險法和極小化極大熵法等。最基本的方法是最小二乘法和極大似然法。

極大似然估計的思想是 ：隨機試驗有多個可能的結果，但在一次試驗中，有且只有一個結果會出現，如果在某次試驗中，結果w出現了，則認為該結果發生的概率最大。

1）寫出似然函數：
假設單個樣本的概率函數為 ,對每個樣本的概率函數連乘，就可以得到樣本的似然函數

2）對似然函數取對數：

目的是為了讓乘積變成加法，方便後續運算

3）求導數，令導數為0，得到似然方程：
和在同一點取到最大值，所以可以通過對求導，令導數為零，實現同個目的

4）解似然方程，得到的參數即為所求

對於單高斯模型，可以使用極大似然估計（MLE）來求解出參數的值。

單高斯模型的對數似然函數為：

上式分別對和求偏導數，然後令其等於0，可以得到對應的參數估計值：

如果依然按照上面的極大似然估計方法求參數

GMM的對數似然函數為：

對上式求各個參數的偏導數，然後令其等於0，並且還需要附件一個條件：。
我們會發現，直接求導無法計算出參數。所以我們需要用其它方式去解決參數估計問題，一般情況下我們使用的是迭代的方法，用期望最大演算法（Expectation Maximization，EM）進行估計。

EM演算法的具體原理以及示例見我的另外一篇文章。

㈥高斯混合模型（GMM）及EM演算法的初步理解

高斯混合模型（Gaussian Mixed Model）指的是多個高斯分布函數的線性組合，理論上GMM可以擬合出任意類型的分布，通常用於解決同一集合下的數據包含多個不同的分布的情況（或者是同一類分布但參數不一樣，或者是不同類型的分布，比如正態分布和伯努利分布）。

如圖1，圖中的點在我們看來明顯分成兩個聚類。這兩個聚類中的點分別通過兩個不同的正態分布隨機生成而來。但是如果沒有GMM，那麼只能用一個的二維高斯分布來描述圖1中的數據。圖1中的橢圓即為二倍標准差的正態分布橢圓。這顯然不太合理，畢竟肉眼一看就覺得應該把它們分成兩類。

這時候就可以使用GMM了！如圖2，數據在平面上的空間分布和圖1一樣，這時使用兩個二維高斯分布來描述圖2中的數據，分別記為N(μ1,Σ1)和N(μ2,Σ2) 。圖中的兩個橢圓分別是這兩個高斯分布的二倍標准差橢圓。可以看到使用兩個二維高斯分布來描述圖中的數據顯然更合理。實際上圖中的兩個聚類的中的點是通過兩個不同的正態分布隨機生成而來。如果將兩個二維高斯分布N(μ1,Σ1)和N(μ2,Σ2) 合成一個二維的分布，那麼就可以用合成後的分布來描述圖2中的所有點。最直觀的方法就是對這兩個二維高斯分布做線性組合，用線性組合後的分布來描述整個集合中的數據。這就是高斯混合模型（GMM）。

高斯混合模型（GMM）的數學表示：

期望極大（Expectation Maximization）演算法，也稱EM演算法，是一種迭代演算法，由Dempster et. al 在1977年提出，用於含有隱變數的概率參數模型的極大似然估計。

EM演算法作為一種數據添加演算法，在近幾十年得到迅速的發展，主要源於當前科學研究以及各方面實際應用中數據量越來越大的情況下，經常存在數據缺失或者不可用的的問題，這時候直接處理數據比較困難，而數據添加辦法有很多種，常用的有神經網路擬合、添補法、卡爾曼濾波法等，但是EM演算法之所以能迅速普及主要源於它演算法簡單，穩定上升的步驟能相對可靠地找到「最優的收斂值」。

(個人的理解就是用含有隱變數的含參表達式不斷擬合，最終能收斂並擬合出不含隱變數的含參表達式)

模型的EM訓練過程，直觀的來講是這樣：我們通過觀察采樣的概率值和模型概率值的接近程度，來判斷一個模型是否擬合良好。然後我們通過調整模型以讓新模型更適配采樣的概率值。反復迭代這個過程很多次，直到兩個概率值非常接近時，我們停止更新並完成模型訓練。現在我們要將這個過程用演算法來實現，所使用的方法是模型生成的數據來決定似然值，即通過模型來計算數據的期望值。通過更新參數μ和σ來讓期望值最大化。這個過程可以不斷迭代直到兩次迭代中生成的參數變化非常小為止。該過程和k-means的演算法訓練過程很相似（k-means不斷更新類中心來讓結果最大化），只不過在這里的高斯模型中，我們需要同時更新兩個參數：分布的均值和標准差.[3]

GMM常用於聚類。如果要從 GMM 的分布中隨機地取一個點的話，實際上可以分為兩步：首先隨機地在這 K 個 Component 之中選一個，每個 Component 被選中的概率實際上就是它的系數Πk ，選中 Component 之後，再單獨地考慮從這個 Component 的分布中選取一個點就可以了──這里已經回到了普通的 Gaussian 分布，轉化為已知的問題。

根據數據來推算概率密度通常被稱作 density estimation 。特別地，當我已知（或假定）概率密度函數的形式，而要估計其中的參數的過程被稱作『參數估計』。

（推導和迭代收斂過程這里省略，可參考資料1）

一個實際的例子：用GMM對iris數據集進行聚類，並通過make_ellipses表示出來

make_ellipses方法概念上很簡單，它將gmm對象（訓練模型）、坐標軸、以及x和y坐標索引作為參數，運行後基於指定的坐標軸繪制出相應的橢圓圖形。

在特定條件下，k-means和GMM方法可以互相用對方的思想來表達。在k-means中根據距離每個點最接近的類中心來標記該點的類別，這里存在的假設是每個類簇的尺度接近且特徵的分布不存在不均勻性。這也解釋了為什麼在使用k-means前對數據進行歸一會有效果。高斯混合模型則不會受到這個約束，因為它對每個類簇分別考察特徵的協方差模型。

K-means演算法可以被視為高斯混合模型（GMM）的一種特殊形式。整體上看，高斯混合模型能提供更強的描述能力，因為聚類時數據點的從屬關系不僅與近鄰相關，還會依賴於類簇的形狀。n維高斯分布的形狀由每個類簇的協方差來決定。在協方差矩陣上添加特定的約束條件後，可能會通過GMM和k-means得到相同的結果。

在k-means方法中使用EM來訓練高斯混合模型時對初始值的設置非常敏感。而對比k-means，GMM方法有更多的初始條件要設置。實踐中不僅初始類中心要指定，而且協方差矩陣和混合權重也要設置。可以運行k-means來生成類中心，並以此作為高斯混合模型的初始條件。由此可見並兩個演算法有相似的處理過程，主要區別在於模型的復雜度不同。

高斯混合模型的基本假設是已知類別的比例和類別的個數，但是不知道每個樣例的具體標簽，據此用EM的模式為每個樣本進行最優的標注。也就是說它適合的是無標簽學習的分類問題，並且需要已知基本假設。

整體來看，所有無監督機器學習演算法都遵循一條簡單的模式：給定一系列數據，訓練出一個能描述這些數據規律的模型（並期望潛在過程能生成數據）。訓練過程通常要反復迭代，直到無法再優化參數獲得更貼合數據的模型為止。

【1】https://blog.csdn.net/jinping_shi/article/details/59613054 高斯混合模型（GMM）及其EM演算法的理解

【2】https://cloud.tencent.com/developer/news/231599 機器學習中的數學（4）-EM演算法與高斯混合模型（GMM）

【3】https://zhuanlan.hu.com/p/31103654 一文詳解高斯混合模型原理

㈦用於數據挖掘的聚類演算法有哪些，各有何優勢

聚類方法的分類，主要分為層次化聚類演算法，劃分式聚類演算法，基於密度的聚類演算法，基於網格的聚類演算法，基於模型的聚類演算法等。

而衡量聚類演算法優劣的標准主要是這幾個方面：處理大的數據集的能力；處理任意形狀，包括有間隙的嵌套的數據的能力；演算法處理的結果與數據輸入的順序是否相關，也就是說演算法是否獨立於數據輸入順序；處理數據雜訊的能力；是否需要預先知道聚類個數，是否需要用戶給出領域知識；演算法處理有很多屬性數據的能力，也就是對數據維數是否敏感。

.聚類演算法主要有兩種演算法，一種是自下而上法（bottom-up），一種是自上而下法（top-down）。這兩種路徑本質上各有優勢，主要看實際應用的時候要根據數據適用於哪一種，Hierarchical methods中比較新的演算法有BIRCH主要是在數據體量很大的時候使用；ROCK優勢在於異常數據抗干擾性強……

關於數據挖掘的相關學習，推薦CDA數據師的相關課程，課程以項目調動學員數據挖掘實用能力的場景式教學為主，在講師設計的業務場景下由講師不斷提出業務問題，再由學員循序漸進思考並操作解決問題的過程中，幫助學員掌握真正過硬的解決業務問題的數據挖掘能力。這種教學方式能夠引發學員的獨立思考及主觀能動性，學員掌握的技能知識可以快速轉化為自身能夠靈活應用的技能，在面對不同場景時能夠自由發揮。點擊預約免費試聽課。

㈧高斯混合聚類優缺點

距離和規則的相似度容易定義，限制少，不需要預先制定聚類數，可以發現類的層次關系，可以聚類成其它形狀。
1、需要對均值給出定義，需要指定要聚類的數目，對K值敏感。也就是說，K的選擇會較大程度上影響分類效果，對離群點和雜訊點敏感，一些過大的異常值會帶來很大影響，演算法對初始聚類中心選擇敏感。

㈨使用k-means聚類演算法的優點是什麼使用高斯混合模型聚類演算法的優點是什麼

高斯混合模型就是用高斯概率密度函數（正態分布曲線）精確地量化事物，它是一個將事物分解為若乾的基於高斯概率密度函數（正態分布曲線）形成的模型。高斯模型就是用高斯概率密度函數（正態分布曲線）精確地量化事物

㈩比較kmeans演算法和混合高斯模型，哪個模型的聚類效果更好

kmeans得到的index索引是一個列向量，假設聚類成類，則index中只有，，這幾個數

導航:首頁 > 源碼編譯 > 高斯混合演算法在聚類當中的優勢

高斯混合演算法在聚類當中的優勢

與高斯混合演算法在聚類當中的優勢相關的資料