高斯混合算法在聚类当中的优势_使用k-means聚类算法的优点是什么使用高斯混合模型聚类算法的优点是什么

㈠高斯混合模型拟合结果是什么最优

EM算法。
高斯混合模型拟合目标函数是和的对数，难以展开和对其求偏导。因此我们使用EM算法来逐渐逼近最优解。
GMM假设每个簇的数据都是符合高斯分布的，当前数据呈现的分布就是各个簇的高斯分布叠加在一起的结果。

㈡高斯混合模型(GMM)和EM算法

学号：20021110074 电院姓名：梁雪玲

【嵌牛导读】：GMM与EM算法的学习与推导。

【嵌牛鼻子】：GMM EM

【嵌牛提问】：GMM是什么？EM算法是什么？二者之间的关系？算法的推导？如何深入学习？

【嵌牛正文】：

在深度学习的路上，从头开始了解一下各项技术。本人是DL小白，连续记录我自己看的一些东西，大家可以互相交流。

本文参考：

http://www.ituring.com.cn/article/497545(GMM)

https://blog.csdn.net/xmu_jupiter/article/details/50889023(GMM)

http://www.cnblogs.com/wjy-lulu/p/7010258.html(EM算法)

https://blog.csdn.net/zouxy09/article/details/8537620(EM算法)

一、前言

    高斯混合模型(Gaussian Mixture Model)简称GMM，是一种业界广泛使用的聚类算法。它是多个高斯分布函数的线性组合，理论上GMM可以拟合出任意类型的分布，通常用于解决同一集合下的数据包含多种不同的分布的情况。高斯混合模型使用了期望最大(Expectation Maximization，简称EM)算法进行训练，故此我们在了解GMM之后，也需要了解如何通过EM算法训练(求解)GMM。

二、高斯混合模型(GMM)

在了解高斯混合模型之前，我们先了解一下这种模型的具体参数模型-高斯分布。高斯分布又称正态分布，是一种在自然界中大量存在的，最为常见的分布形式。

    如上图，这是一个关于身高的生态分布曲线，关于175-180对称，中间高两边低，相信大家在高中已经很了解了，这里就不再阐述。

现在，我们引用《统计学习方法》-李航书中的定义，如下图：

    根据定义，我们可以理解为，GMM是多个高斯分布的加权和，并且权重α之和等于1。这里不难理解，因为GMM最终反映出的是一个概率，而整个模型的概率之和为1，所以权重之和即为1。高斯混合模型实则不难理解，接下来我们介绍GMM的训练(求解)方法。

PS.从数学角度看，对于一个概率模型的求解，即为求其最大值。从深度学习角度看，我们希望降低这个概率模型的损失函数，也就是希望训练模型，获得最大值。训练和求解是不同专业，但相同目标的术语。

三、最大似然估计

想要了解EM算法，我们首先需要了解最大似然估计这个概念。我们通过一个简单的例子来解释一下。

假设，我们需要调查学校男女生的身高分布。我们用抽样的思想，在校园里随机抽取了100男生和100女生，共计200个人(身高样本数据)。我们假设整个学校的身高分布服从于高斯分布。但是这个高斯分布的均值u和方差∂2我们不知道，这两个参数就是我们需要估计的值。记作θ=[u, ∂]T。

由于每个样本都是独立地从p(x|θ)中抽取的，并且所有的样本都服从于同一个高斯分布p(x|θ)。那么我们从整个学校中，那么我抽到男生A（的身高）的概率是p(xA|θ)，抽到男生B的概率是p(xB|θ)。而恰好抽取出这100个男生的概率，就是每个男生的概率乘积。用下式表示：

这个概率反映了，在概率密度函数的参数是θ时，得到X这组样本的概率。在公式中，x已知，而θ是未知，所以它是θ的函数。这个函数放映的是在不同的参数θ取值下，取得当前这个样本集的可能性，因此称为参数θ相对于样本集X的似然函数（likehood function）。记为L(θ)。

我们先穿插一个小例子，来阐述似然的概念。

某位同学与一位猎人一起外出打猎，一只野兔从前方窜过。只听一声枪响，野兔应声到下，如果要你推测，这一发命中的子弹是谁打的？你就会想，只发一枪便打中，由于猎人命中的概率一般大于这位同学命中的概率，看来这一枪是猎人射中的。

      这个例子所作的推断就体现了极大似然法的基本思想，我们并不知道具体是谁打的兔子，但是我们可以估计到一个看似正确的参数。回到男生身高的例子中。在整个学校中我们一次抽到这100个男生(样本)，而不是其他的人，那么我们可以认为这100个男生(样本)出现的概率最大，用上面的似然函数L(θ)来表示。

所以，我们就只需要找到一个参数θ，其对应的似然函数L(θ)最大，也就是说抽到这100个男生（的身高）概率最大。这个叫做θ的最大似然估计量，记为：

因为L(θ)是一个连乘函数，我们为了便于分析，可以定义对数似然函数，运用对数的运算规则，把连乘转变为连加：

PS.这种数学方法在MFCC中我们曾经用过，可以回溯一下上一篇文章。

此时，我们要求θ，只需要使θ的似然函数L(θ)极大化，然后极大值对应的θ就是我们的估计。在数学中求一个函数的最值问题，即为求导，使导数为0，解方程式即可(前提是函数L(θ)连续可微)。在深度学习中，θ是包含多个参数的向量，运用高等数学中的求偏导，固定其中一个变量的思想，即可求出极致点，解方程。

总结而言：

    最大似然估计，只是一种概率论在统计学的应用，它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布，但是其中具体的参数不清楚，参数估计就是通过若干次试验，观察其结果，利用结果推出参数的大概值。最大似然估计是建立在这样的思想上：已知某个参数能使这个样本出现的概率最大，我们当然不会再去选择其他小概率的样本，所以干脆就把这个参数作为估计的真实值。

    求最大似然函数估计值的一般步骤：

（1）写出似然函数；

（2）对似然函数取对数，并整理；(化乘为加)

（3）求导数，令导数为0，得到似然方程；

（4）解似然方程，得到的参数即为所求。

四、EM算法

期望最大(Expectation Maximization，简称EM)算法，称为机器学习十大算法之一。它是一种从不完全数据或有数据丢失的数据集（存在隐含变量）中求解概率模型参数的最大似然估计方法。

现在，我们重新回到男女生身高分布的例子。我们通过抽取100个男生身高，并假设身高分布服从于高斯分布，我们通过最大化其似然函数，可以求的高斯分布的参数θ=[u, ∂]T了，对女生同理。但是，假如这200人，我们只能统计到其身高数据，但是没有男女信息(其实就是面对200个样本，抽取得到的每个样本都不知道是从哪个分布抽取的，这对于深度学习的样本分类很常见)。这个时候，我们需要对样本进行两个东西的猜测或者估计了。

    EM算法就可以解决这个问题。假设我们想估计知道A和B两个参数，在开始状态下二者都是未知的，但如果知道了A的信息就可以得到B的信息，反过来知道了B也就得到了A。可以考虑首先赋予A某种初值，以此得到B的估计值，然后从B的当前值出发，重新估计A的取值，这个过程一直持续到收敛为止。

在男女生身高分布的例子中，我们运用EM算法的思想。首先随便猜一下男生的高斯分布参数:均值和方差。假设均值是1.7米，方差是0.1米，然后计算出每个人更可能属于第一个还是第二个正态分布中。这是第一步，Expectation。在分开了两类之后，我们可以通过之前用的最大似然，通过这两部分，重新估算第一个和第二个分布的高斯分布参数:均值和方差。这是第二步，Maximization。然后更新这两个分布的参数。这是可以根据更新的分布，重新调整E(Expectation)步骤...如此往复，迭代到参数基本不再发生变化。

这里原作者提到了一个数学思维，很受启发，转给大家看一眼(比较鸡汤和啰嗦，大家可以跳过)

这时候你就不服了，说你老迭代迭代的，你咋知道新的参数的估计就比原来的好啊？为什么这种方法行得通呢？有没有失效的时候呢？什么时候失效呢？用到这个方法需要注意什么问题呢？呵呵，一下子抛出那么多问题，搞得我适应不过来了，不过这证明了你有很好的搞研究的潜质啊。呵呵，其实这些问题就是数学家需要解决的问题。在数学上是可以稳当的证明的或者得出结论的。那咱们用数学来把上面的问题重新描述下。（在这里可以知道，不管多么复杂或者简单的物理世界的思想，都需要通过数学工具进行建模抽象才得以使用并发挥其强大的作用，而且，这里面蕴含的数学往往能带给你更多想象不到的东西，这就是数学的精妙所在啊）

五、EM算法的简单理解方式

在提出EM算法的推导过程之前，先提出中形象的理解方式，便于大家理解整个EM算法，如果只是实现深度学习模型，个人认为可以不需要去看后面的算法推导，看这个就足够了。

坐标上升法(Coordinate ascent):

图中的直线式迭代优化的途径，可以看到每一步都会向最优值靠近，而每一步前进的路线都平行于坐标轴。那么我们可以将其理解为两个未知数的方程求解。俩个未知数求解的方式，其实是固定其中一个未知数，求另一个未知数的偏导数，之后再反过来固定后者，求前者的偏导数。EM算法的思想，其实也是如此。使用坐标上升法，一次固定一个变量，对另外的求极值，最后逐步逼近极值。对应到EM上，E步：固定θ，优化Q；M步：固定Q，优化θ；交替将极值推向最大。

六、EM算法推导

现在很多深度学习框架可以简单调用EM算法，实际上这一段大家可以不用看，直接跳过看最后的总结即可。但是如果你希望了解一些内部的逻辑，可以看一下这一段推导过程。

假设我们有一个样本集{x(1),…,x(m)}，包含m个独立的样本(右上角为样本序号)。但每个样本i对应的类别z(i)是未知的（相当于聚类），也即隐含变量。故我们需要估计概率模型p(x,z)的参数θ(在文中可理解为高斯分布)，但是由于里面包含隐含变量z，所以很难用最大似然求解，但如果z知道了，那我们就很容易求解了。

首先放出似然函数公式，我们接下来对公式进行化简：

对于参数估计，我们本质上的思路是想获得一个使似然函数最大化的参数θ，现在多出一个未知变量z，公式(1)。那么我们的目标就转变为：找到适合的θ和z让L(θ)最大。

对于多个未知数的方程分别对未知的θ和z分别求偏导，再设偏导为0，即可解方程。

因为(1)式是和的对数，当我们在求导的时候，形式会很复杂。

    这里我们需要做一个数学转化。我们对和的部分，乘以一个相等的函数，得到(2)式，利用Jensen不等式的性质，将(2)式转化为(3)式。(Jensen不等式数学推到比较复杂，知道结果即可)

Note:

Jensen不等式表述如下：

如果f是凸函数，X是随机变量，那么：E[f(X)]>=f(E[X])

特别地，如果f是严格凸函数，当且仅当X是常量时，上式取等号。参考链接: https://blog.csdn.net/zouxy09/article/details/8537620

至此，上面的式（2）和式（3）不等式可以写成：似然函数L(θ)>=J(z,Q)，那么我们可以通过不断的最大化这个下界J(z,Q)函数，来使得L(θ)不断提高，最终达到它的最大值。

    现在，我们推导出了在固定参数θ后，使下界拉升的Q(z)的计算公式就是后验概率，解决了Q(z)如何选择的问题。这一步就是E步，建立L(θ)的下界。接下来的M步，就是在给定Q(z)后，调整θ，去极大化L(θ)的下界J（在固定Q(z)后，下界还可以调整的更大）。

总结而言

EM算法是一种从不完全数据或有数据丢失的数据集(存在隐藏变量)中，求解概率模型参数的最大似然估计方法。

EM的算法流程：

1>初始化分布参数θ；

重复2>, 3>直到收敛:

2>E步骤(Expectation):根据参数初始值或上一次迭代的模型参数来计算出隐性变量的后验概率，其实就是隐性变量的期望。作为隐藏变量的现估计值：

    3>M步骤(Maximization):将似然函数最大化以获得新的参数值：

这个不断迭代的过程，最终会让E、M步骤收敛，得到使似然函数L(θ)最大化的参数θ。

在L(θ)的收敛证明:

㈢如何用高斯混合模型 GMM 做聚类

当我们在做聚类任务时，
如果每一类的分布已知的话，那么要求出每个样本属于哪一类，
只需要计算出它归属于 k 个不同簇的概率，然后选择概率值最高的那个簇作为它最终的归属即可。

但很多时候，样本分布的参数乃至概率密度函数的形式都是未知的
这时，我们通过设定一个目标，在优化目标的时候求出这些未知的参数。

在聚类这个问题中，我们希望达到的目标是：
第 i 个样本 x(i) 之所以被归属到了第 k 个簇，是因为它在这一类的概率是所有类中概率最大的。

所以目标为最大化样本集的集体概率：

这其实是一个似然函数，要优化它，可以用极大化对数似然函数的方法，所以取对数。
这里面的每个 ϕ 都是一个独立的概率密度函数形式，而 θ 是对应的参数集合，
这时 K 个分模型的概率分布都不相同——每个概率密度函数的形式不同，对应参数集合不同，参数本身又都是未知的，如果直接求解就会非常困难，

所以，这时我们可以把所有的 ϕ 都当作高斯分布即可。也就是说这些样本分属的模型对应的概率密度函数形式相同，参数类型也相同，只是参数的具体取值有所差别：

高斯分布（Gaussian Distribution），又名正态分布（Normal distribtion），它的密度函数如上图公式所示。

现实生活中的许多自然现象都被发现近似地符合高斯分布，比如人类的寿命、身高、体重等，在金融、科研、工业等各个领域都有大量现实业务产生的数据被证明是符合高斯分布的。

这时就用到了高斯混合模型（GMM），
就是将若干个概率分布为高斯分布的分模型混合在一起的模型。

之所以可以把所有的 ϕ 都当作高斯分布，
是高斯分布有一个非常重要的性质：中心极限定理

中心极限定理：
在适当的条件下，大量相互独立的随机变量的均值经适当标准化后，依分布收敛于高斯分布，
即无论 xi 的自身分布是什么，随着 n 变大，这些样本平均值经过标准化处理—后的分布，都会逐步接近高斯分布。

有了这个定理，当我们遇到一个问题的时候，如果对某一变量做定量分析时其确定的分布情况未知，只要掌握了大量的观测样本，都可以按照服从高斯分布来处理这些样本。
例如我们要做一个聚类任务，无论原本每一簇自身的分布如何，我们都可以用高斯模型来近似表示它们。这个混合模型，就可以是一个高斯混合模型（GMM）

GMM 的学习目标为：

x(i) 是已经观测到的样本观测数据，是已知的，zik 是未知的。
因为有没被观测到的隐变量存在，这样的对数似然函数需要用 EM 算法来优化。

用 EM 算法学习 GMM 的参数分为4步：

各参数取初始值开始迭代；
E 步；
M 步；
重复 E 步和 M 步，直到收敛

E 步的任务是求 Q
M 步的任务是求 arg max Q

在 E 步，求出了 zik，代入 Q，得到 Q 只和参数 α，μ，σ 有关，
在 M 步，通过分别对各个自变量求偏导，再令导数为0，来求取 α，μ，σ 的极值点，
然后再带回到函数中去求整体 arg max Q 的值。

㈣机器学习day15高斯混合模型

高斯混合模型（Gaussian Mixed Model，GMM）也是常见的聚类算法。使用EM算法进行迭代计算。高斯混合模型假设了每个簇的数据符合正态分布（高斯分布），当前的数据分布就是各个簇的高斯分布叠加在一起。

当数据明显无法使用一个正态分布拟合的时候，这时候我们就需要推广到多个正态分布的叠加，然后进行数据的拟合，这就是所谓的高斯混合模型，即采用多个正态分布函数的线性组合进行数据分布拟合，理论上，高斯混合模型可以拟合出任意类型的分布。

我们假设同一类的数据符合正态分布，不同簇的数据符合各自不同的正态分布。
我们需要计算每个正态分布的参数，均值和方差。我们还为每个正态分布添加一个参数代表权重，或者说生成数据的概率。

高斯混合模型是生成式的模型，例如，一种最简单的情况。存在两个一维正态分布的分模型为N(0,1)和N(5,1)，权重分别为0.7和0.3。那么生成第一个数据点的时候，先按照权重的比例，随机选择一个分布，然后根据分模线参数进行随机生成，之后第二...，直到生成所有的数据点。

一般情况下，我们无法直接得到高斯混合模型的参数，而是观察一些数据点，给定一个大概的类别数量K，然后求出最佳的K个正态分布模型。因此，我们需要计算的是最佳的均值，方差和权重。

如果使用最大似然求解，必将极其复杂，因此我们使用EM算法。

㈤单高斯模型SGM & 高斯混合模型GMM

在了解高斯混合模型之前，我们先来看看什么是高斯分布，高斯分布大家应该都比较熟悉了，就是我们平时所说的正态分布，也叫高斯分布。正态分布是一个在数学、物理及工程等领域都非常重要的概率分布，在统计学的许多方面有着重大的影响力。

正态分布的特点
集中性：正态曲线的高峰位于正中央，即均数所在的位置。
对称性：正态曲线以均数为中心，左右对称，曲线两端永远不与横轴相交。
均匀变动性：正态曲线由均数所在处开始，分别向左右两侧逐渐均匀下降。

若随机变量服从一个数学期望为、方差为的正态分布，记为。其中期望值决定了其位置，标准差决定了分布的幅度。当 = 0， = 1时，正态分布是标准正态分布。

正态分布有极其广泛的实际背景， 生产与科学实验中很多随机变量的概率分布都可以近似地用正态分布来描述 。例如，在生产条件不变的情况下，产品的强力、抗压强度、口径、长度等指标；同一种生物体的身长、体重等指标；同一种种子的重量；测量同一物体的误差；弹着点沿某一方向的偏差；某个地区的年降水量；以及理想气体分子的速度分量，等等。一般来说，如果一个量是由许多微小的独立随机因素影响的结果，那么就可以认为这个量具有正态分布（见中心极限定理）。从理论上看，正态分布具有很多良好的性质，许多概率分布可以用它来近似；还有一些常用的概率分布是由它直接导出的，例如对数正态分布、t分布、F分布等。

高斯模型有单高斯模型（SGM）和混合高斯模型（GMM）两种。

概率密度函数服从上面的正态分布的模型叫做单高斯模型，具体形式如下：

当样本数据是一维数据（Univariate）时，高斯模型的概率密度函数为：

其中：为数据的均值，为数据的标准差。

当样本数据是多维数据（Univariate）时，高斯模型的概率密度函数为：

其中：为数据的均值，为协方差，d为数据维度。

高斯混合模型（GMM）是单高斯概率密度函数的延伸，就是用多个高斯概率密度函数（正态分布曲线）精确地量化变量分布，是将变量分布分解为若干基于高斯概率密度函数（正态分布曲线）分布的统计模型。

用通俗一点的语言解释就是，个单高斯模型混合在一起，生成的模型，就是高斯混合模型。这个子模型是混合模型的隐变量（Hidden variable）。一般来说，一个混合模型可以使用任何概率分布，这里使用高斯混合模型是因为高斯分布具备很好的数学性质以及良好的计算性能。

GMM是工业界使用最多的一种聚类算法。它本身是一种概率式的聚类方法，假定所有的样本数据X由K个混合多元高斯分布组合成的混合分布生成。

高斯混合模型的概率密度函数可以表示为：

其中：
是观察数据属于第个子模型的概率，；
是第个的单高斯子模型的概率密度函数，或
，具体函数见上方单高斯模型的概率密度函数。

参数估计有多种方法，有矩估计、极大似然法、一致最小方差无偏估计、最小风险估计、同变估计、最小二乘法、贝叶斯估计、极大验后法、最小风险法和极小化极大熵法等。最基本的方法是最小二乘法和极大似然法。

极大似然估计的思想是 ：随机试验有多个可能的结果，但在一次试验中，有且只有一个结果会出现，如果在某次试验中，结果w出现了，则认为该结果发生的概率最大。

1）写出似然函数：
假设单个样本的概率函数为 ,对每个样本的概率函数连乘，就可以得到样本的似然函数

2）对似然函数取对数：

目的是为了让乘积变成加法，方便后续运算

3）求导数，令导数为0，得到似然方程：
和在同一点取到最大值，所以可以通过对求导，令导数为零，实现同个目的

4）解似然方程，得到的参数即为所求

对于单高斯模型，可以使用极大似然估计（MLE）来求解出参数的值。

单高斯模型的对数似然函数为：

上式分别对和求偏导数，然后令其等于0，可以得到对应的参数估计值：

如果依然按照上面的极大似然估计方法求参数

GMM的对数似然函数为：

对上式求各个参数的偏导数，然后令其等于0，并且还需要附件一个条件：。
我们会发现，直接求导无法计算出参数。所以我们需要用其它方式去解决参数估计问题，一般情况下我们使用的是迭代的方法，用期望最大算法（Expectation Maximization，EM）进行估计。

EM算法的具体原理以及示例见我的另外一篇文章。

㈥高斯混合模型（GMM）及EM算法的初步理解

高斯混合模型（Gaussian Mixed Model）指的是多个高斯分布函数的线性组合，理论上GMM可以拟合出任意类型的分布，通常用于解决同一集合下的数据包含多个不同的分布的情况（或者是同一类分布但参数不一样，或者是不同类型的分布，比如正态分布和伯努利分布）。

如图1，图中的点在我们看来明显分成两个聚类。这两个聚类中的点分别通过两个不同的正态分布随机生成而来。但是如果没有GMM，那么只能用一个的二维高斯分布来描述图1中的数据。图1中的椭圆即为二倍标准差的正态分布椭圆。这显然不太合理，毕竟肉眼一看就觉得应该把它们分成两类。

这时候就可以使用GMM了！如图2，数据在平面上的空间分布和图1一样，这时使用两个二维高斯分布来描述图2中的数据，分别记为N(μ1,Σ1)和N(μ2,Σ2) 。图中的两个椭圆分别是这两个高斯分布的二倍标准差椭圆。可以看到使用两个二维高斯分布来描述图中的数据显然更合理。实际上图中的两个聚类的中的点是通过两个不同的正态分布随机生成而来。如果将两个二维高斯分布N(μ1,Σ1)和N(μ2,Σ2) 合成一个二维的分布，那么就可以用合成后的分布来描述图2中的所有点。最直观的方法就是对这两个二维高斯分布做线性组合，用线性组合后的分布来描述整个集合中的数据。这就是高斯混合模型（GMM）。

高斯混合模型（GMM）的数学表示：

期望极大（Expectation Maximization）算法，也称EM算法，是一种迭代算法，由Dempster et. al 在1977年提出，用于含有隐变量的概率参数模型的极大似然估计。

EM算法作为一种数据添加算法，在近几十年得到迅速的发展，主要源于当前科学研究以及各方面实际应用中数据量越来越大的情况下，经常存在数据缺失或者不可用的的问题，这时候直接处理数据比较困难，而数据添加办法有很多种，常用的有神经网络拟合、添补法、卡尔曼滤波法等，但是EM算法之所以能迅速普及主要源于它算法简单，稳定上升的步骤能相对可靠地找到“最优的收敛值”。

(个人的理解就是用含有隐变量的含参表达式不断拟合，最终能收敛并拟合出不含隐变量的含参表达式)

模型的EM训练过程，直观的来讲是这样：我们通过观察采样的概率值和模型概率值的接近程度，来判断一个模型是否拟合良好。然后我们通过调整模型以让新模型更适配采样的概率值。反复迭代这个过程很多次，直到两个概率值非常接近时，我们停止更新并完成模型训练。现在我们要将这个过程用算法来实现，所使用的方法是模型生成的数据来决定似然值，即通过模型来计算数据的期望值。通过更新参数μ和σ来让期望值最大化。这个过程可以不断迭代直到两次迭代中生成的参数变化非常小为止。该过程和k-means的算法训练过程很相似（k-means不断更新类中心来让结果最大化），只不过在这里的高斯模型中，我们需要同时更新两个参数：分布的均值和标准差.[3]

GMM常用于聚类。如果要从 GMM 的分布中随机地取一个点的话，实际上可以分为两步：首先随机地在这 K 个 Component 之中选一个，每个 Component 被选中的概率实际上就是它的系数Πk ，选中 Component 之后，再单独地考虑从这个 Component 的分布中选取一个点就可以了──这里已经回到了普通的 Gaussian 分布，转化为已知的问题。

根据数据来推算概率密度通常被称作 density estimation 。特别地，当我已知（或假定）概率密度函数的形式，而要估计其中的参数的过程被称作‘参数估计’。

（推导和迭代收敛过程这里省略，可参考资料1）

一个实际的例子：用GMM对iris数据集进行聚类，并通过make_ellipses表示出来

make_ellipses方法概念上很简单，它将gmm对象（训练模型）、坐标轴、以及x和y坐标索引作为参数，运行后基于指定的坐标轴绘制出相应的椭圆图形。

在特定条件下，k-means和GMM方法可以互相用对方的思想来表达。在k-means中根据距离每个点最接近的类中心来标记该点的类别，这里存在的假设是每个类簇的尺度接近且特征的分布不存在不均匀性。这也解释了为什么在使用k-means前对数据进行归一会有效果。高斯混合模型则不会受到这个约束，因为它对每个类簇分别考察特征的协方差模型。

K-means算法可以被视为高斯混合模型（GMM）的一种特殊形式。整体上看，高斯混合模型能提供更强的描述能力，因为聚类时数据点的从属关系不仅与近邻相关，还会依赖于类簇的形状。n维高斯分布的形状由每个类簇的协方差来决定。在协方差矩阵上添加特定的约束条件后，可能会通过GMM和k-means得到相同的结果。

在k-means方法中使用EM来训练高斯混合模型时对初始值的设置非常敏感。而对比k-means，GMM方法有更多的初始条件要设置。实践中不仅初始类中心要指定，而且协方差矩阵和混合权重也要设置。可以运行k-means来生成类中心，并以此作为高斯混合模型的初始条件。由此可见并两个算法有相似的处理过程，主要区别在于模型的复杂度不同。

高斯混合模型的基本假设是已知类别的比例和类别的个数，但是不知道每个样例的具体标签，据此用EM的模式为每个样本进行最优的标注。也就是说它适合的是无标签学习的分类问题，并且需要已知基本假设。

整体来看，所有无监督机器学习算法都遵循一条简单的模式：给定一系列数据，训练出一个能描述这些数据规律的模型（并期望潜在过程能生成数据）。训练过程通常要反复迭代，直到无法再优化参数获得更贴合数据的模型为止。

【1】https://blog.csdn.net/jinping_shi/article/details/59613054 高斯混合模型（GMM）及其EM算法的理解

【2】https://cloud.tencent.com/developer/news/231599 机器学习中的数学（4）-EM算法与高斯混合模型（GMM）

【3】https://zhuanlan.hu.com/p/31103654 一文详解高斯混合模型原理

㈦用于数据挖掘的聚类算法有哪些，各有何优势

聚类方法的分类，主要分为层次化聚类算法，划分式聚类算法，基于密度的聚类算法，基于网格的聚类算法，基于模型的聚类算法等。

而衡量聚类算法优劣的标准主要是这几个方面：处理大的数据集的能力；处理任意形状，包括有间隙的嵌套的数据的能力；算法处理的结果与数据输入的顺序是否相关，也就是说算法是否独立于数据输入顺序；处理数据噪声的能力；是否需要预先知道聚类个数，是否需要用户给出领域知识；算法处理有很多属性数据的能力，也就是对数据维数是否敏感。

.聚类算法主要有两种算法，一种是自下而上法（bottom-up），一种是自上而下法（top-down）。这两种路径本质上各有优势，主要看实际应用的时候要根据数据适用于哪一种，Hierarchical methods中比较新的算法有BIRCH主要是在数据体量很大的时候使用；ROCK优势在于异常数据抗干扰性强……

关于数据挖掘的相关学习，推荐CDA数据师的相关课程，课程以项目调动学员数据挖掘实用能力的场景式教学为主，在讲师设计的业务场景下由讲师不断提出业务问题，再由学员循序渐进思考并操作解决问题的过程中，帮助学员掌握真正过硬的解决业务问题的数据挖掘能力。这种教学方式能够引发学员的独立思考及主观能动性，学员掌握的技能知识可以快速转化为自身能够灵活应用的技能，在面对不同场景时能够自由发挥。点击预约免费试听课。

㈧高斯混合聚类优缺点

距离和规则的相似度容易定义，限制少，不需要预先制定聚类数，可以发现类的层次关系，可以聚类成其它形状。
1、需要对均值给出定义，需要指定要聚类的数目，对K值敏感。也就是说，K的选择会较大程度上影响分类效果，对离群点和噪声点敏感，一些过大的异常值会带来很大影响，算法对初始聚类中心选择敏感。

㈨使用k-means聚类算法的优点是什么使用高斯混合模型聚类算法的优点是什么

高斯混合模型就是用高斯概率密度函数（正态分布曲线）精确地量化事物，它是一个将事物分解为若干的基于高斯概率密度函数（正态分布曲线）形成的模型。高斯模型就是用高斯概率密度函数（正态分布曲线）精确地量化事物

㈩比较kmeans算法和混合高斯模型，哪个模型的聚类效果更好

kmeans得到的index索引是一个列向量，假设聚类成类，则index中只有，，这几个数

导航:首页 > 源码编译 > 高斯混合算法在聚类当中的优势

高斯混合算法在聚类当中的优势

与高斯混合算法在聚类当中的优势相关的资料