谱聚类算法实现_谱聚类算法的划分准则

❶ 请问数据挖掘中谱聚类算法适合那些问题的聚类，适合xml文档聚类吗还有就是搜索引擎的搜索日志如何聚类

Spectral Clustering，中文通常称为“谱聚类”。由于使用的矩阵的细微差别，谱聚类实际上可以说是一“类”算法。

Spectral Clustering 和传统的聚类方法（例如 K-means）比起来有不少优点：

1）和 K-medoids 类似，Spectral Clustering 只需要数据之间的相似度矩阵就可以了，而不必像 K-means 那样要求数据必须是 N 维欧氏空间中的向量。

2）由于抓住了主要矛盾，忽略了次要的东西，因此比传统的聚类算法更加健壮一些，对于不规则的误差数据不是那么敏感，而且 performance 也要好一些。许多实验都证明了这一点。事实上，在各种现代聚类算法的比较中，K-means 通常都是作为 baseline 而存在的。

3）计算复杂度比 K-means 要小，特别是在像文本数据或者平凡的图像数据这样维度非常高的数据上运行的时候。

Spectral Clustering 算法的全貌：

1）根据数据构造一个 Graph ，Graph 的每一个节点对应一个数据点，将相似的点连接起来，并且边的权重用于表示数据之间的相似度。把这个 Graph 用邻接矩阵的形式表示出来，记为 W 。

2)把的每一列元素加起来得到N 个数，把它们放在对角线上（其他地方都是零），组成一个N*N的矩阵，记为D 。并令L = D - W 。

3)求出L的前k个特征值（在本文中，除非特殊说明，否则“前k个”指按照特征值的大小从小到大的顺序）以及对应的特征向量。

4)把这k个特征（列）向量排列在一起组成一个N*k的矩阵，将其中每一行看作k维空间中的一个向量，并使用 K-means 算法进行聚类。聚类的结果中每一行所属的类别就是原来 Graph 中的节点亦即最初的N个数据点分别所属的类别。

下面是Spectral Clustering 的一个简单的 Matlab 实现：

function idx = spectral_clustering(W, k)
D = diag(sum(W));
L = D-W;

opt = struct('issym', true, 'isreal', true);
[V mmy] = eigs(L, D, k, 'SM', opt);

idx = kmeans(V, k);
end
最后，我们再来看一下本文一开始说的 Spectral Clustering 的几个优点：

1）只需要数据的相似度矩阵就可以了。这个是显然的，因为 Spectral Clustering 所需要的所有信息都包含在W中。不过一般W并不总是等于最初的相似度矩阵——回忆一下，是我们构造出来的 Graph 的邻接矩阵表示，通常我们在构造 Graph 的时候为了方便进行聚类，更加强到“局部”的连通性，亦即主要考虑把相似的点连接在一起，比如，我们设置一个阈值，如果两个点的相似度小于这个阈值，就把他们看作是不连接的。另一种构造 Graph 的方法是将 n 个与节点最相似的点与其连接起来。

2)抓住了主要矛盾，忽略了次要的东西，Performance 比传统的 K-means 要好。实际上 Spectral Clustering 是在用特征向量的元素来表示原来的数据，并在这种“更好的表示形式”上进行 K-means 。

3)计算复杂度比 K-means 要小。这个在高维数据上表现尤为明显。例如文本数据，通常排列起来是维度非常高（比如，几千或者几万）的稀疏矩阵，对稀疏矩阵求特征值和特征向量有很高效的办法，得到的结果是一些 k 维的向量（通常 k 不会很大），在这些低维的数据上做 K-means 运算量非常小。但是对于原始数据直接做 K-means 的话，虽然最初的数据是稀疏矩阵，但是 K-means 中有一个求 Centroid 的运算，就是求一个平均值：许多稀疏的向量的平均值求出来并不一定还是稀疏向量，事实上，在文本数据里，很多情况下求出来的 Centroid 向量是非常稠密，这时再计算向量之间的距离的时候，运算量就变得非常大，直接导致普通的 K-means 巨慢无比，而 Spectral Clustering 等工序更多的算法则迅速得多的结果

❷ 谱聚类算法的划分准则

谱聚类算法将聚类问题转化为图的划分问题之后，基于图论的划分准则的优劣直接影响到聚类结果的好坏。常见的划分准则有Mini cut，Average cut，Normalized cut，Min-max cut，Ratio cut，MNcut等。 Mini cut准则容易出现分割出只包含几个顶点的较小子图的歪斜分割现象，Ratio cut和Normalized cut等在一定程度上可以避免这种现象，但是当类间重叠严重时歪斜分割现象仍旧会发生。Chris Ding等人提出的基于Min-max cut的图划分方法充分体现了“子图内部相似度最大，子图之间的相似度最小”原则，能够产生比较平衡划分。
上述五种划分都是不断地将图划分为2个子图的反复迭代运算过程，当划分函数的最小值满足一定的条件时迭代过程便会终止，相应的函数可以称为2-way划分函数。 Meilă和Xu[64]认为可以同时把图划分为k个子图并于2004年提出了一种k-way规范割目标函数，而且对于参数k的选取问题也作了分析说明。
我们可以发现当k=2时，MNcut与Ncut两者是等价的。

❸ citespace的研究方法有哪些

具体如下：

1、若要进行文本的内容分析，需要在运行主窗口中term sources 面板上选择“term”包含的范围，有四个数据来源可供选择，“title”、“abstract”、“descriptors””identifiers,如果选择题目或者摘要，还需要在“term selection”中选择“noun phrases”选项，此选项的功能是将题目和摘要中的名词短语抽取出来，进而可对这些名词短语进行特征词共现分析。

2、实际上在多少情况下并不需要对图谱进行修剪，只有在得到的图谱过于庞大和混乱时才使用。

3、时区内修剪和整个网络修剪，建议使用后者。

4、提供了三种可视化视图：聚类试图、时区视图和时间线视图。聚类视图侧重于不同研究领域的知识结构，时区视图更注重于描绘各研究主题随时间的演变趋势和相互影响，时间线视图更便于看出某个研究主题研究基础的时间跨度。Ps:时间线视图要用在citedrefernce分析。

5、citespace自动聚类的实现是依据谱聚类算法，谱聚类本身就是基于图论的一种算法，因此它对共引网络这种基于链接关系而不是节点属性的聚类具有天然的优势。传统的聚类算法，如K均值算法，EM算法等都是建立在凸球形的样本空间上，算法会陷入局部最优。谱聚类算法正是为了弥补上述算法的这一缺陷而产生的。

理论研究：

着眼于分析科学分析中蕴含的潜在知识、是在科学计量学、数据可视化背景下逐渐发展起来的一款引文可视化分析软件。

由于是通过可视化手段来呈现科学知识结构、规律和分布情况，所以得到的可视化图形也称为“科学知识图谱”它是把成千.上万的文章的关键词、作者、机构等按照重要性以图谱的形式呈现给大家，另外它还可以分析词频(可以做简单的词频分析。

但是做不了词性分析)，此外它还能发现任何领域文章的转折点研究热点，以及预测相关领域论文的前沿和趋势。对恪位研究学者做文献梳理有极大的帮助。

❹ 谱聚类算法的算法的新进展

Zha和Dhillon等人研究了基于二分图G=<X, Y, W>上的谱聚类，发现最小化目标函数可以等同于与二分图相关联的边权重矩阵的奇异值分解。
Meila和Shi将相似性解释为Markov链中的随机游动，分析了这种随机游动的概率转移矩阵P=DW的特征向量(W为相似度矩阵)，并且利用随机游动对Ncut进行了概率的解释，提出了基于随机游动的新的算法。同时，在这个解释框架下提出了多个特征相似矩阵组合下的谱聚类方法，在图像分割中取得了很不错的效果。
Cu等人分析了核k-means的方法，发现最小化核k-means的目标函数等同于一个由数据向量组成的Gram矩阵的迹最大化问题。同时，迹最大化问题的松散解可以通过Gram矩阵的部分特征分解获得，首次用谱松散的方法获得核k-means的目标函数的全局最优解。Dhillon[29]在此基础上，又研究了加权核k-means的目标函数，将其与Ncut目标函数建立联系，提出了一个可以单调递减Ncut值的新颖的加权核k-means算法。
Ncut是一个很好的聚类目标函数。它的求解是一个NP难问题。传统的方法是宽松的谱松散方法。Xing与Jordan[分析了对Ncut的半正定规划(SDP)模型。根据该模型，对Ncut提出了一个比谱松散更紧的下限。同时指出了Ncut本身不能得到最优的聚类，但它可以通过不同的松散方法获得合理的聚类。
谱聚类方法不仅用于无监督学习中，也用于有约束的半监督学习中。Kamvar等人将PageRank[32]的随机游动模型运用到相似度矩阵中，根据已知样本的类别修正相似度矩阵。然后根据谱聚类算法获得聚类结果。Bach与Jordan则是根据一个基于已知划分与Ncut谱松散结果的误差，提出了新的目标函数，通过最小化新的目标函数推出新的谱聚类算法。
王玲，薄列峰，焦李成认为在聚类搜索过程中充分利用先验信息会显着提高聚类算法的性能，并分析了在聚类过程中仅利用成对限制信息存在的不足，提出利用数据集本身固有空间一致性先验信息的具体方法。在经典的谱聚类算法中同时引入两类先验信息的基础上提出一种密度敏感的半监督谱聚类算法，两类先验信息在指导聚类搜索的过程中能够起到相辅相成的作用，使得算法相对于仅利用成对限制信息的聚类算法在聚类性能上有了显着的提高。
王娜，李霞提出了一种基于监督信息特性的主动学习策略，找出同一类中距离相对较远的数据对象对和不同类中距离相对较近的数据对象对组成监督信息并将其引入谱聚类算法，构建新颖的主动半监督谱聚类算法，结果优于采用随机选取监督信息的谱聚类性能。

❺ 谱聚类算法的面临的问题

尽管谱聚类具有坚实的理论基础，相对于其它聚类方法具有许多优势，在实践中的应用领域在不断扩展，取得了不错的效果[38]，但是它仍然需要改进，尤其在下述几个方面：如何创建相似度矩阵W，使其更加真实地反映数据点之间的近似关系，使得相近点之间的相似度更高，相异点之间的相似度更低，是谱聚类算法必须要解决的一个问题。高斯相似函数（Wij=exp(-||xi-xj||^2/2σ^2)）是经典谱聚类算法中计算两点间相似度的常用方法，虽然该函数使原始的谱聚类算法取得了一些成功，但尺度参数σ的选取问题使该函数具有明显的局限性。NJW算法[7]通过预先指定几个尺度参数σ的值，分别执行谱聚类，最后选取使聚类结果最好的σ作为参数，这种做法消除了尺度参数σ选取的人为因素，却增加了运算时间。
近年来，为了避免参数的选择问题，有学者提出在计算相似度时不使用高斯核函数。如Gong 等人[41]借鉴Wang Fei和Zhang Changshui[42]在半监督中使用的方法，将每个点的k 近邻对该点进行线性近似表示时所占的权重作为两点间的相似度。通过求n 个二次规划问题，就可以求得相似度矩阵W，降低了谱聚类算法对参数的敏感性，使算法更稳定。在谱聚类算法的聚类过程中需要求解矩阵的特征值与特征向量，求解非稀疏矩阵特征向量的复杂度O(n)，所以处理大规模数据集的时候，计算中形成的矩阵空间非常大，求解过程不但会非常耗时，而且所需要的内存空间也非常大，面临着内存溢出的危险，对计算机内存容量的要求变得较高。因此，如何提高算法的运行速度，降低运行所需的内存空间，减少算法运行的时间和空间代价是谱聚类算法在不断扩展应用领域的过程中所面临的另一关键问题。

❻ 谱聚类是什么

谱聚类：算法的一种。

算法简介
谱聚类算法建立在谱图理论基础上，与传统的聚类算法相比，它具有能在任意形状的样本空间上聚类且收敛于全局最优解的优点。
该算法首先根据给定的样本数据集定义一个描述成对数据点相似度的亲合矩阵,并且计算矩阵的特征值和特征向量，然后选择合适的特征向量聚类不同的数据点。谱聚类算法最初用于计算机视觉、VLS I 设计等领域，最近才开始用于机器学习中，并迅速成为国际上机器学习领域的研究热点。
谱聚类算法建立在图论中的谱图理论基础上，其本质是将聚类问题转化为图的最优划分问题，是一种点对聚类算法，对数据聚类具有很好的应用前景。

❼ 谱聚类算法的典型的算法

根据谱聚类算法所使用的划分准则，可以把算法分为二路谱聚类算法和多路谱聚类算法，前者使用2-way划分准则而后者使用k-way划分准则。 PF算法。Perona和Freeman提出用相似度矩阵W最大特征值所对应的特征向量进行聚类指出对于块对角相似矩阵，特征向量中非零值对应的点属于同一类，零值对应的点属于另外一类。
SM算法。Meliă指出Ncut和MNcut的差异之处仅在于所使用的谱映射不同。多路规范割集准则在实际应用中合理有效，但其优化问题通常难以解决。Shi和Malik认为第二小特征值对应的特征向量，即Fiedler向量包含了图的划分信息，根据启发式规则在此向量中寻找划分点i使在该点上得到的Ncut(A,B)值最小，最后把向量中的值与Ncut准则函数的最小值进行比较，大于等于该值的点划分为一类，小于该值的点则划分到另外一类。
SLH算法。SLH重定位算法计算相似度矩阵W的前k个特征向量，参数k需要事先指定。
KVV算法。根据启发式规则在Fiedler向量中寻找划分点i使在该点上得到的Rcut(A,B)值最小的划分点，与SM算法相似；不同之处仅在于SM算法是寻找使Ncut(A,B)值最小的划分点。虽然在实际问题中KVV算法存在运行速度相对较慢的缺陷，但是算法减少了过分割的可能性。
Mcut算法。Ding根据谱图理论将最小最大割集准则函数的最优化问题转化为下式的第二小特征值的求解。 NJW算法。Ng，Jordan等人选取拉普拉斯矩阵的前k个最大特征值对应的特征向量构造新的向量空间R，在这个新的空间内建起与原始数据的对应关系，然后进行聚类。
田铮和李小斌等人利用矩阵的扰动理论逐步分析了理想情形、分块情形和一般情形下权矩阵的谱和特征向量与聚类之间的关系[69]：顶点集合V的类内离散程度充分小而类间离散程度充分大时，V 中所有顶点可以划分成的数目与相似度矩阵W特征值中大于1的特征值的数目相等。同时特征值的大小可以在一定程度上反映每一类所包含顶点的个数。相似度矩阵W的前k个单位正交特征向量组成的矩阵X 的行向量之间的夹角可以用来计算两个顶点是否属于同一类，如果属于同一类，那么这对应的行向量接近于相互平行；反之对应的行向量接近于相互正交。理想情况中，V中两个顶点属于同一类时，相应的行向量相互平行；属于不同的类，相应的行向量相互正交。
MS算法[70]。Meilă把基于马尔可夫链随机游动过程的概率转移矩阵运用到相似度矩阵的构造中，研究了这种随机游动的概率转移矩阵的特征值和特征向量，在随机游动的框架下了对Ncut进行了概率解释。该算法是用随机游动矩阵P的前k个非零特征值对应的特征向量构造矩阵，然后将矩阵中的行看成R空间中的点进行聚类，步骤与NJW算法相似。MS算法在实际的图像分割中取得了良好的效果，但是度矩阵D中对角线元素值之间存在较大的差别时就会导致较差的聚类效果。

❽ 谱聚类算法的介绍

谱聚类算法建立在谱图理论基础上，与传统的聚类算法相比，它具有能在任意形状的样本空间上聚类且收敛于全局最优解的优点。该算法首先根据给定的样本数据集定义一个描述成对数据点相似度的亲合矩阵,并且计算矩阵的特征值和特征向量，然后选择合适的特征向量聚类不同的数据点。谱聚类算法最初用于计算机视觉、VLS I 设计等领域，最近才开始用于机器学习中，并迅速成为国际上机器学习领域的研究热点。谱聚类算法建立在图论中的谱图理论基础上，其本质是将聚类问题转化为图的最优划分问题，是一种点对聚类算法，对数据聚类具有很好的应用前景。

❾ matlab 求自适应谱聚类算法的代码

有一本书不错，《智能控制及其MATLAB实现》，李国勇，电子工业出版社
专讲神经网络与模糊控制，特别是有比较翔实的算法分析和算法实现（MATLAB）
其中就有模式识别与聚类方面的内容

❿ 如何用spark实现谱聚类

用spark做kmeans算法的例子,里边导入的数据总是有sample_linear_regression_data.txtsample_svm_data。

导航:首页 > 源码编译 > 谱聚类算法实现

谱聚类算法实现

与谱聚类算法实现相关的资料