pam算法聚类_如何运用聚类分析法

㈠某生活污水处理厂日处理污水2000吨，其污泥脱水采用阳离子PAM进行调节

根据经验估算：
1、每1万t污水产含水率80%污泥6t-10t（取6t）。
2、2000t污水每天产含水率80%污泥1.2t。
3、含水率为80%的污泥1.2t，那绝干污泥为1.2*（1-0.8）=0.24t。
4、PAM加药量估算：绝干污泥的2-3‰(取3‰)。2000t生活污水每天PAM使用量为：0.24t*0.003=0.00072t=0.72kg
5、PAM费用约2-30000元/t（取30000），污泥加药成本为：30000元/t*0.00072t=21.6元。
以上是经验算法，供参考。

㈡求英语达人翻译

The main body of a book cluster-algorithm applies PAM to the wine classification field , make use of the person to no sensitive , no easy to be affected by exceeding data , very effective against minor data collection characteristic of isolated point , wine is gathered for three do , partly sweet , sweet kinds , display and the classification giving a consumer , making a domestic consumer also can know wine very simplely visually.

㈢ PAM的算法简介

如今数据挖掘的理论越来越广泛的应用在商业、制造业、金融业、医药业、电信业等等许多领域。数据挖掘的目标之一是进行聚类分析。聚类就是把一组个体按照相似性归成若干类别，它的目的是使得属于同一类别的个体之间的差别尽可能的小，而不同种类别上的个体间的差别尽可能的大。PAM聚类算法是众多聚类算法的之一。PAM算法的优势在于：PAM算法比K-平均算法更健壮，对“噪声”和孤立点数据不敏感；它能够处理不同类型的数据点；它对小的数据集非常有效。

㈣如何运用聚类分析法

聚类分析法是理想的多变量统计技术，主要有分层聚类法和迭代聚类法。聚类通过把目标数据放入少数相对同源的组或“类”（cluster）里。分析表达数据，（1）通过一系列的检测将待测的一组基因的变异标准化，然后成对比较线性协方差。（2）通过把用最紧密关联的谱来放基因进行样本聚类，例如用简单的层级聚类（hierarchical clustering）方法。这种聚类亦可扩展到每个实验样本，利用一组基因总的线性相关进行聚类。（3）多维等级分析（multidimensional scaling analysis,MDS）是一种在二维Euclidean “距离”中显示实验样本相关的大约程度。（4）K-means方法聚类，通过重复再分配类成员来使“类”内分散度最小化的方法。

聚类方法有两个显着的局限：首先，要聚类结果要明确就需分离度很好（well-separated）的数据。几乎所有现存的算法都是从互相区别的不重叠的类数据中产生同样的聚类。但是，如果类是扩散且互相渗透，那么每种算法的的结果将有点不同。结果，每种算法界定的边界不清，每种聚类算法得到各自的最适结果，每个数据部分将产生单一的信息。为解释因不同算法使同样数据产生不同结果，必须注意判断不同的方式。对遗传学家来说，正确解释来自任一算法的聚类内容的实际结果是困难的（特别是边界）。最终，将需要经验可信度通过序列比较来指导聚类解释。

第二个局限由线性相关产生。上述的所有聚类方法分析的仅是简单的一对一的关系。因为只是成对的线性比较，大大减少发现表达类型关系的计算量，但忽视了生物系统多因素和非线性的特点。

从统计学的观点看，聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多着名的统计分析软件包中，如SPSS、SAS等。
从机器学习的角度讲，簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同，无监督学习不依赖预先定义的类或带类标记的训练实例，需要由聚类学习算法自动确定标记，而分类学习的实例或数据对象有类别标记。聚类是观察式学习，而不是示例式的学习。
从实际应用的角度看，聚类分析是数据挖掘的主要任务之一。就数据挖掘功能而言，聚类能够作为一个独立的工具获得数据的分布状况，观察每一簇数据的特征，集中对特定的聚簇集合作进一步地分析。
聚类分析还可以作为其他数据挖掘任务（如分类、关联规则）的预处理步骤。
数据挖掘领域主要研究面向大型数据库、数据仓库的高效实用的聚类分析算法。

聚类分析是数据挖掘中的一个很活跃的研究领域，并提出了许多聚类算法。
这些算法可以被分为划分方法、层次方法、基于密度方法、基于网格方法和
基于模型方法。
1 划分方法(PAM:PArtitioning method) 首先创建k个划分，k为要创建的划分个数；然后利用一个循环
定位技术通过将对象从一个划分移到另一个划分来帮助改善划分质量。典型的划分方法包括：
k-means,k-medoids,CLARA(Clustering LARge Application),
CLARANS(Clustering Large Application based upon RANdomized Search).
FCM
2 层次方法(hierarchical method) 创建一个层次以分解给定的数据集。该方法可以分为自上
而下（分解）和自下而上（合并）两种操作方式。为弥补分解与合并的不足，层次合
并经常要与其它聚类方法相结合，如循环定位。典型的这类方法包括：
第一个是;BIRCH(Balanced Iterative Recing and Clustering using Hierarchies) 方法，它首先利用树的结构对对象集进行划分；然后再利
用其它聚类方法对这些聚类进行优化。
第二个是CURE(Clustering Using REprisentatives) 方法，它利用固定数目代表对象来表示相应聚类；然后对各聚类按照指定
量（向聚类中心）进行收缩。
第三个是ROCK方法，它利用聚类间的连接进行聚类合并。
最后一个CHEMALOEN，它则是在层次聚类时构造动态模型。
3 基于密度方法，根据密度完成对象的聚类。它根据对象周围的密度（如
DBSCAN）不断增长聚类。典型的基于密度方法包括：
DBSCAN(Densit-based Spatial Clustering of Application with Noise):该算法通过不断生长足够高密
度区域来进行聚类；它能从含有噪声的空间数据库中发现任意形状的聚类。此方法将一个聚类定义
为一组“密度连接”的点集。
OPTICS(Ordering Points To Identify the Clustering Structure):并不明确产生一
个聚类，而是为自动交互的聚类分析计算出一个增强聚类顺序。。
4 基于网格方法，首先将对象空间划分为有限个单元以构成网格结构；然后利
用网格结构完成聚类。
STING(STatistical INformation Grid) 就是一个利用网格单元保存的统计信息进行基
于网格聚类的方法。
CLIQUE(Clustering In QUEst)和Wave-Cluster 则是一个将基于网格与基于密度相结合的方
法。
5 基于模型方法，它假设每个聚类的模型并发现适合相应模型的数据。典型的
基于模型方法包括：
统计方法COBWEB:是一个常用的且简单的增量式概念聚类方法。它的输入对象是采
用符号量（属性-值）对来加以描述的。采用分类树的形式来创建
一个层次聚类。
CLASSIT是COBWEB的另一个版本.。它可以对连续取值属性进行增量式聚
类。它为每个结点中的每个属性保存相应的连续正态分布（均值与方差）；并利
用一个改进的分类能力描述方法，即不象COBWEB那样计算离散属性（取值）
和而是对连续属性求积分。但是CLASSIT方法也存在与COBWEB类似的问题。
因此它们都不适合对大数据库进行聚类处理.

㈤请帮我翻译一下“文本聚类”的摘要

第二段:
Copies of as a cluster of machines unsupervised learning methods, clustering process because it does not require training, and not advance to the text manually tagging category, it must have the flexibility and high throughput automation, has become the text information effectively organize and summary and an important means of navigation, more and more research attention.
第三段:
This paper introced the text clustering basic knowledge and the general process of the realization of the three basic types of clustering algorithm : K-means clustering algorithm, PAM clustering algorithm and a simple rallying clustering algorithm. Papers on eight categories of the 1360 version for testing, comparison and analysis of the three advantages of clustering algorithm .

㈥ PAM的算法性能

(1) 消除了k-平均算法对于孤立点的敏感性。
(2) K-中心点方法比k-平均算法的代价要高
(3) 必须指定k
(4) PAM对小的数据集非常有效，对大数据集效率不高。特别是n和k都很大的时候。

㈦如何对混合型数据做聚类分析

如何对混合型数据做聚类分析
利用聚类分析，我们可以很容易地看清数据集中样本的分布情况。以往介绍聚类分析的文章中通常只介绍如何处理连续型变量，这些文字并没有过多地介绍如何处理混合型数据（如同时包含连续型变量、名义型变量和顺序型变量的数据）。本文将利用 Gower 距离、PAM（partitioning around medoids）算法和轮廓系数来介绍如何对混合型数据做聚类分析。
R语言
本文主要分为三个部分：
距离计算
聚类算法的选择
聚类个数的选择
为了介绍方便，本文直接使用 ISLR 包中的 College 数据集。该数据集包含了自 1995 年以来美国大学的 777 条数据，其中主要有以下几个变量：
连续型变量
录取率
学费
新生数量
分类型变量
公立或私立院校
是否为高水平院校，即所有新生中毕业于排名前 10% 高中的新生数量占比是否大于 50%
本文中涉及到的R包有：
In [3]:
set.seed(1680) # 设置随机种子，使得本文结果具有可重现性
library(dplyr)
library(ISLR)
library(cluster)
library(Rtsne)
library(ggplot2)

Attaching package: ‘dplyr’

The following objects are masked from ‘package:stats’:

filter, lag

The following objects are masked from ‘package:base’:

intersect, setdiff, setequal, union

构建聚类模型之前，我们需要做一些数据清洗工作：
录取率等于录取人数除以总申请人数
判断某个学校是否为高水平院校，需要根据该学校的所有新生中毕业于排名前 10% 高中的新生数量占比是否大于 50% 来决定

In [5]:

college_clean <- College %>%
mutate(name = row.names(.),
accept_rate = Accept/Apps,
isElite = cut(Top10perc,
breaks = c(0, 50, 100),
labels = c("Not Elite", "Elite"),
include.lowest = TRUE)) %>%
mutate(isElite = factor(isElite)) %>%
select(name, accept_rate, Outstate, Enroll,
Grad.Rate, Private, isElite)

glimpse(college_clean)

Observations: 777
Variables: 7
$ name (chr) "Abilene Christian University", "Adelphi University", "...
$ accept_rate (dbl) 0.7421687, 0.8801464, 0.7682073, 0.8369305, 0.7564767, ...
$ Outstate (dbl) 7440, 12280, 11250, 12960, 7560, 13500, 13290, 13868, 1...
$ Enroll (dbl) 721, 512, 336, 137, 55, 158, 103, 489, 227, 172, 472, 4...
$ Grad.Rate (dbl) 60, 56, 54, 59, 15, 55, 63, 73, 80, 52, 73, 76, 74, 68,...
$ Private (fctr) Yes, Yes, Yes, Yes, Yes, Yes, Yes, Yes, Yes, Yes, Yes,...
$ isElite (fctr) Not Elite, Not Elite, Not Elite, Elite, Not Elite, Not...
距离计算
聚类分析的第一步是定义样本之间距离的度量方法，最常用的距离度量方法是欧式距离。然而欧氏距离只适用于连续型变量，所以本文将采用另外一种距离度量方法—— Gower 距离。
Gower 距离
Gower 距离的定义非常简单。首先每个类型的变量都有特殊的距离度量方法，而且该方法会将变量标准化到[0,1]之间。接下来，利用加权线性组合的方法来计算最终的距离矩阵。不同类型变量的计算方法如下所示：
连续型变量：利用归一化的曼哈顿距离
顺序型变量：首先将变量按顺序排列，然后利用经过特殊调整的曼哈顿距离
名义型变量：首先将包含 k 个类别的变量转换成 k 个 0-1 变量，然后利用 Dice 系数做进一步的计算
优点：通俗易懂且计算方便
缺点：非常容易受无标准化的连续型变量异常值影响，所以数据转换过程必不可少；该方法需要耗费较大的内存
利用 daisy 函数，我们只需要一行代码就可以计算出 Gower 距离。需要注意的是，由于新生入学人数是右偏变量，我们需要对其做对数转换。daisy 函数内置了对数转换的功能，你可以调用帮助文档来获取更多的参数说明。

In [6]:

# Remove college name before clustering

gower_dist <- daisy(college_clean[, -1],
metric = "gower",
type = list(logratio = 3))

# Check attributes to ensure the correct methods are being used
# (I = interval, N = nominal)
# Note that despite logratio being called,
# the type remains coded as "I"

summary(gower_dist)

Out[6]:

301476 dissimilarities, summarized :
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0018601 0.1034400 0.2358700 0.2314500 0.3271400 0.7773500
Metric : mixed ; Types = I, I, I, I, N, N
Number of objects : 777

此外，我们可以通过观察最相似和最不相似的样本来判断该度量方法的合理性。本案例中，圣托马斯大学和约翰卡罗尔大学最相似，而俄克拉荷马科技和艺术大学和哈佛大学差异最大。

In [7]:

gower_mat <- as.matrix(gower_dist)

# Output most similar pair

college_clean[
which(gower_mat == min(gower_mat[gower_mat != min(gower_mat)]),
arr.ind = TRUE)[1, ], ]

Out[7]:

In [8]:

# Output most dissimilar pair

college_clean[
which(gower_mat == max(gower_mat[gower_mat != max(gower_mat)]),
arr.ind = TRUE)[1, ], ]

Out[8]:

聚类算法的选择

现在我们已经计算好样本间的距离矩阵，接下来需要选择一个合适的聚类算法，本文采用 PAM（partioniong around medoids）算法来构建模型：

PAM 算法的主要步骤：

随机选择 k 个数据点，并将其设为簇中心点
遍历所有样本点，并将样本点归入最近的簇中
对每个簇而言，找出与簇内其他点距离之和最小的点，并将其设为新的簇中心点
重复第2步，直到收敛

该算法和 K-means 算法非常相似。事实上，除了中心点的计算方法不同外，其他步骤都完全一致。

优点：简单易懂且不易受异常值所影响
缺点：算法时间复杂度为 O(n2)O(n2)

聚类个数的选择

我们将利用轮廓系数来确定最佳的聚类个数，轮廓系数是一个用于衡量聚类离散度的内部指标，该指标的取值范围是[-1,1]，其数值越大越好。通过比较不同聚类个数下轮廓系数的大小，我们可以看出当聚类个数为 3 时，聚类效果最好。

In [9]:

# Calculate silhouette width for many k using PAM

sil_width <- c(NA)

for(i in 2:10){

pam_fit <- pam(gower_dist,
diss = TRUE,
k = i)

sil_width[i] <- pam_fit$silinfo$avg.width

}

# Plot sihouette width (higher is better)

plot(1:10, sil_width,
xlab = "Number of clusters",
ylab = "Silhouette Width")
lines(1:10, sil_width)

聚类结果解释
描述统计量

聚类完毕后，我们可以调用 summary 函数来查看每个簇的汇总信息。从这些汇总信息中我们可以看出：簇1主要是中等学费且学生规模较小的私立非顶尖院校，簇2主要是高收费、低录取率且高毕业率的私立顶尖院校，而簇3则是低学费、低毕业率且学生规模较大的公立非顶尖院校。

In [18]:

pam_fit <- pam(gower_dist, diss = TRUE, k = 3)

pam_results <- college_clean %>%
dplyr::select(-name) %>%
mutate(cluster = pam_fit$clustering) %>%
group_by(cluster) %>%
do(the_summary = summary(.))

print(pam_results$the_summary)

[[1]]
accept_rate Outstate Enroll Grad.Rate Private
Min. :0.3283 Min. : 2340 Min. : 35.0 Min. : 15.00 No : 0
1st Qu.:0.7225 1st Qu.: 8842 1st Qu.: 194.8 1st Qu.: 56.00 Yes:500
Median :0.8004 Median :10905 Median : 308.0 Median : 67.50
Mean :0.7820 Mean :11200 Mean : 418.6 Mean : 66.97
3rd Qu.:0.8581 3rd Qu.:13240 3rd Qu.: 484.8 3rd Qu.: 78.25
Max. :1.0000 Max. :21700 Max. :4615.0 Max. :118.00
isElite cluster
Not Elite:500 Min. :1
Elite : 0 1st Qu.:1
Median :1
Mean :1
3rd Qu.:1
Max. :1

[[2]]
accept_rate Outstate Enroll Grad.Rate Private
Min. :0.1545 Min. : 5224 Min. : 137.0 Min. : 54.00 No : 4
1st Qu.:0.4135 1st Qu.:13850 1st Qu.: 391.0 1st Qu.: 77.00 Yes:65
Median :0.5329 Median :17238 Median : 601.0 Median : 89.00
Mean :0.5392 Mean :16225 Mean : 882.5 Mean : 84.78
3rd Qu.:0.6988 3rd Qu.:18590 3rd Qu.:1191.0 3rd Qu.: 94.00
Max. :0.9605 Max. :20100 Max. :4893.0 Max. :100.00
isElite cluster
Not Elite: 0 Min. :2
Elite :69 1st Qu.:2
Median :2
Mean :2
3rd Qu.:2
Max. :2

[[3]]
accept_rate Outstate Enroll Grad.Rate Private
Min. :0.3746 Min. : 2580 Min. : 153 Min. : 10.00 No :208
1st Qu.:0.6423 1st Qu.: 5295 1st Qu.: 694 1st Qu.: 46.00 Yes: 0
Median :0.7458 Median : 6598 Median :1302 Median : 54.50
Mean :0.7315 Mean : 6698 Mean :1615 Mean : 55.42
3rd Qu.:0.8368 3rd Qu.: 7748 3rd Qu.:2184 3rd Qu.: 65.00
Max. :1.0000 Max. :15516 Max. :6392 Max. :100.00
isElite cluster
Not Elite:199 Min. :3
Elite : 9 1st Qu.:3
Median :3
Mean :3
3rd Qu.:3
Max. :3

PAM 算法的另一个优点是各个簇的中心点是实际的样本点。从聚类结果中我们可以看出，圣弗朗西斯大学是簇1 的中心点，巴朗德学院是簇2 的中心点，而密歇根州州立大学河谷大学是簇3 的中心点。

In [19]:

college_clean[pam_fit$medoids, ]

Out[19]:

可视化方法

t-SNE 是一种降维方法，它可以在保留聚类结构的前提下，将多维信息压缩到二维或三维空间中。借助t-SNE我们可以将 PAM 算法的聚类结果绘制出来，有趣的是私立顶尖院校和公立非顶尖院校这两个簇中间存在一个小聚类簇。

In [22]:

tsne_obj <- Rtsne(gower_dist, is_distance = TRUE)

tsne_data <- tsne_obj$Y %>%
data.frame() %>%
setNames(c("X", "Y")) %>%
mutate(cluster = factor(pam_fit$clustering),
name = college_clean$name)

ggplot(aes(x = X, y = Y), data = tsne_data) +
geom_point(aes(color = cluster))

进一步探究可以发现，这一小簇主要包含一些竞争力较强的公立院校，比如弗吉尼亚大学和加州大学伯克利分校。虽然无法通过轮廓系数指标来证明多分一类是合理的，但是这 13 所院校的确显着不同于其他三个簇的院校。

In [25]:

tsne_data %>%
filter(X > 15 & X < 25,
Y > -15 & Y < -10) %>%
left_join(college_clean, by = "name") %>%
collect %>%
.[["name"]]

Out[25]:

‘Kansas State University’
‘North Carolina State University at Raleigh’
‘Pennsylvania State Univ. Main Campus’
‘SUNY at Buffalo’
‘Texas A&M Univ. at College Station’
‘University of Georgia’
‘University of Kansas’
‘University of Maryland at College Park’
‘University of Minnesota Twin Cities’
‘University of Missouri at Columbia’
‘University of Tennessee at Knoxville’
‘University of Texas at Austin’

㈧分子进化与小进化讲了不一样的故事，两者的区别和联系在哪里

分子进化(Molecular Evolution)(Molecular Evolution)(Molecular Evolution)(Molecular Evolution)与系统发育分析
系统发育学研究的是进化关系，系统发育分析就根据同源性状的分歧来推断或者评估这些进化关系。通过系统发育分析所推断出来的进化关系一般用分枝图(进化树) 来描述，这个进化树描述了分子(基因树)、物种以及二者之间遗传关系的谱系。由于“Glade”这个词(拥有共同祖先的同一谱系)在西腊文中的本意是分支，所以系统发育学有时被称为遗传分类学(cladistics) 。
在现代系统发育研究中，重点己不再是生物的形态学特征或其他特征，而是生物大分子尤其是序列，对序列的系统发育分析又称为分子系统学或分子系统发育研究。它的发展得益于大量序列的测定和分析程序的完善。比起许多其他实验性学科，分子系统学与其他进化研究一样有其局限，即系统发育的发生过程都是己经完成的历史，只能在拥有大量序列信息的基础上去推断过去曾经发生过什么，而不能再现。由于系统发育分析不太可能拥有实验基础，至多是些模拟实验或者病毒实验:如何处理序列从中得到有用信息、如何用计算的办法得到可信的系统树、如何从有限的数据得到进化模式成为这个领域的研究热点。
1进化树构建
构建进化树的方法包括两种:一类是基于序列类似性比较，主要是基于氨基酸/核酸相对突变率矩阵计算不同序列差异性积分作为它们的差异性量度而构建的进化树；另一类是在难以通过序列比较构建进化树的情况下，通过蛋白质结构比较包括刚体结构叠合和多结构特征比较等方法建立的进化树。
2评估进化树和数据
现在己经有一些程序可以用来评估数据中的系统发育信号和进化树的健壮性。对于前者，最流行的方法是用数据信号和随机数据作对比实验(偏斜和排列实验):对于后者，可以对观察到的数据重新取样，进行进化树的支持实验(非参数自引导和对折方法)。似然比例实验可以对取代模型和进化树都进行评估。本文只阐述几个常用的方法：
偏斜实验(Skewness Test)：统计的临界值随着分类群数口的不同和序列中点的不同而不同，对随机数据集呈现的信号很敏感，可以用来决定系统发育信号是否保留着。
排列实验(PTP, permutation tail probability)：对MP树的分值和那些通过对每一个位点都进行大量排列组合而得到的数据所推算出来的进化树的分值进行比较，从而决定在原始数据中是否存在系统发育信号。
自引导评估(bootstrap )： Bootstrap是由Felsenstein （1985）引入分子分类领域的，现己成为分析分子树置信区间最常用的方法。其原理是假定某序列Ao有N个位点，Bootstrap复制时从Ao中随机取N个位点。Ao中的某些位点可能被随机遗漏，而某些位点则可能取到不仅一次，由此组成一个新序列A1。对一组数据复制n次，则可得到Ao衍生的n组数据。由此可构建n个分子树，根据“多数规则”( majority rule)从这n个分子树中统计得到一致树(consensus tree )，一致树中各分支结构在n个分子树中出现的比率便表示原始数据对该结构的支持率。
可以对任何建树方法进行评估。模拟研究表明，在合适的条件下也就是各种替换速率基本相等，树枝基本对称的条件下，如果自引导数值大于70，那么所得的系统发育进化树能够反映真实的系统发生史的可能性要大于95 % 。
3 线性树(Linearized Tree)
在进化中，虽然核酸或氨基酸的替代绝不会是严格恒定的，但是在估计序列间分歧时间方面，分子钟依然有用。当今我们对物种间的分歧时间或基因重复事件发生的时间仍知之甚少，因此为了理解进化过程，即便粗略地估计分歧时间也是十分重要的。排除比平均速率显着慢或快的谱系，并对剩余的谱系按分子钟假说构建进化树，就有可能估计不同谱系对间或不同序列对间粗略的分歧时间。按此途径构建的树称为线性树。线性树始终遵循分子钟假说。线性树的构建分如下几个步骤：（1）用无需速率恒定假说的构树法对一组序列构建可靠的树，并用外类群序列定出树根。（2）对所用序列检验速率恒定假说，并删除与平均速率有显着偏差的序列。 (3)用速率恒定假说对剩余的序列重建一棵系统树。（4）如果己知某一序列对的分歧时间和序列分歧度，则能标定进化时间。
进化树的构建方法
1 建立数据模型
建立一个比对模型的基本步骤包括：选择合适的比对程序，然后从比对结果中提取系统发育的数据集，至于如何提取有效数据，取决于所选择的建树程序如何处理容易引起歧义的比对区域和插入/删除序列(即所谓的空位状态)。一个典型的比对过程包括：首先应用CLUSTALW程序及类似程序，进行多序列比对，最后提交给一个建树程序。这个过程有如下特征选项：①部分依赖于计算机；②需要一个先验的系统发育标准(即需要一个前导树);③使用先验评估方法和动态评估方法对比对参数进行评估；④对基本结构(序列)进行比对；⑤应用非统计数学优化。这些特征选项的取舍依赖于系统发育分析方法。
2 决定替代模型
替代模型既影响比对，也影响建树。因此需要采用递归方法。对于核酸数据而言，可以通过替代模型中的两个要素进行计算机评估，但是对于氨基酸和密码子数据而言，没有什么评估方案，其中一个要素是碱基之间相互替代的模型。另外一个要素是序列中不同位点的所有替代的相对速率。还没有一种简单的计算机程序可以对较复杂的变量(比如，位点特异性或者系统特异性替代模型)进行评估，同样，现有的建树软件也不可能理解这些复杂变量。
（1）碱基取代模型。
一般而言，生物化学性质相近的碱基之间的取代频率较高。在DNA中，四种转换(A→G，G→A,C→T,T→C)的频率比颠换(A→C,A→T,C→G，G→T)以及它们的反向取代的频率要高。这些偏向会影响两个序列之间的预计分歧。各残基之间的相对取代速率一般用矩阵形式给出：对碱基而言，行和列都是4，对于氨基酸，行和列都是20(如PAM矩阵)。对于密码子，行和列都是61(除去终止密码子)。矩阵中对角元素代表不同序列拥有相同碱基的代价，非对角线元素对应于一个碱基变为另一个碱基的相对代价。固定的代价矩阵就是典型的静态权重矩阵，MP法中使用的就是这种，如图5。又如在ML法中，代价值是山即时的速率矩阵得到，如图6，这个矩阵代表了各种取代可能会发生的概率的ML估计值。
图6中，非对角线兀素an代表一个变化的瞬时速率、不同取代之间的相对速率和目标碱基的频率。而对角线兀素是非零值，很有效说明了一种可能性，即序列之间的分歧度越大，越有可能在很偶然的情况下拥有相同的碱基。还有一种模型称为“时间可逆”，认为“前进”和“进化”的取代速率相同。任何一种“时间可逆”的核葺酸取代模型都可以用图2-5的矩阵来刻画，只用其中任何一个速率和其他任何速率的差异即可，在任意组合中，最多可达6个参数，每个速率参数都是独立的。图5 权重矩阵
（2）位点之间取代速率模型。
除了前面取代模型的多元化外，序列中各个不同位点之间的取代速率差异也会对进化树的结果产生深远影响。关于位点之间的速率差异(位点异质性)，一个最明显的例子就是在三联体编码中，第三个编码位点比前两个更加容易发生变化。在分析编码序列时，许多发育分析都会将第三个位点排除:然而在某些情况下，速率差异模型会更加敏锐，如rRNA的保守序列。对位点差异的取代速率予以估值的方法有非参数模型、不变式模型和Gamma模型。非参数模型在MP法中使用，对ML法被认为在计算上不可行。不变式模型对一定比例的位点进行估值，而这些位点不能自由变化，其余的位点假定为等概率变化。Gamma模型假定一给定序列变化的概率服从Gamma分布，据此指定位点的取代概率。Gamma分布的形状决定于其参数，描述了一个序列中各个位点的取代频率分布。目前DNA的替代模型有十种之多，再加上不变位点参数和形状分布参数。Gamma，模型更有几十种之多, 几种有代表性的替代模型是JC, F81, K80, HKY和GTR。
（3）取代模型的选择
最好的取代模型并不一定总是拥有最多参数的模型。因为对每一个参数进行估值都会引入一个相关变量，从而使整体的变数增加，有时甚至会对模型起到抑制作用。在PAt中可以对DNA序列的取代模型进行规范一个较好的策略，使用似然法同时评估几个，可逆的取代速率、gamma分布的形状参数和不变位点的比例。通过估算的取代参数，可以通过比较较多参数和较少参数分别评估得到的似然分值，决定一个简化的模型是否合理。目前较好的选择模型方法是似然比检验(LikelihoodRatio Test)
3建树方法
目前,三种主要的建树方法分别是距离法(如Neighbor joining , NJ) 、最大简约（Maximum parsimony, MP ）和最大似然(Maximum likelihood ML)。最大似然方法考察数据中序列的多重比对结果，优化出拥有一定拓扑结构和树枝长度的进化树，这个进化树能够以最大的概率导致考察的多重比对结果。距离法考察数据组中所有序列的两两比对结果，通过序列两两之间的差异决定进化树的拓扑结构和树枝长度。最大简约方法考察数据组中序列的多重比对结果，优化出的进化树能够利用最少的离散步骤去解释多重比对中的碱基差异。距离方法简单地计算两个序列的差异数量。这个数量被看作进化距离，而其准确大小依赖于进化模型的选择。然后运行一个聚类算法，从最相似(也就是说，两者间的距离最短)的序列开始，通过距离值方阵计算出实际的进化树，或者通过将总的树枝长度最小化而优化出进化树。
用最大节约方法搜索进化树的原理是要求用最小的改变来解释所要研究的分类群之间的观察到的差异。最大似然方法是评估所选定的进化模型能够产生实际观察到的数据的可能性。进化模型可能只是简单地假定所有核苷酸(或者氨基酸)之间相互转变的概率一样。程序会把所有可能的核苷酸轮流置于进化树的内部节点上，并且计算每一个这样的序列产生实际数据的可能性(如果两个姐妹分类群都有核苷酸+ A‑，那么，如果假定原先的核苷酸是“C"，得到现在的“A-’的.可能性比起假定原先就是“A+’的可能性要小得多)。所有可能的再现(不仅仅是比较可能的再现)的几率被加总，产生一个特定位点的似然值，然后这个数据集的所有比对位点的似然值的加和就是整个进化树的似然值。
4 进化树搜索
单一的进化树的数量会随着分类群数量的增长而呈指数增长，从而变为一个天文数字。由于计算能力的限制，现在一般只允许对很小一部分可能的进化树进行搜索。具体的数量主要依赖于分类群的数量、优化标准、参数设定、数据结构、计算机硬件以及计算机软件。
现在有两种搜索方法保证可以找到最优化的进化树：穷举法(exhaustivealgorithms)和树枝一跳跃法(BB, branch -and-band)。对于一个很大的数据集，这两种方法都很不实用。对分类群数量的限制主要取决于数据结构和计算机速度，但是对于超过20个分类群的数据集，BB方法很少会得到应用。穷举法要根据优化标准，对每一个可能的进化树进行评估。BB方法提供一个逻辑方法，以确定哪些进化树值得评估，而另一些进化树可被简单屏蔽。因此BB方法通常要比穷举法快得多。
绝大多数分析方法都使用“启发式”的搜索。启发式算法(heuristic algorithms搜索出相近的次优化的进化树家族(“岛屿”)，然后从中得到优化解(“山顶”)。不同的算法用不同程度的精确性搜索这些岛屿和山顶。最彻底也是最慢的程序(TBR, treebisection-reconnection，进化树对分重接)先把进化树在每一个内部树枝处劈开，然后以任意方式将劈开的碎片重新组合起来。最快的算法(NNI , nearest-neighborinterchange)只是检查一下相邻终端的不太重要的重新组合。因此，倾向于找到最近的岛屿的山顶。
降低搜索代价的最好方法是对数据集进行剪除。影响优化搜索策略选择的因素(数据量数据结构，时间量，硬件，分析口的)太复杂，无法推荐一个简单可行的处方。因此，进行搜索的用户必须对数据非常熟悉且有明确的口标，了解各种各样的搜索程序及自己硬件设备和软件的能力。
除上述当前应用最广的方法外，还有大量的建立和搜索进化树的其它方法。这些方法包括Wagner距离方法和亲近方法(距离转化方法):Lake的不变式方法(一个基于特征符的方法，它选择的拓扑结构包含一个意义重大的正数以支持颠换)：Hadamard结合方法(一个精细的代数方阵方法，对距离数据或者观察到的特征符进行修正):裂解方法(这个方法决定在数据中应该支持哪一个基于距离的.IJ选的拓扑结构):四重奏迷惑（Quartet puzzling)方法，该法，可以为ML,建树方法所应用，这个算法相对而言是个较快的进化树搜索算法。
5 确定树根
上述的建树方法所产生的都是无根树(进化树没有进化的极性)。为了评估进化假说，通常必须要确定进化树的树根。确定系统发育进化树的树根并不是个简单问题。一种确定树根的好方法就是分析时加入一个复制的基因。如果来自绝大多数物种或者所有物种的所有的平行基因在分析时都被包含进去，那么从逻辑上我们就可以把进化树的树根定位于平行基因进化树的交汇处，当然要假定在所有进化树中都没有长树枝问题。

㈨什么叫层次聚类分析

聚类通过把目标数据放入少数相对同源的组或“类”（cluster）里。分析表达数据，（1）通过一系列的检测将待测的一组基因的变异标准化，然后成对比较线性协方差。（2）通过把用最紧密关联的谱来放基因进行样本聚类，例如用简单的层级聚类（hierarchical clustering）方法。这种聚类亦可扩展到每个实验样本，利用一组基因总的线性相关进行聚类。（3）多维等级分析（multidimensional scaling analysis,MDS）是一种在二维Euclidean “距离”中显示实验样本相关的大约程度。（4）K-means方法聚类，通过重复再分配类成员来使“类”内分散度最小化的方法。
聚类方法有两个显着的局限：首先，要聚类结果要明确就需分离度很好（well-separated）的数据。几乎所有现存的算法都是从互相区别的不重叠的类数据中产生同样的聚类。但是，如果类是扩散且互相渗透，那么每种算法的的结果将有点不同。结果，每种算法界定的边界不清，每种聚类算法得到各自的最适结果，每个数据部分将产生单一的信息。为解释因不同算法使同样数据产生不同结果，必须注意判断不同的方式。对遗传学家来说，正确解释来自任一算法的聚类内容的实际结果是困难的（特别是边界）。最终，将需要经验可信度通过序列比较来指导聚类解释。
第二个局限由线性相关产生。上述的所有聚类方法分析的仅是简单的一对一的关系。因为只是成对的线性比较，大大减少发现表达类型关系的计算量，但忽视了生物系统多因素和非线性的特点。
从统计学的观点看，聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多着名的统计分析软件包中，如SPSS、SAS等。
从机器学习的角度讲，簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同，无监督学习不依赖预先定义的类或带类标记的训练实例，需要由聚类学习算法自动确定标记，而分类学习的实例或数据对象有类别标记。聚类是观察式学习，而不是示例式的学习。
从实际应用的角度看，聚类分析是数据挖掘的主要任务之一。就数据挖掘功能而言，聚类能够作为一个独立的工具获得数据的分布状况，观察每一簇数据的特征，集中对特定的聚簇集合作进一步地分析。
聚类分析还可以作为其他数据挖掘任务（如分类、关联规则）的预处理步骤。
数据挖掘领域主要研究面向大型数据库、数据仓库的高效实用的聚类分析算法。
聚类分析是数据挖掘中的一个很活跃的研究领域，并提出了许多聚类算法。
这些算法可以被分为划分方法、层次方法、基于密度方法、基于网格方法和
基于模型方法。
1 划分方法(PAM:PArtitioning method) 首先创建k个划分，k为要创建的划分个数；然后利用一个循环
定位技术通过将对象从一个划分移到另一个划分来帮助改善划分质量。典型的划分方法包括：
k-means,k-medoids,CLARA(Clustering LARge Application),
CLARANS(Clustering Large Application based upon RANdomized Search).
FCM
2 层次方法(hierarchical method) 创建一个层次以分解给定的数据集。该方法可以分为自上
而下（分解）和自下而上（合并）两种操作方式。为弥补分解与合并的不足，层次合
并经常要与其它聚类方法相结合，如循环定位。典型的这类方法包括：
第一个是;BIRCH(Balanced Iterative Recing and Clustering using Hierarchies) 方法，它首先利用树的结构对对象集进行划分；然后再利
用其它聚类方法对这些聚类进行优化。
第二个是CURE(Clustering Using REprisentatives) 方法，它利用固定数目代表对象来表示相应聚类；然后对各聚类按照指定
量（向聚类中心）进行收缩。
第三个是ROCK方法，它利用聚类间的连接进行聚类合并。
最后一个CHEMALOEN，它则是在层次聚类时构造动态模型。
3 基于密度方法，根据密度完成对象的聚类。它根据对象周围的密度（如
DBSCAN）不断增长聚类。典型的基于密度方法包括：
DBSCAN(Densit-based Spatial Clustering of Application with Noise):该算法通过不断生长足够高密
度区域来进行聚类；它能从含有噪声的空间数据库中发现任意形状的聚类。此方法将一个聚类定义
为一组“密度连接”的点集。
OPTICS(Ordering Points To Identify the Clustering Structure):并不明确产生一
个聚类，而是为自动交互的聚类分析计算出一个增强聚类顺序。。
4 基于网格方法，首先将对象空间划分为有限个单元以构成网格结构；然后利
用网格结构完成聚类。
STING(STatistical INformation Grid) 就是一个利用网格单元保存的统计信息进行基
于网格聚类的方法。
CLIQUE(Clustering In QUEst)和Wave-Cluster 则是一个将基于网格与基于密度相结合的方
法。
5 基于模型方法，它假设每个聚类的模型并发现适合相应模型的数据。典型的
基于模型方法包括：
统计方法COBWEB:是一个常用的且简单的增量式概念聚类方法。它的输入对象是采
用符号量（属性-值）对来加以描述的。采用分类树的形式来创建
一个层次聚类。
CLASSIT是COBWEB的另一个版本.。它可以对连续取值属性进行增量式聚
类。它为每个结点中的每个属性保存相应的连续正态分布（均值与方差）；并利
用一个改进的分类能力描述方法，即不象COBWEB那样计算离散属性（取值）
和而是对连续属性求积分。但是CLASSIT方法也存在与COBWEB类似的问题。
因此它们都不适合对大数据库进行聚类处理.

㈩ R语言中哪些包是处理混合属性聚类的

聚类的包，cluster包，里面包含了pam，agnes等函数，可以十分方便进行聚类计算。另外有系统自带的stats包，hclust， kmeans等函数。fpc包做聚类分析，也是可以的。另外，如果需要例子，这些包自带的文档里面都有使用的实例，是很好的学习案例。

导航:首页 > 源码编译 > pam算法聚类

pam算法聚类

与pam算法聚类相关的资料