mahoutkmeans源码_求MATLAB实现canopy-kmeans聚类算法的完整代码

❶ mahout的kmeans算法要怎么输入向量

可以把id那一列去掉，官网的例子应该是60维数据

❷ k means算法如何具体实现呢

1.基本Kmeans算法[1]

[cpp] view plain
选择K个点作为初始质心
repeat
将每个点指派到最近的质心，形成K个簇
重新计算每个簇的质心
until 簇不发生变化或达到最大迭代次数

时间复杂度：O(tKmn)，其中，t为迭代次数，K为簇的数目，m为记录数，n为维数

空间复杂度：O((m+K)n)，其中，K为簇的数目，m为记录数，n为维数

❸ 我想用eclipse、mahout处理hadoop上的数据，mahout算法用k-means算法。现在就只是这个概念，

你最好先搞清楚，hadoop安装一下先，然后和eclipse连接
然后下载mahout的源代码，用eclipse打开，编译
将你的数据放到HDFS上，就可以了

PS. hadoop只能处理HDFS上的数据，就算你想处理本地的，实质上也是上传到了HDFS上

❹ 求MATLAB实现canopy-kmeans聚类算法的完整代码

canopy聚类算法的MATLAB程序

❺ 怎么用mahout实现模糊k-means算法，最好带注释

Hive Hadoop中类似于数据仓库的应用，所有要用到的表可以存在Hive中，并且HQL语言类sql语言直接见表查询。
Hdfs是Hadoop中文件存储的格式。
Hbase Hadoop中一种表存储的方式，是以列式存储的方式存储一些大数据量的表。
Pig Hadoop的ETL平台工具，提供了简便的语言也是。
Sqoop 就是一个搬数的工具，从关系型数据库到Hdfs中，或者反过来。也可以用Java接口直接实现搬数的过程。
ODI（12版本）加入Hive架构，使得搬数更简单了。 Sqoop速度好慢，增量也比较麻烦。
Maorece就是Hadoop核心算法，一个Map 一个Rece函数。
Mahout 是Hadoop的一个数据挖掘应用，利用许多封装好的算法进行数据分析例如K-Means算法。

❻ 如何在Hadoop平台上实现K-means算法

一、介绍Mahout
Mahout是Apache下的开源机器学习软件包，目前实现的机器学习算法主要包含有协同过滤/推荐引擎，聚类和分类三个部分。Mahout从设计开始就旨在建立可扩展的机器学习软件包，用于处理大数据机器学习的问题，当你正在研究的数据量大到不能在一台机器上运行时，就可以选择使用Mahout，让你的数据在Hadoop集群的进行分析。Mahout某些部分的实现直接创建在Hadoop之上，这就使得其具有进行大数据处理的能力，也是Mahout最大的优势所在。相比较于Weka，RapidMiner等图形化的机器学习软件，Mahout只提供机器学习的程序包（library），不提供用户图形界面，并且Mahout并不包含所有的机器学习算法实现，这一点可以算得上是她的一个劣势，但前面提到过Mahout并不是“又一个机器学习软件”，而是要成为一个“可扩展的用于处理大数据的机器学习软件”，但是我相信会有越来越多的机器学习算法会在Mahout上面实现。[1]

二、介绍K-Means
这是Apache官网上的算法描述，简单来说就是基于划分的聚类算法，把n个对象分为k个簇，以使簇内具有较高的相似度。相似度的计算根据一个簇中对象的平均值来进行。[2]
三、在Hadoop上实现运行
1，实验环境
①hadoop集群环境：1.2.1 一个Master，两个Slaves，在开始运行kmeans时启动hadoop
②操作系统：所有机器的系统均为ubuntu12.04
③Mahout版本：采用的是0.5版
2，数据准备
数据采用的是这是网上提供的一个比较不错是数据源。然后用指令 hadoop fs -put /home/hadoop/Desktop/data testdata，将在我桌面的文件data上传到HDFS的testdata目录下，这里为什么是testdata，我也正在思考，因为我本来是上传到 input里，但是运行时提示could not find ….user/testdata之类的，所以现改为了testdata。
3，运行
①配置Mahout环境：在Apache官网下载Mahout的版本，我选择的是0.5。然后解压到你指定的目录，将此目录路径写入/etc/profile，添加如下语句：
export MAHOUT_HOME=/home/hadoop/hadoop-1.2.1/mahout-distribution-0.5
export HADOOP_CONF_DIR=/home/hadoop/hadoop-1.2.1/conf
export PATH=$PATH:/home/hadoop/hadoop-1.2.1/bin:$MAHOUT_HOME/bin
然后执行 source /etc/profile。在mahout目录下执行bin/mahout命令，检测系统是否安装成功。如图：

注：此处修改环境变量有些网上提示是/etc/bash.bashrc，我也试着修改过，但是发现在我这里使环境变量生效的是profile。
②运行Mahout里自带的K-Means算法，bin/mahout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job，这里启动后遇到了一点问题，提示 Could not find math.vector。
4，结果
在我的环境下运行5分钟左右，最后生成一个文件，如图

四、总结
Mahout是一个很强大的数据挖掘工具，需要进行更深层的了解。

❼ 如何用maprece分布式实现kmeans算法

可以自己尝试写一个分布式的kmeans，也可以部署spark，使用spark-mllib里面的kmeans如果对python比较熟悉，可以使用pyspark的mllib如果只是hadoop，找找mahout算法包

❽ matlab自带的kmeans代码可在哪看，它初始点选择使用参数sample，这个具体是怎么选择的，我怎么能找出来啊

以MATLAB R2012b为例：

一、点击下图中红圈指示“Find Files”。

三、对于其他版本的MATLAB，查找kmeans函数的源代码则大同小异了，而kmeans函数的使用方法，可在MATLAB的help中找到。至于如何选择初始点，好像有随机选择k个点法、选择批次距离尽可能远的k个点等等方法，具体还要查阅相关资料。

❾ 怎么对mahout的k-means算法改进

你最好先搞清楚，hadoop安装一下先，然后和eclipse连接然后下载mahout的源代码，用eclipse打开，编译将你的数据放到HDFS上，就可以了 PS. hadoop只能处理HDFS上的数据，就算你想处理本地的，实质上也是上传到了HDFS上

热点内容

pop3服务器怎么装发布：2025-09-14 16:12:25 浏览：139

cpp编译解决命名冲突问题发布：2025-09-14 16:07:56 浏览：508

单片机的晶振频率发布：2025-09-14 15:59:42 浏览：482

翻样软件加密锁问题发布：2025-09-14 15:52:33 浏览：205

电脑怎么设置dhcp服务器地址发布：2025-09-14 15:50:27 浏览：592

十天突破雅思写作剑8pdf 发布：2025-09-14 15:48:10 浏览：355

如何判定服务器硬盘烧了发布：2025-09-14 15:43:21 浏览：244

数值逼近pdf 发布：2025-09-14 15:34:58 浏览：707

程序员跪键盘发布：2025-09-14 15:29:46 浏览：3

江苏银行app换设备电话按哪个键发布：2025-09-14 15:28:04 浏览：236

图片无损压缩怎么办发布：2025-09-14 15:21:51 浏览：7

如何确认服务器的光口网卡发布：2025-09-14 15:15:04 浏览：244

nb1111y压缩机性能数据发布：2025-09-14 14:53:52 浏览：552

下一代编译器发布：2025-09-14 14:51:20 浏览：133

用什么app可以查产品批号发布：2025-09-14 14:51:17 浏览：439

python自动补齐发布：2025-09-14 14:45:26 浏览：907

苹果wifi安卓怎么连接不上发布：2025-09-14 14:42:30 浏览：937

为什么有的app只能用苹果支付发布：2025-09-14 14:37:11 浏览：178

手游云顶文件夹发布：2025-09-14 13:59:27 浏览：940

msvc和mingw都是编译器吗发布：2025-09-14 13:59:26 浏览：429

导航:首页 > 源码编译 > mahoutkmeans源码

mahoutkmeans源码

与mahoutkmeans源码相关的资料