导航:首页 > 源码编译 > mahoutkmeans源码

mahoutkmeans源码

发布时间:2022-10-06 17:02:28

❶ mahout的kmeans算法要怎么输入向量

可以把id那一列去掉,官网的例子应该是60维数据

❷ k means算法如何具体实现呢

1.基本Kmeans算法[1]

[cpp] view plain
选择K个点作为初始质心
repeat
将每个点指派到最近的质心,形成K个簇
重新计算每个簇的质心
until 簇不发生变化或达到最大迭代次数

时间复杂度:O(tKmn),其中,t为迭代次数,K为簇的数目,m为记录数,n为维数

空间复杂度:O((m+K)n),其中,K为簇的数目,m为记录数,n为维数

❸ 我想用eclipse、mahout处理hadoop上的数据,mahout算法用k-means算法。现在就只是这个概念,

你最好先搞清楚,hadoop安装一下先,然后和eclipse连接
然后下载mahout的源代码,用eclipse打开,编译
将你的数据放到HDFS上,就可以了

PS. hadoop只能处理HDFS上的数据,就算你想处理本地的,实质上也是上传到了HDFS上

❹ 求MATLAB实现canopy-kmeans聚类算法的完整代码

canopy聚类算法的MATLAB程序

❺ 怎么用mahout实现模糊k-means算法,最好带注释

Hive Hadoop中类似于数据仓库的应用,所有要用到的表可以存在Hive中,并且HQL语言类sql语言直接见表查询。
Hdfs是Hadoop中文件存储的格式。
Hbase Hadoop中一种表存储的方式,是以列式存储的方式存储一些大数据量的表。
Pig Hadoop的ETL平台工具,提供了简便的语言也是。
Sqoop 就是一个搬数的工具,从关系型数据库到Hdfs中,或者反过来。 也可以用Java接口直接实现搬数的过程。
ODI(12版本)加入Hive架构,使得搬数更简单了。 Sqoop速度好慢,增量也比较麻烦。
Maorece就是Hadoop核心算法,一个Map 一个Rece函数。
Mahout 是Hadoop的一个数据挖掘应用,利用许多封装好的算法进行数据分析例如K-Means算法。

❻ 如何在Hadoop平台上实现K-means算法

一、介绍Mahout
Mahout是Apache下的开源机器学习软件包,目前实现的机器学习算法主要包含有协同过滤/推荐引擎,聚类和分类三 个部分。Mahout从设计开始就旨在建立可扩展的机器学习软件包,用于处理大数据机器学习的问题,当你正在研究的数据量大到不能在一台机器上运行时,就 可以选择使用Mahout,让你的数据在Hadoop集群的进行分析。Mahout某些部分的实现直接创建在Hadoop之上,这就使得其具有进行大数据 处理的能力,也是Mahout最大的优势所在。相比较于Weka,RapidMiner等 图形化的机器学习软件,Mahout只提供机器学习的程序包(library),不提供用户图形界面,并且Mahout并不包含所有的机器学习算法实现, 这一点可以算得上是她的一个劣势,但前面提到过Mahout并不是“又一个机器学习软件”,而是要成为一个“可扩展的用于处理大数据的机器学习软件”,但 是我相信会有越来越多的机器学习算法会在Mahout上面实现。[1]

二、介绍K-Means
这是Apache官网上的算法描述,简单来说就是基于划分的聚类算法,把n个对象分为k个簇,以使簇内具有较高的相似度。相似度的计算根据一个簇中对象的平均值来进行。[2]
三、在Hadoop上实现运行
1,实验环境
①hadoop集群环境:1.2.1 一个Master,两个Slaves,在开始运行kmeans时启动hadoop
②操作系统:所有机器的系统均为ubuntu12.04
③Mahout版本:采用的是0.5版
2,数据准备
数据采用的是 这是网上提供的一个比较不错是数据源。然后用指令 hadoop fs -put /home/hadoop/Desktop/data testdata,将在我桌面的文件data上传到HDFS的testdata目录下,这里为什么是testdata,我也正在思考,因为我本来是上传到 input里,但是运行时提示could not find ….user/testdata之类的,所以现改为了testdata。
3,运行
①配置Mahout环境:在Apache官网下载Mahout的版本,我选择的是0.5。然后解压到你指定的目录,将此目录路径写入/etc/profile,添加如下语句:
export MAHOUT_HOME=/home/hadoop/hadoop-1.2.1/mahout-distribution-0.5
export HADOOP_CONF_DIR=/home/hadoop/hadoop-1.2.1/conf
export PATH=$PATH:/home/hadoop/hadoop-1.2.1/bin:$MAHOUT_HOME/bin
然后执行 source /etc/profile。在mahout目录下执行bin/mahout命令,检测系统是否安装成功。如图:

注:此处修改环境变量有些网上提示是/etc/bash.bashrc,我也试着修改过,但是发现在我这里使环境变量生效的是profile。
②运行Mahout里自带的K-Means算法,bin/mahout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job,这里启动后遇到了一点问题,提示 Could not find math.vector。
4,结果
在我的环境下运行5分钟左右,最后生成一个文件,如图

四、总结
Mahout是一个很强大的数据挖掘工具,需要进行更深层的了解。

❼ 如何用maprece分布式实现kmeans算法

可以自己尝试写一个分布式的kmeans,也可以部署spark,使用spark-mllib里面的kmeans如果对python比较熟悉,可以使用pyspark的mllib如果只是hadoop,找找mahout算法包

❽ matlab自带的kmeans代码可在哪看,它初始点选择使用参数sample,这个具体是怎么选择的,我怎么能找出来啊

以MATLAB R2012b为例:

一、点击下图中红圈指示“Find Files”。

三、对于其他版本的MATLAB,查找kmeans函数的源代码则大同小异了,而kmeans函数的使用方法,可在MATLAB的help中找到。至于如何选择初始点,好像有随机选择k个点法、选择批次距离尽可能远的k个点等等方法,具体还要查阅相关资料。

❾ 怎么对mahout的k-means算法改进

你最好先搞清楚,hadoop安装一下先,然后和eclipse连接 然后下载mahout的源代码,用eclipse打开,编译 将你的数据放到HDFS上,就可以了 PS. hadoop只能处理HDFS上的数据,就算你想处理本地的,实质上也是上传到了HDFS上

阅读全文

与mahoutkmeans源码相关的资料

热点内容
好看网站推荐 浏览:860
iphone文件夹设封面 浏览:249
日本电影盔甲僵尸 浏览:614
手机怎么创建minecraft服务器 浏览:487
LCD在python中 浏览:980
小电影的网站谁知道 浏览:66
香港男女出轨开房遇见的电影名字 浏览:372
单片机stm使用说明书 浏览:641
手机百度android开发 浏览:957
男主怀孕生子女尊 浏览:296
邵氏3级电影 浏览:321
男主角叫安迪的电影 浏览:78
建德盛德电影院今日电影 浏览:90
谁有在线观看的网站 浏览:644
午夜不卡电影 浏览:761
python字符串unicode编码 浏览:7
电影加密的软件 浏览:729
鬼王镜奴的古装电影 浏览:35
python3module 浏览:498
韩国李彩谭作品 浏览:931