hadoop運行命令_hadoop中命令經常含有-fs-dfsfs和dfs有什麼區別作用是什麼

① hadoop集群中hadoop需要啟動哪些進程

啟動Hadoop
啟動Hadoop集群需要啟動HDFS集群和Map/Rece集群。
格式化一個新的分布式文件系統：
$ bin/hadoop namenode -format
在分配的NameNode上，運行下面的命令啟動HDFS：
$ bin/start-dfs.sh
bin/start-dfs.sh腳本會參照NameNode上${HADOOP_CONF_DIR}/slaves文件的內容，在所有列出的slave上啟動DataNode守護進程。
在分配的JobTracker上，運行下面的命令啟動Map/Rece：
$ bin/start-mapred.sh
bin/start-mapred.sh腳本會參照JobTracker上${HADOOP_CONF_DIR}/slaves文件的內容，在所有列出的slave上啟動TaskTracker守護進程。
-----來自官方文檔

② 大數據：Hadoop入門

什麼是大數據：
（1.）大數據是指在一定時間內無法用常規軟體對其內容進行抓取，管理和處理的數據集合，簡而言之就是數據量非常大，大到無法用常規工具進行處理，如關系型資料庫，數據倉庫等。這里「大」是一個什麼量級呢？如在阿里巴巴每天處理數據達到20PB（即20971520GB）.
2.大數據的特點：
（1.）體量巨大。按目前的發展趨勢來看，大數據的體量已經到達PB級甚至EB級。
（2.）大數據的數據類型多樣，以非結構化數據為主，如網路雜志，音頻，視屏，圖片，地理位置信息，交易數據，社交數據等。
（3.）價值密度低。有價值的數據僅佔到總數據的一小部分。比如一段視屏中，僅有幾秒的信息是有價值的。
（4.）產生和要求處理速度快。這是大數據區與傳統數據挖掘最顯著的特徵。
3.除此之外還有其他處理系統可以處理大數據。
Hadoop （開源）
Spark（開源）
Storm（開源）
MongoDB（開源）
IBM PureDate（商用）
Oracle Exadata（商用）
SAP Hana（商用）
Teradata AsterData（商用）
EMC GreenPlum（商用）
HP Vertica（商用）
註：這里我們只介紹Hadoop。
二：Hadoop體系結構
Hadoop來源：
Hadoop源於Google在2003到2004年公布的關於GFS（Google File System），MapRece和BigTable的三篇論文，創始人Doug Cutting。Hadoop現在是Apache基金會頂級項目，「
Hadoop」一個虛構的名字。由Doug Cutting的孩子為其黃色玩具大象所命名。
Hadoop的核心：
（1.）HDFS和MapRece是Hadoop的兩大核心。通過HDFS來實現對分布式儲存的底層支持，達到高速並行讀寫與大容量的儲存擴展。
（2.）通過MapRece實現對分布式任務進行處理程序支持，保證高速分區處理數據。
3.Hadoop子項目：
（1.）HDFS：分布式文件系統，整個Hadoop體系的基石。
（2.）MapRece/YARN：並行編程模型。YARN是第二代的MapRece框架，從Hadoop 0.23.01版本後，MapRece被重構，通常也稱為MapRece V2，老MapRece也稱為 MapRece V1。
（3.）Hive：建立在Hadoop上的數據倉庫，提供類似SQL語音的查詢方式，查詢Hadoop中的數據，
（5.）HBase:全稱Hadoop Database，Hadoop的分布式的，面向列的資料庫，來源於Google的關於BigTable的論文，主要用於隨機訪問，實時讀寫的大數據。
（6.）ZooKeeper：是一個為分布式應用所設計的協調服務，主要為用戶提供同步，配置管理，分組和命名等服務，減輕分布式應用程序所承擔的協調任務。
還有其它特別多其它項目這里不做一一解釋了。
三：安裝Hadoop運行環境
用戶創建：
（1.）創建Hadoop用戶組，輸入命令：
groupadd hadoop
（2.）創建hser用戶，輸入命令：
useradd –p hadoop hser
（3.）設置hser的密碼，輸入命令：
passwd hser
按提示輸入兩次密碼
（4.）為hser用戶添加許可權，輸入命令：
#修改許可權
chmod 777 /etc/sudoers
#編輯sudoers
Gedit /etc/sudoers
#還原默認許可權
chmod 440 /etc/sudoers
先修改sudoers 文件許可權，並在文本編輯窗口中查找到行「root ALL=（ALL）」，緊跟後面更新加行「hser ALL=（ALL） ALL」，將hser添加到sudoers。添加完成後切記還原默認許可權，否則系統將不允許使用sudo命令。
（5.）設置好後重啟虛擬機，輸入命令：
Sudo reboot
重啟後切換到hser用戶登錄
安裝JDK
（1.）下載jdk-7u67-linux-x64.rpm,並進入下載目錄。
（2.）運行安裝命令:
Sudo rpm –ivh jdk-7u67-linux-x64.rpm
完成後查看安裝路徑，輸入命令：
Rpm –qa jdk –l
記住該路徑，
（3.）配置環境變數，輸入命令：
Sudo gedit /etc/profile
打開profile文件在文件最下面加入如下內容
export java_HOME=/usr/java/jdk.7.0.67
export CLASSPATH=$ JAVA_HOME/lib:$ CLASSPATH
export PATH=$ JAVA_HOME/bin:$PATH
保存後關閉文件，然後輸入命令使環境變數生效：
Source /etc/profile
（4.）驗證JDK，輸入命令：
Java –version
若出現正確的版本則安裝成功。
配置本機SSH免密碼登錄：
（1.）使用ssh-keygen 生成私鑰與公鑰文件，輸入命令：
ssh-keygen –t rsa
（2.）私鑰留在本機，公鑰發給其它主機（現在是localhost）。輸入命令：
ssh--id localhost
（3.）使用公鑰來登錄輸入命令：
ssh localhost
配置其它主機SSH免密登錄
（1.）克隆兩次。在VMware左側欄中選中虛擬機右擊，在彈出的快捷鍵菜單中選中管理---克隆命令。在克隆類型時選中「創建完整克隆」，單擊「下一步」，按鈕直到完成。
（2.）分別啟動並進入三台虛擬機，使用ifconfig查詢個主機IP地址。
（3.）修改每台主機的hostname及hosts文件。
步驟1：修改hostname，分別在各主機中輸入命令。
Sudo gedit /etc/sysconfig/network
步驟2：修改hosts文件：
sudo gedit /etc/hosts
步驟3：修改三台虛擬機的IP
第一台對應node1虛擬機的IP：192.168.1.130
第二台對應node2虛擬機的IP：192.168.1.131
第三台對應node3虛擬機的IP：192.168.1.132
（4.）由於已經在node1上生成過密鑰對，所有現在只要在node1上輸入命令：
ssh--id node2
ssh--id node3
這樣就可以將node1的公鑰發布到node2，node3。
（5.）測試SSH,在node1上輸入命令：
ssh node2
#退出登錄
exit
ssh node3
exit
四：Hadoop完全分布式安裝
1. Hadoop有三種運行方式：
（1.）單機模式：無須配置，Hadoop被視為一個非分布式模式運行的獨立Java進程
（2.）偽分布式：只有一個節點的集群，這個節點即是Master（主節點，主伺服器）也是Slave（從節點，從伺服器），可在此單節點上以不同的java進程模擬分布式中的各類節點
（3.）完全分布式：對於Hadoop,不同的系統會有不同的節點劃分方式。
2.安裝Hadoop
（1.）獲取Hadoop壓縮包hadoop-2.6.0.tar.gz,下載後可以使用VMWare Tools通過共享文件夾，或者使用Xftp工具傳到node1。進入node1 將壓縮包解壓到/home/hser目錄下，輸入命令： #進入HOME目錄即：「/home/hser」
cd ~
tar –zxvf hadoop-2.6.0.tar.gz
（2.）重命名hadoop輸入命令：
mv hadoop-2.6.0 hadoop
（3.）配置Hadoop環境變數，輸入命令：
Sudo gedit /etc/profile
將以下腳本加到profile內：
#hadoop
export HADOOP_HOME=/home/hser/hadoop
export PATH=$HADOOP_HOME/bin:$PATH
保存關閉，最後輸入命令使配置生效
source /etc/profile
註：node2，和node3都要按照以上配置進行配置。
3.配置Hadoop
（1.）hadoop-env.sh文件用於指定JDK路徑。輸入命令：
[hser@node1 ~]$ cd ~/hadoop/etc/hadoop
[hser@node1 hadoop]$ gedit hadoop-env.sh
然後增加如下內容指定jDK路徑。
export JAVA_HOME=/usr/java/jdk1.7.0_67
（2.）打開指定JDK路徑,輸入命令：
export JAVA_HOME=/usr/java/jdk1.7.0_67
（4.）core-site.xml:該文件是Hadoop全局配置，打開並在元素中增加配置屬性如下：

fs.defaultFs hdfs://node1:9000 hadoop.tmp.dir file:/home/hser/hadoop/tmp 這里給出了兩個常用的配置屬性，fs.defaultFS表示客戶端連接HDFS時，默認路徑前綴，9000是HDFS工作的埠。Hadoop.tmp.dir如不指定會保存到系統的默認臨時文件目錄/tmp中。（5.）hdfs-site.xml:該文件是hdfs的配置。打開並在元素中增加配置屬性。（6.）mapred-site.xml:該文件是MapRece的配置，可從模板文件mapred-site.xml.template中復制打開並在元素中增加配置。（7.）yarn-site.xml:如果在mapred-site.xml配置了使用YARN框架，那麼YARN框架就使用此文件中的配置，打開並在元素中增加配置屬性。（8.）復制這七個命令到node2,node3。輸入命令如下： scp –r /home/hser/hadoop/etc/hadoop/ hser@node2:/home/hser/hadoop/etc/ scp –r /home/hser/hadoop/etc/hadoop/ hser@node3:/home/hser/hadoop/etc/ 4.驗證：下面驗證hadoop是否正確（1.）在Master主機（node1）上格式化NameNode。輸入命令： [hser@node1 ~]$ cd ~/hadoop [hser@node1 hadoop]$ bin/hdfs namenode –format （2）關閉node1,node2 ,node3,系統防火牆並重啟虛擬機。輸入命令： service iptables stop sudo chkconfig iptables off reboot （3.）輸入以下啟動HDFS： [hser@node1 ~]$ cd ~/hadoop （4.）啟動所有 [hser@node1 hadoop]$ sbin/start-all.sh （5.）查看集群狀態： [hser@node1 hadoop]$ bin/hdfs dfsadmin –report （6.）在瀏覽器中查看hdfs運行狀態，網址：http://node1:50070 （7.）停止Hadoop。輸入命令： [hser@node1 hadoop]$ sbin/stop-all.sh 五：Hadoop相關的shell操作（1.）在操作系統中/home/hser/file目錄下創建file1.txt,file2.txt可使用圖形界面創建。 file1.txt輸入內容： Hello World hi HADOOP file2.txt輸入內容 Hello World hi CHIAN （2.）啟動hdfs後創建目錄/input2 [hser@node1 hadoop]$ bin/hadoop fs –mkdir /input2 （3.）將file1.txt.file2.txt保存到hdfs中: [hser@node1 hadoop]$ bin/hadoop fs –put -/file/file*.txt /input2/ （4.）[hser@node1 hadoop]$ bin/hadoop fs –ls /input2

③ 啟動Hadoop後,執行jps命令發現某些進程啟動不了怎麼辦

咨詢記錄 · 回答於2021-10-12

④ 把hadoop/bin添加到path下以後隨便什麼地方都可以直接執行start-all，sh具體

設置臨時環境變數（只在單個終端內起作用）
1、首先設置HADOOPHOME環境變數，執行命令：export HADOOPHOME=/../hadoop/hadoop-2.5.2/bin （後面參數為Hadoop安裝位置下的bin目錄）---刪除環境變數的命令為 unset HADOOPHOME
2、把HADOOPHOME添加到PATH變數中，執行命令：PATH=$PATH:$HADOOPHOME（當然可以省略第一步，直接把路徑添加到PATH中也可以）至此可以在任何位置操作Hadoop的命令了
設置永久環境變數
通過修改 /etc/profile 文件來修改環境變數
修改位置如下：
# Path manipulation
if [ "$EUID" = "0" ]; then
pathmunge /sbin
pathmunge /usr/sbin
pathmunge /usr/local/sbin
else
pathmunge /usr/local/sbin after
pathmunge /usr/sbin after
pathmunge /sbin after
pathmunge /home/hadoop/hadoop-2.5.2/bin
fi

其中 pathmunge /home/hadoop/hadoop-2.5.2/bin為要添加的，
然後執行命令：source /etc/profile 使其生效
執行命令：echo $PATH 查看就會多出/home/hadoop/hadoop-2.5.2/bin這個路徑，就可以在任意地址下執行Hadoop的命令了

⑤ hadoop中命令經常含有-fs，-dfs，fs和dfs有什麼區別作用是什麼

You can see definitions of the two commands (hadoop fs & hadoop dfs) in
可以看一下hadoop的源代碼

$HADOOP_HOME/bin/hadoop
...elif [ "$COMMAND" = "datanode" ] ; then CLASS='org.apache.hadoop.hdfs.server.datanode.DataNode' HADOOP_OPTS="$HADOOP_OPTS $HADOOP_DATANODE_OPTS"elif [ "$COMMAND" = "fs" ] ; then CLASS=org.apache.hadoop.fs.FsShell HADOOP_OPTS="$HADOOP_OPTS $HADOOP_CLIENT_OPTS"elif [ "$COMMAND" = "dfs" ] ; then CLASS=org.apache.hadoop.fs.FsShell HADOOP_OPTS="$HADOOP_OPTS $HADOOP_CLIENT_OPTS"elif [ "$COMMAND" = "dfsadmin" ] ; then CLASS=org.apache.hadoop.hdfs.tools.DFSAdmin HADOOP_OPTS="$HADOOP_OPTS $HADOOP_CLIENT_OPTS"...
So, they are exactly the same.
所以，發現兩者是完全一樣的功能。

謝謝

⑥ hadoop已經安裝好的軟體，怎麼運行，調用

首先確認你安裝好的你的集群已經安裝好，hdfs、mr和yarn組件均安裝成功；
使用服務啟動命令看服務是否可以啟動成功
使用命令測試集群hadoop fs 相關命令等
如果你要實際去用的話，就搞清楚你的需求，比如新建目錄、上傳文件、目錄文件授權、文件下載等。MR的話就需要自己寫一些簡單的程序、yarn主要是做任務注冊與資源分批的，也可以實際配一下。
如果你有額外安裝hive和hbase的話，自己可以去新建表、然後做一些自主查詢。

⑦ ambari部署hadoop集群以後怎麼運行hadoop實例

1、我這里用的是三個虛擬機 centos 6.4 64位操作系統，一台做Master，兩台做Slave

2、三台機器都安裝jdk，我這里的版本是7_79，同樣是64位的

3、修改hostname（很關鍵，因為只有生成的ssh-keygen會用到）在/etc/sysconfig/network文件裡面修改，同時添加hosts文件，在/etc/hosts文件中修改，我這里三個節點的這兩個文件分別

4、生成ssh無密鑰遠程訪問文件，並且放到都要在三個節點裡面統一：（提前將三台節點的防火牆都關閉，一定要注意）

這里統一都使用root用戶來操作，分別在三個節點執行命令：ssh-keygen -t rsa，然後三下回車即可，就會在 /root/.ssh/目錄下生成兩個文件：

然後分別全部執行命令保存公共密鑰：cp id_rsa.pub authorized_keys，然後 /root/.ssh/ 目錄下就是這樣：

然後分別在Slaver1和Slaver2的 /root/.ssh/
目錄下，將密鑰文件遠程拷貝到Master中，使用命
令：scp authorized_keys [email protected]:/root/.ssh/s1_keys和
scp authorized_keys [email protected]:/root/.ssh/s2_keys。

然後Master節點的/root/.ssh/ 目錄下就會是這樣：

然後分別將兩個拷貝過來的密鑰文件追加到Master的 authorized_keys文件之後，用命令：cat s1_keys >> authorized_keys 和 cat s2_keys >> authorized_keys

最
後再將Master的
authorized_keys文件遠程拷貝覆蓋到兩個Slaver去，命令
是：scp authorized_keys [email protected]:/root/.ssh/authorized_keys

和 scp authorized_keys [email protected]:/root/.ssh/authorized_keys
。

這樣就弄完了，自己可以測試一下三個節點之間能否相互登錄：ssh Master.busymonkey，退出用：exit。

5、然後就可以在Master節點上安裝ambari了，這里我裝的是最小系統，所以可能要先安裝wget，用：yum install wget來安裝。

然後獲取 Ambari 的公共庫文件（public repository）。登錄到 Linux 主機並執行下面的命令（也可以自己手工下載）：

wget http://public-repo-1.hortonworks.com/ambari/centos6/2.x/updates/2.0.1/ambari.repo

將下載的 ambari.repo 文件拷貝到 Linux 的系統目錄/etc/yum.repos.d/。拷貝完後，我們需要獲取該公共庫的所有的源文件列表。依次執行以下命令。

yum clean all
yum list|grep ambari

如圖 1 所示：

如果可以看到 Ambari 的對應版本的安裝包列表，說明公共庫已配置成功。然後就可以安裝 Ambari 的 package 了。執行下面的命令安裝 Ambari Server 到該機器。

yum install ambari-server

待安裝完成後，便需要對 Ambari Server 做一個簡單的配置。執行下面的命令。

amari-server setup

在這個互動式的設置中，採用默認配置即可。Ambari 會使用 Postgres 資料庫，默認會安裝並使用 Oracle 的 JDK。默認設置了
Ambari GUI 的登錄用戶為 admin/admin。並且指定 Ambari Server 的運行用戶為 root。

[root@hadoop1 ~]# ambari-server setup
Using python /usr/bin/python2.6
Setup ambari-server
Checking SELinux...
SELinux status is 'enabled'
SELinux mode is 'enforcing'
Temporarily disabling SELinux
WARNING: SELinux is set to 'permissive' mode and temporarily disabled.
OK to continue [y/n] (y)? y
Customize user account for ambari-server daemon [y/n] (n)?
Adjusting ambari-server permissions and ownership...
Checking iptables...
WARNING: iptables is running. Confirm the necessary Ambari ports are accessible. Refer to the Ambari documentation for more details on ports.
OK to continue [y/n] (y)?
Checking JDK...
[1] Oracle JDK 1.7
[2] Oracle JDK 1.6
[3] - Custom JDK
==============================================================================
Enter choice (1): 1
To download the Oracle JDK and the Java Cryptography Extension (JCE) Policy Files you must accept the license terms found at http://www.oracle.com/technetwork/java/javase/terms/license/index.html and not accepting will cancel the Ambari Server setup and you must install the JDK and JCE files manually.
Do you accept the Oracle Binary Code License Agreement [y/n] (y)?
Downloading JDK from http://public-repo-1.hortonworks.com/ARTIFACTS/jdk-7u67-linux-x64.tar.gz to /var/lib/ambari-server/resources/jdk-7u67-linux-x64.tar.gz

只有大部分都是默認的，就可以了。

簡單的 setup 配置完成後。就可以啟動 Ambari 了。運行下面的命令。

ambari-server start

當成功啟動 Ambari Server 之後，便可以從瀏覽器登錄，默認的埠為 8080。以本文環境為例，在瀏覽器的地址欄輸入
http://zwshen37.example.com:8080，登錄密碼為 admin/admin。登入 Ambari 之後的頁面如下圖。

⑧ 啟動hadoop中have命令

Hadoop集群啟動命令。
1、啟動NameNode，DataNode。
2、啟動JournalNode，JournalNode在hdfs-site.xml中指定editslog存儲的位置，主備NameNode共享數據，方便同步。
3)、啟動DFSZKFailoverController，HA會啟用ZooKeeperFailoverController。
4、啟動YARN守護進程ResourceManager，NodeManager。

⑨ 如何在Windows下面運行hadoop的MapRece程序

1. 首先登入hadoop 集群裡面的一個節點，創建一個java源文件，偷懶起見，基本盜用官方的word count (因為本文的目的是教會你如何快編寫和運行一個MapRece程序，而不是如何寫好一個功能齊全的MapRece程序）
內容如下：
import java.io.IOException;
import java.util.StringTokenizer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.maprece.Job;
import org.apache.hadoop.maprece.Mapper;
import org.apache.hadoop.maprece.Recer;
import org.apache.hadoop.maprece.lib.input.FileInputFormat;
import org.apache.hadoop.maprece.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;
public class myword {
public static class TokenizerMapper
extends Mapper<Object, Text, Text, IntWritable>{
private final static IntWritable one = new IntWritable(1);
private Text word = new Text();
public void map(Object key, Text value, Context context
) throws IOException, InterruptedException {
StringTokenizer itr = new StringTokenizer(value.toString());
while (itr.hasMoreTokens()) {
word.set(itr.nextToken());
context.write(word, one);
}
}
}
public static class IntSumRecer
extends Recer<Text,IntWritable,Text,IntWritable> {
private IntWritable result = new IntWritable();
public void rece(Text key, Iterable<IntWritable> values,
Context context
) throws IOException, InterruptedException {
int sum = 0;
for (IntWritable val : values) {
sum += val.get();
}
result.set(sum);
context.write(key, result);
}
}
public static void main(String[] args) throws Exception {
Configuration conf = new Configuration();
String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
if (otherArgs.length != 2) {
System.err.println('Usage: wordcount <in> <out>');
System.exit(2);
}
Job job = new Job(conf, 'word count');
job.setJarByClass(myword.class);
job.setMapperClass(TokenizerMapper.class);
job.setCombinerClass(IntSumRecer.class);
job.setRecerClass(IntSumRecer.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));
System.exit(job.waitForCompletion(true) ? 0 : 1);
}
}
與官方版本相比，主要做了兩處修改
1）為了簡單起見，去掉了開頭的 package org.apache.hadoop.examples;
2）將類名從 WordCount 改為 myword, 以體現是我們自己的工作成果 :)
2. 拿到hadoop 運行的class path, 主要為編譯所用
運行命令
hadoop classpath
保存打出的結果，本文用的hadoop 版本是Pivotal 公司的Pivotal hadoop, 例子：
/etc/gphd/hadoop/conf:/usr/lib/gphd/hadoop/lib/*:/usr/lib/gphd/hadoop/.//*:/usr/lib/gphd/hadoop-hdfs/./:/usr/lib/gphd/hadoop-hdfs/lib/*:/usr/lib/gphd/hadoop-hdfs/.//*:/usr/lib/gphd/hadoop-yarn/lib/*:/usr/lib/gphd/hadoop-yarn/.//*:/usr/lib/gphd/hadoop-maprece/lib/*:/usr/lib/gphd/hadoop-maprece/.//*::/etc/gphd/pxf/conf::/usr/lib/gphd/pxf/pxf-core.jar:/usr/lib/gphd/pxf/pxf-api.jar:/usr/lib/gphd/publicstage:/usr/lib/gphd/gfxd/lib/gemfirexd.jar::/usr/lib/gphd/zookeeper/zookeeper.jar:/usr/lib/gphd/hbase/lib/hbase-common.jar:/usr/lib/gphd/hbase/lib/hbase-protocol.jar:/usr/lib/gphd/hbase/lib/hbase-client.jar:/usr/lib/gphd/hbase/lib/hbase-thrift.jar:/usr/lib/gphd/hbase/lib/htrace-core-2.01.jar:/etc/gphd/hbase/conf::/usr/lib/gphd/hive/lib/hive-service.jar:/usr/lib/gphd/hive/lib/libthrift-0.9.0.jar:/usr/lib/gphd/hive/lib/hive-metastore.jar:/usr/lib/gphd/hive/lib/libfb303-0.9.0.jar:/usr/lib/gphd/hive/lib/hive-common.jar:/usr/lib/gphd/hive/lib/hive-exec.jar:/usr/lib/gphd/hive/lib/postgresql-jdbc.jar:/etc/gphd/hive/conf::/usr/lib/gphd/sm-plugins/*:
3. 編譯
運行命令
javac -classpath xxx ./myword.java
xxx部分就是上一步裡面取到的class path
運行完此命令後，當前目錄下會生成一些.class 文件，例如：
myword.class myword$IntSumRecer.class myword$TokenizerMapper.class
4. 將class文件打包成.jar文件
運行命令
jar -cvf myword.jar ./*.class
至此, 目標jar 文件成功生成
5. 准備一些文本文件，上傳到hdfs, 以做word count的input
例子：
隨意創建一些文本文件，保存到mapred_test 文件夾
運行命令
hadoop fs -put ./mapred_test/
確保此文件夾成功上傳到hdfs 當前用戶根目錄下
6. 運行我們的程序
運行命令
hadoop jar ./myword.jar myword mapred_test output
順利的話，此命令會正常進行，一個MapRece job 會開始工作，輸出的結果會保存在 hdfs 當前用戶根目錄下的output 文件夾裡面。
至此大功告成！
如果還需要更多的功能，我們可以修改前面的源文件以達到一個真正有用的MapRece job。
但是原理大同小異，練手的話，基本夠了。
一個拋磚引玉的簡單例子，歡迎板磚。

⑩ 如何在hadoop2.5.2使用命令行編譯打包運行自己的maprece程序

網上的 MapRece WordCount 教程對於如何編譯 WordCount.Java 幾乎是一筆帶過… 而有寫到的，大多又是 0.20 等舊版本版本的做法，即 javac -classpath /usr/local/Hadoop/hadoop-1.0.1/hadoop-core-1.0.1.jar WordCount.java，但較新的 2.X 版本中，已經沒有 hadoop-core*.jar 這個文件，因此編輯和打包自己的 MapRece 程序與舊版本有所不同。
本文以 Hadoop 2.7.2 環境下的 WordCount 實例來介紹 2.x 版本中如何編輯自己的 MapRece 程序。

編譯、打包 Hadoop MapRece 程序
我們將 Hadoop 的 classhpath 信息添加到 CLASSPATH 變數中，在 ~/.bashrc 中增加如下幾行：

[html] view plain
export HADOOP_HOME=/usr/local/hadoop
export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH

別忘了執行 source ~/.bashrc 使變數生效，接著就可以通過 javac 命令編譯 WordCount.java 了（使用的是 Hadoop 源碼中的 WordCount.java，源碼在文本最後面）：javac WordCount.java

編譯時會有警告，可以忽略。編譯後可以看到生成了幾個 .class 文件。

接著把 .class 文件打包成 jar，才能在 Hadoop 中運行：

[html] view plain
jar -cvf WordCount.jar ./WordCount*.class

開始運行：
[html] view plain
hadoop jar WordCount.jar WordCount input output//hdfs上的input文件夾，命令執行所在位置為WordCount.jar同一目錄

因為程序中聲明了
package ，所以在命令中也要 org.apache.hadoop.examples 寫完整：

[html] view plain
hadoop jar WordCount.jar org.apache.hadoop.examples.WordCount input output

查看：
[html] view plain
hadoop fs -cat /output/part-r-00000
WordCount.java 源碼

package org.apache.hadoop.examples;

import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.maprece.Job;
import org.apache.hadoop.maprece.Mapper;
import org.apache.hadoop.maprece.Recer;
import org.apache.hadoop.maprece.lib.input.FileInputFormat;
import org.apache.hadoop.maprece.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

public class WordCount {

public static class TokenizerMapper
extends Mapper<Object, Text, Text, IntWritable>{

private final static IntWritable one = new IntWritable(1);
private Text word = new Text();

public void map(Object key, Text value, Context context
) throws IOException, InterruptedException {
StringTokenizer itr = new StringTokenizer(value.toString());
while (itr.hasMoreTokens()) {
word.set(itr.nextToken());
context.write(word, one);
}
}
}

public static class IntSumRecer
extends Recer<Text,IntWritable,Text,IntWritable> {
private IntWritable result = new IntWritable();

public void rece(Text key, Iterable<IntWritable> values,
Context context
) throws IOException, InterruptedException {
int sum = 0;
for (IntWritable val : values) {
sum += val.get();
}
result.set(sum);
context.write(key, result);
}
}

public static void main(String[] args) throws Exception {
Configuration conf = new Configuration();
String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
if (otherArgs.length != 2) {
System.err.println("Usage: wordcount <in> <out>");
System.exit(2);
}
Job job = new Job(conf, "word count");
job.setJarByClass(WordCount.class);
job.setMapperClass(TokenizerMapper.class);
job.setCombinerClass(IntSumRecer.class);
job.setRecerClass(IntSumRecer.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));
System.exit(job.waitForCompletion(true) ? 0 : 1);
}
}

導航:首頁 > 程序命令 > hadoop運行命令

hadoop運行命令

與hadoop運行命令相關的資料