hadoop集群启动命令_如何查看hadoop集群是否安装成功（用jps命令

1. hadoop集群启动是否主要在主节点start-all.sh

这个看你的部署，如果是伪分布式则直接start-all.sh就可以了。一般hadoop配置的时候都使用了ssh，没有这个是不能运行起来的。分布式的话，每台都必须配置ssh，以及一些其他的参数配置，这样配置好每台机器以后，只要在主节点使用start-all.sh就可以相应的启动所属的从节点的。

2. 萌新提问关于Hadoop请说简单点，Hadoop集群的启动，是不是只要在master启动就OK了

Hadoop集群启动之后，namenode是通过SSH来启动和停止各个节点上的各种守护进程的，所以在节点之间执行指令的时候不能有密码

3. 简述启动和关闭Hadoop集群的方法

摘要 1. 格式化NameNode

4. hadoop集群中hadoop需要启动哪些进程

启动Hadoop
启动Hadoop集群需要启动HDFS集群和Map/Rece集群。
格式化一个新的分布式文件系统：
$ bin/hadoop namenode -format
在分配的NameNode上，运行下面的命令启动HDFS：
$ bin/start-dfs.sh
bin/start-dfs.sh脚本会参照NameNode上${HADOOP_CONF_DIR}/slaves文件的内容，在所有列出的slave上启动DataNode守护进程。
在分配的JobTracker上，运行下面的命令启动Map/Rece：
$ bin/start-mapred.sh
bin/start-mapred.sh脚本会参照JobTracker上${HADOOP_CONF_DIR}/slaves文件的内容，在所有列出的slave上启动TaskTracker守护进程。
-----来自官方文档

5. 怎样在linux系统上搭建Hadoop集群

（1）下载jdk，在官网下载，下载rpm的包
（2）hadoop包的下载，官网上下载
download hadoop->release->mirror site(镜像站)->随便选择离自己近的（HTTP下的第一个）->选择2.7.2->下载.tar.gz
（3）将两个包远程传输到linux虚拟机中
（4）将主机名和ip地址进行适配，让我们的ip地址和主机名（如bigdata）相匹配：写到/etc/hosts里面
vi /etc/hosts
按“i”进入插入状态将原有的地址注释掉
在新的一行输入：ip地址主机名（如172.17.171.42 bigdata）（注：可以双击xshell的窗口再打开一个连接窗口，可以在新的窗口查询ip地址并进行复制）
按“Esc”退出插入状态
输入：wq保存退出
修改完之后可以输入hostname回车，查看是否成功
reboot：重启，使得刚刚的修改生效
（5）将包放到opt下：cp hadoop-2.7.2.tar.gz /opt/
cp jdk-8u111-linux-x64.rpm /opt/
进入opt：cd /opt/
查看opt下的文件：ll
（6）安装jdk，配置jdk的环境变量
安装命令：rpm -ivh jdk-Bu101-linux-x64.rpm
配置环境变量：进入profile进行编辑：vi /etc/profile
并按照上面的方式在最后写入并保存：java_HOME=/usr/java/default/（/usr/java/default/是jdk的安装目录）
打印JAVA_HOME检验是否配置好：echo $JAVA_HOME结果发现打印出来的没有内容因为我们对/etc/profile的修改需要通过以下命令对它生效source /etc/profile。再次输入echo $JAVA_HOME，打印结果为/usr/java/default/
（7）验证jdk安装好：java -version
（8）配置SSH（免密码登录）
回到根目录：cd 安装SSH秘钥：ssh-keygen -t rsa会自动在/root/.shh/目录下生成
查看目录：ll .ssh/有两个新生成的文件id_rsa(私钥)，id_rsa.pub(公钥)
进入.ssh/:cd .ssh/
将公钥写入authorized_key中：cat id_rsa.pub >> authorized_keys
修改authorized_keys文件的权限：chmod 644 authorized_keys
修改完后退出.ssh的目录cd进入初始目录输入：ssh bigdata（bigdata为你要远程登录的主机名或者ip地址）第一次登录需要确认是否需要继续登录输入yes继续登录
退出exit
（9）安装及配置hadoop
解压:tar zxf hadoop-2.7.2.tar.gz
查看/opt目录下是否已经存在解压的文件：ll（结果为出现hadoop-2.7.2）
继续查看hadoop-2.7.2里的内容：cd hadoop-2.7.2
配置HADOOP_HOME:修改/etc/profile
进入hadoop的配置文件目录cd /opt/hadoop-2.7.2/etc/hadoop/，会用的的配置文件如下：
core-site.xml
配置hadoop的文件系统即HDFS的端口是什么。
配置项1为default.name，值为hdfs://bigdata:9000（主机名：bigdata也可也写成ip地址，端口9000习惯用）
配置项2为hadoop临时文件，其实就是配置一个目录，配置完后要去创建这个目录，否则会存在问题。
配置项3分布式文件系统的垃圾箱，值为4320表示3分钟回去清理一次

<property>
<name>fs.default.name</name>
<value>hdfs://bigdata:9000</value>
</property>

<property>
<name>hadoop.tmp.dir</name>
<value>/opt/hadoop-2.7.2/current/tmp</value>
</property>
<property>
<name>fs.trash.interval</name>
<value>4320</value>
</property>
hdfs-site.xml
配置项1，namenode的细节实际上就是一个目录
配置项2，datanode的细节，真实环境中datanode的内容不需要再namenode的系统下配置，在此配置的原因是我们的系统是伪分布式系统，namenode和datanode在一台机器上
配置项3，副本的数量，在hdfs中每个块有几个副本
配置项4，HDFS是否启用web
配置项5，HDFS的用户组
配置项6，HDFS的权限，现在配置为不开启权限

<property>
<name>dfs.namenode.name.dir</name>
<value>/opt/hadoop-2.7.2/current/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/opt/hadoop-2.7.2/current/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
<property>
<name>dfs.permissions.superusergroup</name>
<value>staff</value>
</property>
<property>
<name>dfs.permissions.enabled</name>
<value>false</value>
</property>
创建配置文件中不存在的目录：mkdir -p /opt/hadoop-2.7.2/current/data
mkdir -p /opt/hadoop-2.7.2/current/dfs/name
mkdir -p /opt/hadoop-2.7.2/current/tmp
yarn-site.xml
配置项1，resourcemanager的hostname，值为你运行的那台机器的主机名或IP地址
配置项2，nodemanager相关的东西
配置项3，nodemanager相关的东西
配置项4，resourcemanager的端口，主机名+端口号（IP+端口）
配置项5，resourcemanager调度器的端口
配置项6，resourcemanager.resource-tracker,端口
配置项7，端口
配置项8，端口
配置项9，日志是否启动
配置项10，日志保留的时间长短（以秒为单位）
配置项11，日志检查的时间
配置项12，目录
配置项13，目录的前缀

<property>
<name>yarn.resourcemanager.hostname</name>
<value>bigdata</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>maprece_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.maprece.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>bigdata:18040</value>
</property>
<property>
<name>yarn.resourcemanager.scheler.address</name>
<value>bigdata:18030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>bigdata:18025</value>
</property> <property>
<name>yarn.resourcemanager.admin.address</name>
<value>bigdata:18141</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>bigdata:18088</value>
</property>
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>86400</value>
</property>
<property>
<name>yarn.log-aggregation.retain-check-interval-seconds</name>
<value>86400</value>
</property>
<property>
<name>yarn.nodemanager.remote-app-log-dir</name>
<value>/tmp/logs</value>
</property>
<property>
<name>yarn.nodemanager.remote-app-log-dir-suffix</name>
<value>logs</value>
</property>
mapred-site.xml
没有mapred-site.xml，输入vi mapred-按“TAB”发现有mapred-site.xml.template，对该文件进行复制
cp mapred-site.xml.template mapred-site.xml 配置项1，maprece的框架
配置项2，maprece的通信端口
配置项3，maprece的作业历史记录端口
配置项4，maprece的作业历史记录端口
配置项5，maprece的作业历史记录已完成的日志目录，在hdfs上
配置项6，maprece中间完成情况日志目录
配置项7，maprece的ubertask是否开启

<property>
<name>maprece.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>maprece.jobtracker.http.address</name>
<value>bigdata:50030</value>
</property>
<property>
<name>maprece.jobhisotry.address</name>
<value>bigdata:10020</value>
</property>
<property>
<name>maprece.jobhistory.webapp.address</name>
<value>bigdata:19888</value>
</property>
<property>
<name>maprece.jobhistory.done-dir</name>
<value>/jobhistory/done</value>
</property>
<property>
<name>maprece.intermediate-done-dir</name>
<value>/jobhisotry/done_intermediate</value>
</property>
<property>
<name>maprece.job.ubertask.enable</name>
<value>true</value>
</property>
slaves

bigdata
hadoop-env.sh

JAVA_HOME＝/usr/java/default/
格式化分布式文件系统（hdfs）：hdfs namenode -format
成功的标志： INFO common.Storage: Storage directory /opt/hadoop-2.7.2/current/dfs/namehas been successfully formatted.
启动Hadoop集群：/opt/hadoop-2.7.2/sbin/start-all.sh
验证Hadoop集群是否正常启动：
jps，系统中运行的java进程;
通过端口查看（关闭防火墙或者service iptables stop在防火墙的规则中开放这些端口）：
http://bigdata:50070(http://http://192.168.42.209/:50070)，分布式文件系统hdfs的情况
yarn http://bigdata:18088(http://http://192.168.42.209/:50070)

6. 如何初始化，启动及停止Hadoop集群

第一步，在Hadoop01机器上启动Zookeeper：
[root@hadoop01 ~]# /root/apps/zookeeper/bin/zkServer.sh start

第二步，在Hadoop02机器上启动Zookeeper：
[root@hadoop02 ~]# /root/apps/zookeeper/bin/zkServer.sh start

第三步，在Hadoop03机器上启动Zookeeper：
[root@hadoop03 ~]# /root/apps/zookeeper/bin/zkServer.sh start

启动Zookeeper之后，可以分别在3台机器上使用如下命令查看Zookeeper的启动状态：
/root/apps/zookeeper/bin/zkServer.sh status

第四步，在Hadoop01机器上启动HDFS：
[root@hadoop01 ~]# /root/apps/hadoop/sbin/start-dfs.sh

第五步，在Hadoop01机器上启动YARN：
[root@hadoop01 ~]# /root/apps/hadoop/sbin/start-yarn.sh

第六步，在Hadoop02机器上单独启动一个ResourceManager：
（注意这里使用的是“yarn-daemon.sh”命令，而不是“hadoop-daemon.sh”，不知道为什么使用“hadoop-daemon.sh”无法启动ResourceManager）
[root@hadoop02 ~]# /root/apps/hadoop/sbin/yarn-daemon.sh start resourcemanager！

7. hadoop集群如何启动顺序

zookeeper -> hadoop -> hbase

8. 如何在docker中部署hadoop2.4集群

Docker提供了一种完美隔离和打包Hadoop相关的应用程序的方法。该公司也在观察Slider框架和Docker如何能够一起合作来简化此类的部署工作。目前，Hortonworks的一个客户已经在考虑他们自己的数据平台利用HDP支持Docker的方法。他们利用Cloudbreak在云中的Docker容器中部署Hadoop，并计划把他们自己的数据应用程序制作成Docker镜像以便在YARN上运行。此外，很多用户也因为这种方式的敏捷性和兼容性，利用其进行未知环境的部署。

9. 如何查看hadoop集群是否安装成功（用jps命令

1、用jps命令
（1）master节点
启动集群：
cy@master:~$ start-all.sh
starting namenode, logging to /home/cy/Hadoop/hadoop-1.2.1/libexec/../logs/hadoop-cy-namenode-master.out
slave2: starting datanode, logging to /home/cy/Hadoop/hadoop-1.2.1/libexec/../logs/hadoop-cy-datanode-slave2.out
slave1: starting datanode, logging to /home/cy/Hadoop/hadoop-1.2.1/libexec/../logs/hadoop-cy-datanode-slave1.out
master: starting secondarynamenode, logging to /home/cy/Hadoop/hadoop-1.2.1/libexec/../logs/hadoop-cy-secondarynamenode-master.out
starting jobtracker, logging to /home/cy/Hadoop/hadoop-1.2.1/libexec/../logs/hadoop-cy-jobtracker-master.out
slave1: starting tasktracker, logging to /home/cy/Hadoop/hadoop-1.2.1/libexec/../logs/hadoop-cy-tasktracker-slave1.out
slave2: starting tasktracker, logging to /home/cy/Hadoop/hadoop-1.2.1/libexec/../logs/hadoop-cy-tasktracker-slave2.out

用jps命令查看Java进程：
cy@master:~$ jps
6670 NameNode
7141 Jps
7057 JobTracker

（2）slave1节点

用jps命令查看Java进程：

cy@slave1:~$ jps
3218 Jps
2805 DataNode
2995 TaskTracker

（3）slave2节点

用jps命令查看Java进程：

cy@slave2:~$ jps
2913 TaskTracker
2731 DataNode
3147 Jps
如果三台虚拟机用jps命令查询时如上面显示的那样子，就说明hadoop安装和配置成功了。

2、hadoop集群的测试，用hadoop-examples-1.2.1.jar中自带的wordcount程序进行测试，该程序的作用是统计单词的个数。
（1）我们现在桌面上创建一个新的文件test.txt，里面总共有10行，每行都是hello world
（2）在HDFS系统里创建一个input文件夹，使用命令如下：
hadoop fs -mkdir input
或 hadoop fs -mkdir /user/你的用户名/input
（3）把创建好的test.txt上传到HDFS系统的input文件夹下，使用命令如下所示。
hadoop fs -put /home/你的用户名/桌面/test.txt input
或 hadoop fs -put /home/你的用户名/桌面/test.txt /user/你的用户名/input
（4）我们可以查看test.txt是否在HDFS的input文件夹下，如下所示：
hadoop fs -ls input
如果显示如下就说明上传成功：
Found 1 items
-rw-r--r-- 3 cy supergroup 120 2015-05-08 20:26 /user/cy/input/test.txt

（5）执行hadoop-examples-1.2.1.jar中自带的wordcount程序，如下：（提示：在执行下面的命令之前，你要在终端用cd命令进入到/home/cy/Hadoop/hadoop-1.2.1目录）
hadoop jar hadoop-examples-1.2.1.jar wordcount /user/你的用户名/input/test.txt /user/你的用户名/output

如果显示如下结果就说明运行成功：
15/05/08 20:31:29 INFO input.FileInputFormat: Total input paths to process : 1
15/05/08 20:31:29 INFO util.NativeCodeLoader: Loaded the native-hadoop library
15/05/08 20:31:29 WARN snappy.LoadSnappy: Snappy native library not loaded
15/05/08 20:31:30 INFO mapred.JobClient: Running job: job_201505082010_0001
15/05/08 20:31:31 INFO mapred.JobClient: map 0% rece 0%
15/05/08 20:31:35 INFO mapred.JobClient: map 100% rece 0%
15/05/08 20:31:42 INFO mapred.JobClient: map 100% rece 33%
15/05/08 20:31:43 INFO mapred.JobClient: map 100% rece 100%
15/05/08 20:31:43 INFO mapred.JobClient: Job complete: job_201505082010_0001
15/05/08 20:31:43 INFO mapred.JobClient: Counters: 29
15/05/08 20:31:43 INFO mapred.JobClient: Job Counters
15/05/08 20:31:43 INFO mapred.JobClient: Launched rece tasks=1
15/05/08 20:31:43 INFO mapred.JobClient: SLOTS_MILLIS_MAPS=3117
15/05/08 20:31:43 INFO mapred.JobClient: Total time spent by all reces waiting after reserving slots (ms)=0
15/05/08 20:31:43 INFO mapred.JobClient: Total time spent by all maps waiting after reserving slots (ms)=0
15/05/08 20:31:43 INFO mapred.JobClient: Launched map tasks=1
15/05/08 20:31:43 INFO mapred.JobClient: Data-local map tasks=1
15/05/08 20:31:43 INFO mapred.JobClient: SLOTS_MILLIS_REDUCES=8014
15/05/08 20:31:43 INFO mapred.JobClient: File Output Format Counters
15/05/08 20:31:43 INFO mapred.JobClient: Bytes Written=18
15/05/08 20:31:43 INFO mapred.JobClient: FileSystemCounters
15/05/08 20:31:43 INFO mapred.JobClient: FILE_BYTES_READ=30
15/05/08 20:31:43 INFO mapred.JobClient: HDFS_BYTES_READ=226
15/05/08 20:31:43 INFO mapred.JobClient: FILE_BYTES_WRITTEN=116774
15/05/08 20:31:43 INFO mapred.JobClient: HDFS_BYTES_WRITTEN=18
15/05/08 20:31:43 INFO mapred.JobClient: File Input Format Counters
15/05/08 20:31:43 INFO mapred.JobClient: Bytes Read=120
15/05/08 20:31:43 INFO mapred.JobClient: Map-Rece Framework
15/05/08 20:31:43 INFO mapred.JobClient: Map output materialized bytes=30
15/05/08 20:31:43 INFO mapred.JobClient: Map input records=10
15/05/08 20:31:43 INFO mapred.JobClient: Rece shuffle bytes=30
15/05/08 20:31:43 INFO mapred.JobClient: Spilled Records=4
15/05/08 20:31:43 INFO mapred.JobClient: Map output bytes=200
15/05/08 20:31:43 INFO mapred.JobClient: CPU time spent (ms)=610
15/05/08 20:31:43 INFO mapred.JobClient: Total committed heap usage (bytes)=176427008
15/05/08 20:31:43 INFO mapred.JobClient: Combine input records=20
15/05/08 20:31:43 INFO mapred.JobClient: SPLIT_RAW_BYTES=106
15/05/08 20:31:43 INFO mapred.JobClient: Rece input records=2
15/05/08 20:31:43 INFO mapred.JobClient: Rece input groups=2
15/05/08 20:31:43 INFO mapred.JobClient: Combine output records=2
15/05/08 20:31:43 INFO mapred.JobClient: Physical memory (bytes) snapshot=182902784
15/05/08 20:31:43 INFO mapred.JobClient: Rece output records=2
15/05/08 20:31:43 INFO mapred.JobClient: Virtual memory (bytes) snapshot=756301824
15/05/08 20:31:43 INFO mapred.JobClient: Map output records=20
（6）我们可以使用下面的命令还查看运行后的结果：
hadoop fs -ls output
hadoop fs -text /user/你的用户名/output/part-r-00000
如果显示如下就说明hadoop三个节点安装和配置成功，测试也成功了，就可以继续更深入地使用和研究hadoop了
hello 10
world 10

10. linux怎么链接hadoop的集群

前期准备
l 两台linux虚拟机（本文使用redhat5，IP分别为 IP1、IP2）
l JDK环境（本文使用jdk1.6，网上很多配置方法，本文省略）
l Hadoop安装包（本文使用Hadoop1.0.4）
搭建目标
210作为主机和节点机，211作为节点机。
搭建步骤
1修改hosts文件
在/etc/hosts中增加：

IP1 hadoop1
IP2 hadoop2

2 实现ssh无密码登陆
2.1 主机（master）无密码本机登陆

ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa

直接回车，完成后会在 ~/.ssh/ 生成两个文件： id_dsa 和 id_dsa.pub 。
这两个是成对出现，类似钥匙和锁。
再把 id_dsa.pub 追加到授权 key 里面 ( 当前并没有 authorized_key s文件 ) ：

cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

ssh localhost hostname

还是要输入密码，一般这种情况都是因为目录或文件的权限问题，看看系统日志，确实是权限问题
.ssh下的authorized_keys权限为600，其父目录和祖父目录应为755

2.2 无密码登陆节点机（slave）
slave上执行：

ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa

生成.ssh目录。
将master上的authorized_keys复制到slave上：

scp authorized_keys hadoop2:~/.ssh/

实验：在master上执行

ssh hadoop2

实现无密码登陆。
3 配置Hadoop
3.1拷贝hadoop
将hadoop-1.0.4.tar.gz ,拷贝到usr/local 文件夹下，然后解压。
解压命令：

tar –zxvf hadoop-1.0.4.tar.gz

3.2查看 cat /etc/hosts

IP1 hadoop1
IP2 hadoop2

3.3 配置 conf/masters 和 conf/slaves
conf/masters：
1

IP1

conf/slaves：
1
2

IP2
IP2

3.4 配置 conf/hadoop-env.sh
加入
1

export JAVA_HOME=/home/elvis/soft/jdk1.7.0_17

3.5 配置 conf/core-site.xml
1
2
3
4

<property>
<name>fs.default.name</name>
<value>hdfs://IP1:9000</value>
</property>

3.6 配置 conf/hdfs-site.xml
加入

<property>
<name>dfs.http.address</name>
<value>IP1:50070</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>/usr/local/hadoop/namenode</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/usr/local/hadoop/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>

3.7 配置conf/mapred-site.xml
加入

<property>
<name>mapred.job.tracker</name>
<value>192.168.1.50:8012</value>
</property>

3.8 建立相关的目录
1

/usr/local/hadoop/ //hadoop数据和namenode目录

【注意】只创建到hadoop目录即可，不要手动创建data和namenode目录。
其他节点机也同样建立该目录。
3.9 拷贝hadoop文件到其他节点机
将hadoop文件远程到其他节点（这样前面的配置就都映射到了其他节点上），
命令：
1

scp -r hadoop-1.0.4 IP2:/usr/local/

3.10 格式化Active master
命令：

bin/hadoop namenode -format

3.11 启动集群 ./start-all.sh
现在集群启动起来了，看一下，命令：
1

bin/hadoop dfsadmin -report

2个datanode，打开web看一下
浏览器输入:IP1:50070
打完收工，集群安装完成！

导航:首页 > 程序命令 > hadoop集群启动命令

hadoop集群启动命令

与hadoop集群启动命令相关的资料