第9章 系统管理
本章我们将介绍:
在伪分布模式下启动Hadoop
在分布式模式下启动Hadoop
添加一个新节点
节点安全退役
NameNode 故障恢复
使用Ganglia 监控集群
MapReduce 作业参数调优
9.1 介绍
本章我们将讨论如何搭建、监控、调优Hadoop集群和MapReduce作业。我们将回顾Hadoop操作的多种模式,描述如何解决Hadoop集群出现的问题,并回顾一些比较重要的作业调优参数。
9.2 在伪分布模式下启动Hadoop
Hadoop支持以下三种不同的操作模式。
单机模式:在这个模式下,Hadoop 只运行在一个节点的一个进程中。
伪分布式模式:在这个模式下,Hadoop 的服务分布在同一个节点的不同进程中。
全分布式模式:在这个模式下,Hadoop 的服务分布在多个节点的不同进程中。
本节将介绍如何安装和配置使得Hadoop运行在伪分布式模式下。在伪分布式模式下,所有HDFS和MapReduce的进程都将在同一台主机上运行。伪分布式模式是一个很好的测试环境,可以用来测试你对HDFS的操作以及MapReduce程序。
准备工作
确认已经安装Java 1.6、ssh和 sshd。此外,shh的守护进程(sshd)应在节点上运行。你可以通过以下的命令验证这些安装的正确性:
$ java -version
java version "1.6.0_31"
Java(TM) SE Runtime Environment (build 1.6.0_31-b04)
Java HotSpot(TM) 64-Bit Server VM (build 20.6-b01, mixed mode)
$ ssh
usage: ssh [-1246AaCfgkMNnqsTtVvXxY] ...
Get Hadoop实际解决方案手册 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.