第9章 系统管理

本章我们将介绍:

在伪分布模式下启动Hadoop

在分布式模式下启动Hadoop

添加一个新节点

节点安全退役

NameNode 故障恢复

使用Ganglia 监控集群

MapReduce 作业参数调优

9.1 介绍

本章我们将讨论如何搭建、监控、调优Hadoop集群和MapReduce作业。我们将回顾Hadoop操作的多种模式,描述如何解决Hadoop集群出现的问题,并回顾一些比较重要的作业调优参数。

9.2 在伪分布模式下启动Hadoop

Hadoop支持以下三种不同的操作模式。

单机模式:在这个模式下,Hadoop 只运行在一个节点的一个进程中。

伪分布式模式:在这个模式下,Hadoop 的服务分布在同一个节点的不同进程中。

全分布式模式:在这个模式下,Hadoop 的服务分布在多个节点的不同进程中。

本节将介绍如何安装和配置使得Hadoop运行在伪分布式模式下。在伪分布式模式下,所有HDFS和MapReduce的进程都将在同一台主机上运行。伪分布式模式是一个很好的测试环境,可以用来测试你对HDFS的操作以及MapReduce程序。

准备工作

确认已经安装Java 1.6、ssh和 sshd。此外,shh的守护进程(sshd)应在节点上运行。你可以通过以下的命令验证这些安装的正确性:

$ java -version

java version "1.6.0_31"

Java(TM) SE Runtime Environment (build 1.6.0_31-b04)

Java HotSpot(TM) 64-Bit Server VM (build 20.6-b01, mixed mode)

$ ssh

usage: ssh [-1246AaCfgkMNnqsTtVvXxY] ...

Get Hadoop实际解决方案手册 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.