第7章 最佳实践与建议

好吧,这一章是一个精彩的结尾!截至目前,我们学习了MapReduce作业性能的优化方法,并利用很大篇幅对重要的知识点作了铺垫。请记住,建立 Hadoop 集群的基本挑战在于要综合考量高可用性、负载均衡以及因此而获得个性化需求服务。

在本章中,我们介绍用来优化Hadoop MapReduce作业的硬件及应用配置检查表。

本章将介绍以下内容:

常见的Hadoop 集群检查表;

BIOS 检查表及OS 推荐;

Hadoop 最佳实践与建议;

应用程序中用到的MapReduce 模板类。

7.1 硬件调优与操作系统推荐

系统调优推荐措施与系统的内在能力紧密相关。接下来的几节将给出不同的技术建议与提示,在进行MapReduce优化过程中,这些建议与提示可作为提醒的基线。

7.1.1 Hadoop集群检查表

下面的检查表是使Hadoop集群工作最优所需的最低要求。

检查并确保所有的集群节点都能互相通信,并且能够有物理手段和/或远程管理手段访问每个集群节点。

检查集群是否正确规划以及是否能(至少)对每个服务的一个节点的故障进行补偿。

检查集群环境的限制(硬件可用性资源/机架空间、主机参数等)。

定义集群的失效接管策略,确保服务的高可用性。

定义需要备份的内容,以及需要保存什么和在哪里保存,以便让 Hadoop 存储容量最大化。

7.1.2 Bios调优检查表

下面列出了安装在优化环境下使用的Hadoop集群节点时需要检查的项目。

检查硬件上的所有 CPU 内核是否得到了充分利用;否则,你可以降级 CPU频率。

启用原生命令排队模式(NCQ),有助于通过优化驱动器磁头移动来改善主流硬盘驱动器的 I/O 性能。一般来说,可以通过 BIOS 中的 Advanced Host ...

Get 面向MapReduce的Hadoop优化 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.