第2章 Hadoop参数概述
一旦运行了 Hadoop 作业,了解集群资源是否得到了充分的利用就非常重要了。幸好,Hadoop框架提供了几个参数,可以用于对作业进行调优并指定作业在集群上的运行方式。
性能调优涉及4个方面:CPU利用率、内存占用情况、磁盘I/O和网络流量。本章会描述与这几个方面相关的大多数参数,然后介绍优化 Hadoop 执行的技术并定义一些配置参数。
拥有效率监测工具至关重要,当问题正在发生或者已经发生时它会发出警告,并且给出可视的指示来表明 Hadoop 集群正在做什么以及做了什么。本章将重点介绍使用配置参数进行Hadoop性能调优的方法,并介绍几款监测Hadoop服务的工具。
本章将介绍以下内容:
研究Hadoop 的可调参数;
与CPU 利用率、内存、磁盘I/O 以及网络相关的Hadoop 配置参数;
Hadoop 性能指标;
Hadoop 监测工具。
2.1 研究Hadoop参数
正如第1章中提到的那样,有很多因素会对Hadoop MapReduce 性能产生影响。一般说来,与工作负载相关的Hadoop性能优化需要关注以下3个主要方面:系统硬件、系统软件,以及Hadoop基础设施组件的配置和调优/优化。
需要指出的是,Hadoop被归类为高扩展性解决方案,但却不足以归类为高性能集群解决方案。系统管理员可以通过各种配置选项来配置和调优 Hadoop 集群。性能配置参数主要关注CPU利用率、内存占用情况、磁盘I/O和网络流量。除了Hadoop主要性能参数以外,其他系统参数,如机架间带宽,也可能影响集群的整体性能。
Hadoop可以按照用户需要进行配置和定制,可以通过对安装完成后自动生成的配置文件进行修改来满足应用和集群的特定需要。
配置文件分为两类,即只读默认配置文件和站点特定配置文件。 ...
Get 面向MapReduce的Hadoop优化 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.