第4章 R相关的Hadoop和MapReduce框架
在本章中,我们进入了大数据工具和应用程序的多彩世界,可以相对容易地与R语言集成。在本章中,我们将向你介绍一些有关以下主题的指南和提示。
- 基于云虚拟机部署Hadoop,即用型Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)和MapReduce框架。
- 配置实例/虚拟机,包括用于HDFS中数据管理的基本库和有用的补充工具。
- 使用shell/Terminal命令管理HDFS,并在Java中运行一个简单的MapReduce单词计数以进行比较。
- 在单节点集群上,集成R统计环境与Hadoop。
- 使用R的rhadoop相关软件包管理HDFS文件、运行简单的MapReduce作业。
- 在Microsoft Azure 的多节点HDInsight集群上,执行更复杂的MapReduce任务来处理大型电表读数数据集。
在我们开始实践教程之前,让我们从第1章的Hadoop和MapReduce开始介绍,并熟悉它们是如何适合大数据处理和分析的。
4.1 Hadoop架构
Apache Hadoop是用于大数据处理和管理的开源、集成框架,可以相对容易地在商用硬件上部署。Hadoop也可以定义为允许对大量结构化和非结构化数据进行分布式存储和分析的工具和方法的生态系统。在本节中,我们将介绍一系列工具、框架和应用程序,它们作为Hadoop生态系统的组成部分,负责对各种数据进行管理和处理。
4.1.1 Hadoop分布式文件系统
如第1章中所述,Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)源于2003年在Ghemawat、Gobioff和Leung的一篇题为 ...
Get R大数据分析实用指南 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.