Hadoop实际解决方案手册

Book description

快速解决诸多Hadoop相关技术问题的实用技术手册

Key Features

  • 文字简洁,易于读者理解
  • 精挑细选,关注最重要的任务和问题
  • 细心组织,提供高效的问题解决方案
  • 讲解透彻,清晰解读每个操作步骤
  • 举一反三,将解决方案应用到其他场景中

Book Description

这是一本 Hadoop 实用手册,主要针对实际问题给出相应的解决方案。本书特色是以实践结合理论分析,手把手教读者如何操作,并且对每个操作都做详细的解释,对一些重要的知识点也做了必要的拓展。

全书共包括3个部分,第一部分为基础篇,主要介绍Hadoop数据导入导出、HDFS 的概述、Pig 与 Hive 的使用、ETL 和简单的数据处理,还介绍了MapReduce的调试方式;第二部分为数据分析高级篇,主要介绍高级聚合、大数据分析等技巧;第三部分为系统管理篇,主要介绍 Hadoop 的部署的各种模式、添加新节点、退役节点、快速恢复、MapReduce调优等。

本书适合各个层次的Hadoop技术人员阅读。通过阅读本书,Hadoop初学者可以使用Hadoop 来进行数据处理,Hadoop 工程师或者数据挖掘工程师可以解决复杂的业务分析, Hadoop系统管理员可以更好地进行日常运维。本书也可作为一本Hadoop技术手册,针对要解决的相关问题,在工作中随时查阅。

What you will learn

  • Hadoop数据的导入导出
  • HDFS概述
  • Pig与Hive的使用
  • ETL和简单的数据处理
  • MapReduce的调试方式
  • 高级聚合
  • 大数据分析
  • Hadoop的各种部署模式
  • 为Hadoop添加新节点、退役节点、快速恢复
  • MapReduce调优

Who this book is for

本书适合各个层次的Hadoop技术人员阅读,通过阅读本书,Hadoop初学者可以使用Hadoop来进行数据处理,Hadoop工程师或者数据挖掘工程师可以解决复杂的业务分析,Hadoop系统管理员可以更好地进行日常运维。本书也可作为一本Hadoop技术手册,针对要解决的相关问题,在工作中随时查阅。

Table of contents

  1. 封面
  2. 目录
  3. 扉页
  4. 内容提要
  5. 译者序
  6. 译者简介
  7. 前言
  8. 作者简介
  9. 审阅者简介
  10. 第1章 Hadoop分布式文件系统——导入和导出数据
    1. 1.1 介绍
    2. 1.2 使用Hadoop shell命令导入和导出数据到HDFS
    3. 1.3 使用distcp实现集群间数据复制
    4. 1.4 使用Sqoop从MySQL数据库导入数据到HDFS
    5. 1.5 使用Sqoop从HDFS导出数据到MySQL
    6. 1.6 配置Sqoop以支持SQL Server
    7. 1.7 从HDFS导出数据到MongoDB
    8. 1.8 从MongoDB导入数据到HDFS
    9. 1.9 使用Pig从HDFS导出数据到MongoDB
    10. 1.10 在Greenplum外部表中使用HDFS
    11. 1.11 利用Flume加载数据到HDFS中
  11. 第2章 HDFS
    1. 2.1 介绍
    2. 2.2 读写HDFS数据
    3. 2.3 使用LZO压缩数据
    4. 2.4 读写序列化文件数据
    5. 2.5 使用Avro序列化数据
    6. 2.6 使用Thrift序列化数据
    7. 2.7 使用Protocol Buffers序列化数据
    8. 2.8 设置HDFS备份因子
    9. 2.9 设置HDFS块大小
  12. 第3章 抽取和转换数据
    1. 3.1 介绍
    2. 3.2 使用MapReduce将Apache日志转换为TSV格式
    3. 3.3 使用Apache Pig过滤网络服务器日志中的爬虫访问量
    4. 3.4 使用Apache Pig根据时间戳对网络服务器日志数据排序
    5. 3.5 使用Apache Pig对网络服务器日志进行会话分析
    6. 3.6 通过Python扩展Apache Pig的功能
    7. 3.7 使用MapReduce及二次排序计算页面访问量
    8. 3.8 使用Hive和Python清洗、转换地理事件数据
    9. 3.9 使用Python和Hadoop Streaming执行时间序列分析
    10. 3.10 在MapReduce中利用MultipleOutputs输出多个文件
    11. 3.11 创建用户自定义的Hadoop Writable及InputFormat读取地理事件数据
  13. 第4章 使用Hive、Pig和MapReduce处理常见的任务
    1. 4.1 介绍
    2. 4.2 使用Hive将HDFS中的网络日志数据映射为外部表
    3. 4.3 使用Hive动态地为网络日志查询结果创建Hive表
    4. 4.4 利用Hive字符串UDF拼接网络日志数据的各个字段
    5. 4.5 使用Hive截取网络日志的IP字段并确定其对应的国家
    6. 4.6 使用MapReduce对新闻档案数据生成n-gram
    7. 4.7 通过MapReduce使用分布式缓存查找新闻档案数据中包含关键词的行
    8. 4.8 使用Pig加载一个表并执行包含GROUP BY的SELECT操作
  14. 第5章 高级连接操作
    1. 5.1 介绍
    2. 5.2 使用MapReduce对数据进行连接
    3. 5.3 使用Apache Pig对数据进行复制连接
    4. 5.4 使用Apache Pig对有序数据进行归并连接
    5. 5.5 使用Apache Pig对倾斜数据进行倾斜连接
    6. 5.6 在Apache Hive中通过map端连接对地理事件进行分析
    7. 5.7 在Apache Hive通过优化的全外连接分析地理事件数据
    8. 5.8 使用外部键值存储(Redis)连接数据
  15. 第6章 大数据分析
    1. 6.1 介绍
    2. 6.2 使用MapReduce和Combiner统计网络日志数据集中的独立IP数
    3. 6.3 运用Hive日期UDF对地理事件数据集中的时间日期进行转换与排序
    4. 6.4 使用Hive创建基于地理事件数据的每月死亡报告
    5. 6.5 实现Hive用户自定义UDF用于确认地理事件数据的来源可靠性
    6. 6.6 使用Hive的map/reduce操作以及Python标记最长的无暴力发生的时间区间
    7. 6.7 使用Pig计算Audioscrobbler数据集中艺术家之间的余弦相似度
    8. 6.8 使用Pig以及datafu剔除Audioscrobbler数据集中的离群值
  16. 第7章 高级大数据分析
    1. 7.1 介绍
    2. 7.2 使用Apache Giraph计算PageRank
    3. 7.3 使用Apache Giraph计算单源最短路径
    4. 7.4 使用Apache Giraph执行分布式宽度优先搜索
    5. 7.5 使用Apache Mahout计算协同过滤
    6. 7.6 使用Apache Mahout进行聚类
    7. 7.7 使用Apache Mahout进行情感分类
  17. 第8章 调试
    1. 8.1 介绍
    2. 8.2 在MapReduce中使用Counters监测异常记录
    3. 8.3 使用MRUnit开发和测试MapReduce
    4. 8.4 本地模式下开发和测试MapReduce
    5. 8.5 运行MapReduce作业跳过异常记录
    6. 8.6 在流计算作业中使用Counters
    7. 8.7 更改任务状态显示调试信息
    8. 8.8 使用illustrate调试Pig作业
  18. 第9章 系统管理
    1. 9.1 介绍
    2. 9.2 在伪分布模式下启动Hadoop
    3. 9.3 在分布式模式下启动Hadoop
    4. 9.4 添加一个新节点
    5. 9.5 节点安全退役
    6. 9.6 NameNode故障恢复
    7. 9.7 使用Ganglia监控集群
    8. 9.8 MapReduce作业参数调优
  19. 第10章 使用Apache Accumulo进行持久化
    1. 10.1 介绍
    2. 10.2 在Accumulo中设计行键存储地理事件
    3. 10.3 使用MapReduce批量导入地理事件数据到Accumulo
    4. 10.4 设置自定义字段约束Accumulo中的地理事件数据
    5. 10.5 使用正则过滤器限制查询结果
    6. 10.6 使用SumCombiner计算同一个键的不同版本的死亡数总和
    7. 10.7 使用Accumulo实行单元级安全的扫描
    8. 10.8 使用MapReduce聚集Accumulo中的消息源
  20. 版权

Product information

  • Title: Hadoop实际解决方案手册
  • Author(s): Posts & Telecom Press, JONATHAN OWENS, Lentz Jon, Femiano Brian
  • Release date: May 2024
  • Publisher(s): Packt Publishing
  • ISBN: 9781836205616

You might also like

book

金融中的机器学习

by Posts & Telecom Press, Jannes Klaas

跟随机器学习最佳实践,探秘金融中的科技思维 Key Features 配套代码+彩色图片帮助读者快速上手 详细的理论推到和算法分析,引导读者了解机器学习的内核 知识点与代码示例环环相扣,理论与编程实践完美结合 Book Description 机器学习是设计与应用算法的科学,可从数据中进行学习和预测,其应用已经非常普遍。金融领域集中了大量的交易数据,为人工智能技术的运用奠定了良好的数据基础。本书面向金融领域的读者,介绍了机器学习技术的原理与实践。 本书包括10章,介绍了神经网络算法、结构化数据的处理、计算机视觉处理技术、时间序列分析、自然语言处理、生成模型的应用、强化学习技术、数据建模与调试、贝叶斯推理和概率编程等内容。 本书由资深金融从业者编写,融合了其在金融项目中关于机器学习的实践经验,适合金融领域的数据科学家、数据分析师、金融科技公司的技术研发人员以及对金融领域的机器学习技术感兴趣的读者阅读。 What you will learn 掌握神经网络算法 …

book

网络安全评估(第三版)

by Chris McNab

你的网络有多安全?使用与攻击者识别和利用脆弱性相同的策略,来对你的网络开展攻击,是找出答案的最好方法。通过这本实用指南,你将学习如何以结构化的方式执行基于网络的渗透测试。本书作者演示了常见的脆弱性,以及在你的环境中识别这些脆弱性的步骤。 系统的复杂性和攻击平面都在持续增长,本书提供了一个帮助你降低网络风险的过程。每章都包括一份总结攻击者技术的清单,以及你可以立即使用的有效对策。 本书可以学到如何有效测试系统组件,包括: 公共服务,如SSH、FTP、Kerberos、SNMP和LDAP。 微软公司服务,包括NetBIOS、SMB、RPC和RDP。 SMTP、POP3和IMAP电子邮件服务。 提供安全网络访问的IPsec和PPTP服务。 提供运输安全的TLS协议和功能。 网络服务器软件,包括微软公司的IIS、Apache和Nginx。 框架,包括Rails、Django、微软ASP.NET和PHP。 数据库服务器、存储协议和键值对存储。

book

Python高级编程(第2版)

by Posts & Telecom Press, Michał Jaworski, Tarek Ziadé

使用Python3.5学习编码实践以及高级概念 Key Features 本书是Python的高级读物,它不是介绍如何使用Python编程,而是如何利用Python更好地编程,教会读者提高编程技能。 Book Description Python作为一种高级程序设计语言,凭借其简洁、易读及可扩展性日渐成为程序设计领域备受推崇的语言之一。 本书基于Python 3.5版本进行讲解,通过13章的内容,深度揭示了Python编程的高级技巧。本书从Python语言及其社区的现状开始介绍,对Python语法、命名规则、Python包的编写、部署代码、扩展程序开发、管理代码、文档编写、测试开发、代码优化、并发编程、设计模式等重要话题进行了全面系统化的讲解。 本书适合想要进一步提高自身Python编程技能的读者阅读,也适合对Python编程感兴趣的读者参考学习。全书结合典型且实用的开发案例,可以帮助读者创建高性能的、可靠且可维护的Python应用。 What you will learn 了解在Python社区中广泛采用的约定和最佳实践; 高效打包Python代码,以便将其应用于社区和生产; …

book

可编程网络自动化

by Jason Edelman, Scott S. Lowe, Matt Oswalt

与系统管理员一样,网络工程师如今也发现无法再手动完成所有工作。随着网络行业迎来新协议、新技术、新交付模型,企业对敏捷性和灵活性的需求愈加迫切,网络自动化也随之变得至关重要。本书向网络工程师展示了如何使用包括Linux、Python、JSON和XML在内的一系列工具,通过代码实现网络自动化。 网络自动化的核心是简化与网络设备、网络拓扑、网络服务和网络连通性的配置、管理、操作相关的任务。通过学习本书,你将掌握完成这一关键转变所需的基本技能和工具。 本书包含以下内容。 Python基础知识:数据类型、条件逻辑、循环、函数、类、模块 网络自动化涉及的Linux基础知识 数据格式与数据模型:YAML、XML、JSON、YANG 网络配置模板,如Jinja模板 使用网络API实现网络自动化 在自动化过程中使用Git控制源代码 使用Ansible、Salt、StackStorm等自动化工具 关键的持续集成工具和技术