Book description
快速解决诸多Hadoop相关技术问题的实用技术手册
Key Features
- 文字简洁,易于读者理解
- 精挑细选,关注最重要的任务和问题
- 细心组织,提供高效的问题解决方案
- 讲解透彻,清晰解读每个操作步骤
- 举一反三,将解决方案应用到其他场景中
Book Description
这是一本 Hadoop 实用手册,主要针对实际问题给出相应的解决方案。本书特色是以实践结合理论分析,手把手教读者如何操作,并且对每个操作都做详细的解释,对一些重要的知识点也做了必要的拓展。
全书共包括3个部分,第一部分为基础篇,主要介绍Hadoop数据导入导出、HDFS 的概述、Pig 与 Hive 的使用、ETL 和简单的数据处理,还介绍了MapReduce的调试方式;第二部分为数据分析高级篇,主要介绍高级聚合、大数据分析等技巧;第三部分为系统管理篇,主要介绍 Hadoop 的部署的各种模式、添加新节点、退役节点、快速恢复、MapReduce调优等。
本书适合各个层次的Hadoop技术人员阅读。通过阅读本书,Hadoop初学者可以使用Hadoop 来进行数据处理,Hadoop 工程师或者数据挖掘工程师可以解决复杂的业务分析, Hadoop系统管理员可以更好地进行日常运维。本书也可作为一本Hadoop技术手册,针对要解决的相关问题,在工作中随时查阅。
What you will learn
- Hadoop数据的导入导出
- HDFS概述
- Pig与Hive的使用
- ETL和简单的数据处理
- MapReduce的调试方式
- 高级聚合
- 大数据分析
- Hadoop的各种部署模式
- 为Hadoop添加新节点、退役节点、快速恢复
- MapReduce调优
Who this book is for
本书适合各个层次的Hadoop技术人员阅读,通过阅读本书,Hadoop初学者可以使用Hadoop来进行数据处理,Hadoop工程师或者数据挖掘工程师可以解决复杂的业务分析,Hadoop系统管理员可以更好地进行日常运维。本书也可作为一本Hadoop技术手册,针对要解决的相关问题,在工作中随时查阅。
Table of contents
- 封面
- 目录
- 扉页
- 内容提要
- 译者序
- 译者简介
- 前言
- 作者简介
- 审阅者简介
- 第1章 Hadoop分布式文件系统——导入和导出数据
- 第2章 HDFS
-
第3章 抽取和转换数据
- 3.1 介绍
- 3.2 使用MapReduce将Apache日志转换为TSV格式
- 3.3 使用Apache Pig过滤网络服务器日志中的爬虫访问量
- 3.4 使用Apache Pig根据时间戳对网络服务器日志数据排序
- 3.5 使用Apache Pig对网络服务器日志进行会话分析
- 3.6 通过Python扩展Apache Pig的功能
- 3.7 使用MapReduce及二次排序计算页面访问量
- 3.8 使用Hive和Python清洗、转换地理事件数据
- 3.9 使用Python和Hadoop Streaming执行时间序列分析
- 3.10 在MapReduce中利用MultipleOutputs输出多个文件
- 3.11 创建用户自定义的Hadoop Writable及InputFormat读取地理事件数据
- 第4章 使用Hive、Pig和MapReduce处理常见的任务
- 第5章 高级连接操作
- 第6章 大数据分析
- 第7章 高级大数据分析
- 第8章 调试
- 第9章 系统管理
- 第10章 使用Apache Accumulo进行持久化
- 版权
Product information
- Title: Hadoop实际解决方案手册
- Author(s):
- Release date: May 2024
- Publisher(s): Packt Publishing
- ISBN: 9781836205616
You might also like
book
金融中的机器学习
跟随机器学习最佳实践,探秘金融中的科技思维 Key Features 配套代码+彩色图片帮助读者快速上手 详细的理论推到和算法分析,引导读者了解机器学习的内核 知识点与代码示例环环相扣,理论与编程实践完美结合 Book Description 机器学习是设计与应用算法的科学,可从数据中进行学习和预测,其应用已经非常普遍。金融领域集中了大量的交易数据,为人工智能技术的运用奠定了良好的数据基础。本书面向金融领域的读者,介绍了机器学习技术的原理与实践。 本书包括10章,介绍了神经网络算法、结构化数据的处理、计算机视觉处理技术、时间序列分析、自然语言处理、生成模型的应用、强化学习技术、数据建模与调试、贝叶斯推理和概率编程等内容。 本书由资深金融从业者编写,融合了其在金融项目中关于机器学习的实践经验,适合金融领域的数据科学家、数据分析师、金融科技公司的技术研发人员以及对金融领域的机器学习技术感兴趣的读者阅读。 What you will learn 掌握神经网络算法 …
book
网络安全评估(第三版)
你的网络有多安全?使用与攻击者识别和利用脆弱性相同的策略,来对你的网络开展攻击,是找出答案的最好方法。通过这本实用指南,你将学习如何以结构化的方式执行基于网络的渗透测试。本书作者演示了常见的脆弱性,以及在你的环境中识别这些脆弱性的步骤。 系统的复杂性和攻击平面都在持续增长,本书提供了一个帮助你降低网络风险的过程。每章都包括一份总结攻击者技术的清单,以及你可以立即使用的有效对策。 本书可以学到如何有效测试系统组件,包括: 公共服务,如SSH、FTP、Kerberos、SNMP和LDAP。 微软公司服务,包括NetBIOS、SMB、RPC和RDP。 SMTP、POP3和IMAP电子邮件服务。 提供安全网络访问的IPsec和PPTP服务。 提供运输安全的TLS协议和功能。 网络服务器软件,包括微软公司的IIS、Apache和Nginx。 框架,包括Rails、Django、微软ASP.NET和PHP。 数据库服务器、存储协议和键值对存储。
book
Python高级编程(第2版)
使用Python3.5学习编码实践以及高级概念 Key Features 本书是Python的高级读物,它不是介绍如何使用Python编程,而是如何利用Python更好地编程,教会读者提高编程技能。 Book Description Python作为一种高级程序设计语言,凭借其简洁、易读及可扩展性日渐成为程序设计领域备受推崇的语言之一。 本书基于Python 3.5版本进行讲解,通过13章的内容,深度揭示了Python编程的高级技巧。本书从Python语言及其社区的现状开始介绍,对Python语法、命名规则、Python包的编写、部署代码、扩展程序开发、管理代码、文档编写、测试开发、代码优化、并发编程、设计模式等重要话题进行了全面系统化的讲解。 本书适合想要进一步提高自身Python编程技能的读者阅读,也适合对Python编程感兴趣的读者参考学习。全书结合典型且实用的开发案例,可以帮助读者创建高性能的、可靠且可维护的Python应用。 What you will learn 了解在Python社区中广泛采用的约定和最佳实践; 高效打包Python代码,以便将其应用于社区和生产; …
book
可编程网络自动化
与系统管理员一样,网络工程师如今也发现无法再手动完成所有工作。随着网络行业迎来新协议、新技术、新交付模型,企业对敏捷性和灵活性的需求愈加迫切,网络自动化也随之变得至关重要。本书向网络工程师展示了如何使用包括Linux、Python、JSON和XML在内的一系列工具,通过代码实现网络自动化。 网络自动化的核心是简化与网络设备、网络拓扑、网络服务和网络连通性的配置、管理、操作相关的任务。通过学习本书,你将掌握完成这一关键转变所需的基本技能和工具。 本书包含以下内容。 Python基础知识:数据类型、条件逻辑、循环、函数、类、模块 网络自动化涉及的Linux基础知识 数据格式与数据模型:YAML、XML、JSON、YANG 网络配置模板,如Jinja模板 使用网络API实现网络自动化 在自动化过程中使用Git控制源代码 使用Ansible、Salt、StackStorm等自动化工具 关键的持续集成工具和技术