Skip to Main Content
Hadoop数据分析
book

Hadoop数据分析

by Benjamin Bengfort, Jenny Kim
April 2018
Intermediate to advanced content levelIntermediate to advanced
229 pages
6h 19m
Chinese
Posts & Telecom Press
Content preview from Hadoop数据分析
数据挖掘和数据仓储
103
本章将介绍一些
Hadoop
中的主要框架和工具,用于实现数据仓储和数据挖掘功能;还将
探索
Hadoop
最受欢迎的基于
SQL
的查询引擎
Hive
,以及
NoSQL
数据库
HBase
;最后,
将再简单介绍一些数据仓储领域的著名
Hadoop
项目。
6.1
 
Hive
结构化数据查询
Apache Hive
是一个建立在
Hadoop
之上的“数据仓储”框架。
Hive
为数据分析人员提供了
熟悉的、基于
SQL
Hadoop
接口,使他们能为
HDFS
中的数据添加结构化模式,并能使用
SQL
查询访问和分析该数据。
Hive
使熟练使用
SQL
的开发人员能发挥
Hadoop
的可扩展性
和弹性,而不需要他们学习
Java
或原生的
MapReduce API
Hive
提供了自己的
SQL
方言,被称为
Hive
查询语言(
Hive Query Language
HQL
)。
HQL
支持许多常用的
SQL
语句,包括数据定义语句(
data definition statement
DDL
,例如 CREATE
DATABASE/SCHEMA/TABLE)、数据操作语句(
data manipulation statement
DMS
,例如 INSERT
UPDATE LOAD)和数据检索查询
(例如 SELECT)。
Hive
还支持集成用户定义函数,这些函数
可以由
Java
Hadoop Streaming
支持的任何语言编写,扩展了
HQL
的内置功能。
Hive
命令和
HQL
查询被编译成
执行计划
或一系列
HDFS
操作和
/
MapReduce
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Kudu:构建高性能实时数据分析存储系统

Kudu:构建高性能实时数据分析存储系统

Jean-Marc Spaggiari, Mladen Kovacevic, Brock Noland, Ryan Bosshart
Java并发编程实战

Java并发编程实战

Brian Goetz, Tim Peierls
面向机器学习的自然语言标注

面向机器学习的自然语言标注

James Pustejovsky, Amber Stubbs

Publisher Resources

ISBN: 9787115479648