Kudu:构建高性能实时数据分析存储系统

Book description

要在Hadoop生态系统中实现对数据的快速输入和分析,开发人员和架构师只有少数可用但是不够完美的解决方案可选择,要么以缓慢的数据输入为代价实现快速分析,要么以缓慢的分析为代价实现快速的数据输入。这个问题现在有了解决办法。使用Kudu提供的基于列的数据存储,你可以很容易地对快速输入的数据进行快速的分析。这就是本书的内容。

Kudu始于Cloudera的一个内部项目,是一个与Hadoop生态系统中的许多数据处理框架兼容的开源解决方案。在本书中,Cloudera的现任和前任解决方案专家提供了用例、示例、有用实践和代码,以帮助你快速熟悉Kudu。

  • 探索Kudu的高级设计,包括如何把数据分散到多台服务器
  • 全面管理一个Kudu集群,启用安全功能,添加或删除节点
  • 了解Kudu的客户端API,包括如何集成Impala、Spark和其他框架来处理数据
  • 学习Kudu的模式设计,包括成功实施项目所必须了解的基本概念和元素
  • 探索使用Kudu进行实时物联网分析、预测建模以及与其他存储引擎组合等应用场景

Table of contents

  1. 封面
  2. 扉页
  3. 版权页
  4. O’Reilly Media, Inc.介绍
  5. 献词
  6. 目录 (1/2)
  7. 目录 (2/2)
  8. 前言
    1. 本书使用的约定
    2. 使用代码示例
    3. O’Reilly Safari
    4. 联系我们
    5. 致谢
  9. 第1章 为什么会有Kudu
    1. Kudu为什么重要
    2. 易用性驱动接纳度
    3. 新的应用场景
      1. 物联网
      2. 现有的实时分析方案 (1/2)
      3. 现有的实时分析方案 (2/2)
      4. 实时处理
    4. 硬件环境
    5. Kudu在大数据生态中的独特位置
      1. 与其他生态系统的组件对比
      2. 与大数据组件对比——HDFS、HBase和Cassandra
    6. 小结
  10. 第2章 Kudu简介
    1. Kudu的高层设计
      1. Kudu中的角色
      2. master服务器
      3. tablet服务器 (1/2)
      4. tablet服务器 (2/2)
    2. Kudu中的概念与机制
      1. 热点
      2. 分区
  11. 第3章 安装与运行
    1. 安装
      1. 使用Kudu Quickstart VM
      2. 使用Cloudera Manager
      3. 从源代码构建
      4. 软件包
      5. Cloudera Quickstart VM
    2. 快速安装:3分钟或者更短
    3. 小结
  12. 第4章 Kudu的管理
    1. 为Kudu做规划
      1. master服务器和tablet服务器
      2. 预写日志
      3. 数据服务器和存储
      4. 复制策略(replication strategy)
    2. 部署时的注意事项:是采用新集群还是现有集群
      1. 全新的仅有Kudu的集群
      2. 全新的包含Kudu的Hadoop集群 (1/2)
      3. 全新的包含Kudu的Hadoop集群 (2/2)
      4. 在现有的Hadoop集群中添加Kudu
    3. tablet服务器和master服务器的Web UI
      1. master服务器UI和tablet服务器UI
      2. master服务器UI
      3. tablet服务器UI
    4. Kudu命令行接口
      1. 集群
      2. 文件系统 (1/2)
      3. 文件系统 (2/2)
      4. tablet副本 (1/3)
      5. tablet副本 (2/3)
      6. tablet副本 (3/3)
      7. 与Raft一致性相关的元数据
    5. 添加和删除tablet服务器
      1. 添加tablet服务器
      2. 删除tablet服务器
    6. 安全
      1. 一个简单的类比
      2. Kudu的安全功能
    7. 基本的性能调优
      1. Kudu的内存限制
      2. 维护管理器的线程
      3. 监控性能
    8. 未雨绸缪,远离麻烦
      1. 避免耗尽磁盘空间
      2. 容忍磁盘故障
      3. 备份
    9. 小结
  13. 第5章 Kudu常用的开发接口
    1. 客户端API
      1. Kudu Client(客户端)
      2. Kudu Table
      3. Kudu DDL
      4. Kudu扫描器(Scanner)读取模式
    2. C++ API
    3. Python API
      1. 准备Python开发环境
      2. 使用Python开发Kudu应用
    4. Java
      1. Java应用
    5. Spark
    6. 在Impala中使用Kudu
  14. 第6章 表和模式设计
    1. 模式设计基础
    2. 在线事务处理/在线分析处理混合的模式设计
      1. Lambda架构
      2. OLTP/OLAP拆分
    3. 主键和列的设计
      1. 列模式的其他注意事项 (1/2)
      2. 列模式的其他注意事项 (2/2)
    4. 分区的基础知识
      1. 范围分区
      2. 哈希分区
    5. 模式的更改
    6. 最佳实践和提示
      1. 分区
      2. 大对象
      3. decimal(十进制数)
      4. 不重复的字符串
      5. 压缩
      6. 对象的命名
      7. 列的数量
      8. 二进制类型
    7. 网络包示例
    8. 小结
  15. 第7章 Kudu用例
    1. 实时物联网分析
    2. 预测建模
    3. 多平台混合方案
  16. 关于作者
  17. 封面图片

Product information

  • Title: Kudu:构建高性能实时数据分析存储系统
  • Author(s): Jean-Marc Spaggiari, Mladen Kovacevic, Brock Noland, Ryan Bosshart
  • Release date: March 2019
  • Publisher(s): Publishing House of Electronics Industry
  • ISBN: None