第10章 使用Apache Accumulo进行持久化

本章我们将介绍:

在Accumulo 中设计行键存储地理事件

使用MapReduce 批量导入地理事件数据到Accumulo

设置自定义字段约束Accumulo 中的地理事件数据

使用正则过滤器限制查询结果

使用SumCombiner计算同一个键的不同版本的死亡数总和

使用Accumulo 实行单元级安全的扫描

使用MapReduce 聚集Accumulo 中的消息源

10.1 介绍

大数据存储是一个日益热门的话题。软件工程在面对数据频繁扩展的需求时不得不花高价购买昂贵的关系数据库商业许可证,或者更糟,不得不依赖那些水平扩展性能差的解决方案。在过去的几年中,我们已经看到了许多可行的开源数据库解决方案用来帮助管理大量的结构化和非结构化数据。Apache Accumulo 的灵感来自谷歌BigTable 的设计方法,并支持水平扩展,支持Apache Hadoop 的分布式列数据的持久化。BigTable 设计的细节可以参考http://research.google.com/archive/bigtable.html。本章将用几节来介绍常见的数据库查询和加载任务,并展示Accumulo帮助简化实现的许多特性。

10.2 在Accumulo中设计行键存储地理事件

武装冲突位置事件数据(ACLED)是对一个广泛的地理区域内发生的独立事件进行收集。本章将展示我们如何利用Accumulo的关键词排序将事件按照地理位置范围进行分组。此外,每个地理位置范围将按照事件发生的顺序来存放。具体来说,本节中的代码展示了如何从我们的记录中创建 ACLED 键值的逻辑。为了验证生成的键值符合我们的预期,我们会将代码编译,并使用一些样本数据进行单元测试。 ...

Get Hadoop实际解决方案手册 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.