第7章 从Storm到Sink

在本章,我们将稳定存储和集成到Storm拓扑——先安装Cassandra,然后通过Storm进行集成。

本章主要包括以下内容

  • 安装并配置Cassandra
  • Storm和Cassandra拓扑
  • Storm和IMDB集成处理维度数据
  • 集成表示层与Storm
  • 小试牛刀

在开始安装和配置Cassandra之前,首先解释一下Cassandra是什么以及为什么它如此受欢迎。Cassandra是一个列式存储的NoSQL数据库。如果用户需要高可用性和高扩展性,那么Cassandra将是最佳选择。Cassandra具有很高的读写性能,但只保证最终一致性。

最终一致性指当用户在数据库中插入一条记录同时另一个用户读取它时,可能会使新添加的记录对用户可见或者不可见。Cassandra中的Keyspace与RDMS中的数据库相同,其余术语与RDMS相同。Cassandra是一个开源组件,如果用户需要使用设计好的UI管理集群,那么请使用DataStax。DataStax提供付费高级服务,可以全职支持。接下来看看如何设置Cassandra。

下载最新的Cassandra 3.10版本。下载apache-cassandra-3.10-bin.tar.gz,执行如下命令来解压缩。

mw apache-cassandra-3.10-bin.tar.gz ~/demo
tar -xvf ~/demo/apache-cassandra-3.10-bin.tar.gz

解压缩后的文件列表,如图7-1所示。

图7-1

在本地单机运行Cassandra程序。

/bin/Cassandra

Cassandra作为后台进程启动,按Enter键退出日志。为了验证Cassandra是否正常工作,可以执行如下命令。 ...

Get 实时数据处理和分析指南 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.