Book description
作为计算框架,Spark速度快,开发简单,能同时兼顾批处理和实时数据分析,因此很快被广大企业级用户所采纳,并随着近年人工智能的崛起而成为分析和挖掘大数据的重要得力工具。
本书由业内知名数据科学家执笔,通过丰富的示例展示了如何结合Spark、统计方法和真实世界数据集来解决数据分析问题,既涉及模型的构建和评价,也涵盖数据清洗、数据预处理和数据探索,并描述了如何将结果变为生产应用,是运用Apache Spark进行大数据分析和处理的实战宝典。
第2版根据新版Spark最佳实践,对样例代码和所用资料做了大量更新。
本书涵盖模式如下:
- 音乐推荐和Audioscrobbler数据集
- 用决策树算法预测森林植被
- 基于K均值聚类进行网络流量异常检测
- 基于潜在语义算法分析维基百科
- 用GraphX分析伴生网络
- 对纽约出租车轨迹进行空间和时间数据分析
- 通过蒙特卡罗模拟来评估金融风险
- 基因数据分析和BDG项目
- 用PySpark和Thunder分析神经图像数据
Table of contents
Product information
- Title: Spark高级数据分析(第2版)
- Author(s):
- Release date: June 2018
- Publisher(s): Posts & Telecom Press
- ISBN: None
You might also like
book
Tidy First?
Messy code is a nuisance. "Tidying" code, to make it more readable, requires breaking it up …
book
Programming Pearls, 2nd Edition
When programmers list their favourite books, Jon Bentley’s collection of programming pearls is commonly included among …
book
An Artist's Guide to Programming
An Artist's Guide to Programming teaches computer programming with the aid of 100 example programs, each …
book
Generative Deep Learning, 2nd Edition
Generative AI is the hottest topic in tech. This practical book teaches machine learning engineers and …