Book description
作为计算框架,Spark速度快,开发简单,能同时兼顾批处理和实时数据分析,因此很快被广大企业级用户所采纳,并随着近年人工智能的崛起而成为分析和挖掘大数据的重要得力工具。
本书由业内知名数据科学家执笔,通过丰富的示例展示了如何结合Spark、统计方法和真实世界数据集来解决数据分析问题,既涉及模型的构建和评价,也涵盖数据清洗、数据预处理和数据探索,并描述了如何将结果变为生产应用,是运用Apache Spark进行大数据分析和处理的实战宝典。
第2版根据新版Spark最佳实践,对样例代码和所用资料做了大量更新。
本书涵盖模式如下:
- 音乐推荐和Audioscrobbler数据集
- 用决策树算法预测森林植被
- 基于K均值聚类进行网络流量异常检测
- 基于潜在语义算法分析维基百科
- 用GraphX分析伴生网络
- 对纽约出租车轨迹进行空间和时间数据分析
- 通过蒙特卡罗模拟来评估金融风险
- 基因数据分析和BDG项目
- 用PySpark和Thunder分析神经图像数据
Table of contents
Product information
- Title: Spark高级数据分析(第2版)
- Author(s):
- Release date: June 2018
- Publisher(s): Posts & Telecom Press
- ISBN: 9787115482525
You might also like
book
管理Kubernetes
虽然Kubernetes极大地简化了部署容器化应用程序的工作,但每天管理这种编排框架仍然是一项复杂的工作。站点管理人员以及 开发运营工程师可以通过本书学习如何构建、操作、管理及升级 Kubernetes集群,无论这些集群位于云基础架构之上还是在企业内部。 本书的作者Brendan Burns是Kubernetes的联合创始人,而Craig Tracey 是Heptio的现场工程师。本书详细讲解了Kubernetes的内部工作原理,并向读者展示了如何通过维护、调整和改善集群来满足特定需求。你可以通过本书学习如何从设计集群、管理访问控制、监视和报警,以及升级Kubernetes等方面来综合考虑架构的选择,还可以 通过本书深入了解如何充分利用这种编排框架的功能。 “学习如何操作集群,开发人员如何利用Kubernetes部署应用程序,以及如何利用Kubernetes减轻开发人员的负担。 通过掌握Kubernetes API以及配置选项来调整、保护,以及调节集群。 检测集群级别的问题,学习必要的响应步骤并快速恢复集群。 确定如何以及何时添加构建、扩展或以其他方式改进 Kubernetes集群的库、工具和平台。
book
C#并发编程经典实例(第2版)
如今的用户对响应式界面的期望越来越高,开发人员不得不努力赋予应用程序越来越强的能力,并发编程兼顾了这两大趋势。对现代应用程序来说,并发编程迅速地成为了不可或缺的需求。然而,众多开发人员依然认为并发编程富有挑战。 如果你曾在并发编程十分复杂的年代里受挫,那么本书能帮助你重拾勇气。或许我们永远无法将并发编程形容为“小菜一碟”,但借助现代程序库以及.NET和C# 8.0的语言特性,你一定不会再如过去那般举步维艰。你将通过本书掌握以下内容。 面向异步编程的async和await 利用异步流让代码更强 利用.NET TPL探索并行编程 利用.NET TPL数据流库创建数据流管道 了解基于LINQ的System.Reactive 利用线程安全且不可变的集合 使用并发代码进行单元测试 让线程池为己所用 探索如何整合并发方法 并发代码中的取消功能支持 深入理解支持异步的面向对象编程 …
book
全脑设计:基于脑科学原理的产品设计
用户体验不是在屏幕上发生的,而是在用户的脑海中发生的。体验是多维度的、多感官的。本书可以帮助你发掘有关顾客的关键洞察,让你打造拥有卓越体验的产品与服务。 企业领导人、营销专家、产品经理和设计师可以从本书学到大脑不同区域的认知过程是如何构成我们眼中的“一次体验”的。John Whalen向你展示了团队中的任何人都可以进行“情境访谈”,以获得洞察。你还可以学到如何将这些知识加以应用,为顾客设计优秀的体验。 学习用户体验的“六元思维”,以及其中的每个元素如何构成了整体的“单一体验”。 了解如何让你的团队无须任何心理学的专业训练,就能发掘顾客有意识与潜意识认知过程的关键洞察。 学习如何快速应用你所学的知识,去改进你的产品和服务。 探索实际示例,了解财富100强公司如何运用这个体系去构建非凡体验。
book
Python机器学习基础教程
机器学习已成为许多商业应用和研究项目不可或缺的一部分,海量数据使得机器学习的应用范围远超人们想象。本书将向所有对机器学习技术感兴趣的初学者展示,自己动手构建机器学习解决方案并非难事! 书中重点讨论机器学习算法的实践而不是背后的数学,全面涵盖在实践中实现机器学习算法的所有重要内容,帮助读者使用Python和scikit-learn库一步一步构建一个有效的机器学习应用。 机器学习的基本概念及其应用 常用机器学习算法的优缺点 机器学习所处理的数据的表示方法,包括重点关注数据的哪些方面 模型评估和调参的高级方法 管道的概念 处理文本数据的方法,包括文本特有的处理方法 进一步提高机器学习和数据科学技能的建议