大规模数据分析和建模:基于 Spark 与 R

Book description

如果你和大多数R语言用户一样,那你肯定喜欢统计学,也能够深入理解统计学。但是随着组织内部不断收集大量数据,添加Apache Spark这类工具就变得理所当然。在本书中,数据科学家和使用大规模数据应用的专业人员会学到如何使用Spark和R解决大数据和大计算问题。

作者会展示如何将Spark和R结合起来进行大数据分析。本书涵盖相关的数据科学话题、聚类计算,以及高级用户会感兴趣的问题。

  • 在Apache Spark环境下,使用R来分析、探索、转换、可视化数据。
  • 构建统计模型来提取信息并预测输出,自动化生产级的工作流程。
  • 使用分布式计算技术在多台机器上进行分析和建模。
  • 轻松使用Spark处理多个数据源和格式的大规模数据。
  • 学习其他用于大规模图处理、地理空间分析和基因组学分析的建模框架。
  • 深入高级话题,包括定制转换、实时数据处理和创建定制化Spark扩展。

Table of contents

  1. 封面
  2. 扉页
  3. 版权页
  4. O'Relly介绍
  5. 译者序
  6. 目录 (1/2)
  7. 目录 (2/2)
  8. 序言
  9. 前言 (1/2)
  10. 前言 (2/2)
  11. 第1章 引言
    1. 1.1 概述
    2. 1.2 Hadoop
    3. 1.3 Spark
    4. 1.4 R
    5. 1.5 sparklyr
    6. 1.6 小结
  12. 第2章 开始
    1. 2.1 概述
    2. 2.2 预备操作
      1. 2.2.1 安装sparklyr
      2. 2.2.2 安装Spark
    3. 2.3 连接
    4. 2.4 使用Spark
      1. 2.4.1 网络接口
      2. 2.4.2 分析
      3. 2.4.3 建模
      4. 2.4.4 数据
      5. 2.4.5 扩展
      6. 2.4.6 分布式R
      7. 2.4.7 流式数据
      8. 2.4.8 日志
    5. 2.5 断开连接
    6. 2.6 使用RStudio
    7. 2.7 资源
    8. 2.8 小结
  13. 第3章 分析
    1. 3.1 概述
    2. 3.2 数据导入
    3. 3.3 数据整理
      1. 3.3.1 内置函数
      2. 3.3.2 相关性
    4. 3.4 可视化
      1. 3.4.1 使用ggplot2
      2. 3.4.2 使用dbplot
    5. 3.5 建模
    6. 3.6 沟通
    7. 3.7 小结
  14. 第4章 建模
    1. 4.1 概述
    2. 4.2 探索性数据分析 (1/2)
    3. 4.2 探索性数据分析 (2/2)
    4. 4.3 特征工程
    5. 4.4 监督式学习
      1. 4.4.1 广义线性回归
      2. 4.4.2 其他模型
    6. 4.5 非监督式学习
      1. 4.5.1 数据准备
      2. 4.5.2 主题建模
    7. 4.6 小结
  15. 第5章 管道操作
    1. 5.1 概述
    2. 5.2 创建工作
    3. 5.3 用例
    4. 5.4 操作模式
    5. 5.5 交互性
    6. 5.6 部署
      1. 5.6.1 批打分
      2. 5.6.2 实时打分
    7. 5.7 小结
  16. 第6章 集群
    1. 6.1 概述
    2. 6.2 本地化
      1. 6.2.1 管理器
      2. 6.2.2 发行版
    3. 6.3 云端
      1. 6.3.1 亚马逊
      2. 6.3.2 Databricks
      3. 6.3.3 谷歌
      4. 6.3.4 IBM
      5. 6.3.5 微软
      6. 6.3.6 Qubole
    4. 6.4 Kubernetes
    5. 6.5 工具
      1. 6.5.1 RStudio
      2. 6.5.2 Jupyter
      3. 6.5.3 Livy
    6. 6.6 小结
  17. 第7章 连接
    1. 7.1 概述
      1. 7.1.1 边缘节点
      2. 7.1.2 Spark主目录
    2. 7.2 本地模式
    3. 7.3 单机模式
    4. 7.4 YARN
      1. 7.4.1 YARN客户端
      2. 7.4.2 YARN集群
    5. 7.5 Livy
    6. 7.6 Mesos
    7. 7.7 Kubernetes
    8. 7.8 云模式
    9. 7.9 批量模式
    10. 7.10 工具
    11. 7.11 多次连接
    12. 7.12 故障排除
      1. 7.12.1 记录日志
      2. 7.12.2 Spark Submit
      3. 7.12.3 Windows
    13. 7.13 小结
  18. 第8章 数据
    1. 8.1 概述
    2. 8.2 读取数据
      1. 8.2.1 路径
      2. 8.2.2 模式
      3. 8.2.3 内存
      4. 8.2.4 列
    3. 8.3 写入数据
    4. 8.4 复制数据
    5. 8.5 文件格式
      1. 8.5.1 CSV
      2. 8.5.2 JSON
      3. 8.5.3 Parquet
      4. 8.5.4 其他
    6. 8.6 文件系统
    7. 8.7 存储系统
      1. 8.7.1 Hive
      2. 8.7.2 Cassandra
      3. 8.7.3 JDBC
    8. 8.8 小结
  19. 第9章 调试
    1. 9.1 概述
      1. 9.1.1 计算图
      2. 9.1.2 时间线
    2. 9.2 配置
      1. 9.2.1 连接设置
      2. 9.2.2 提交设置
      3. 9.2.3 运行时设置
      4. 9.2.4 sparklyr设置
    3. 9.3 分区
      1. 9.3.1 隐式分区
      2. 9.3.2 显式分区
    4. 9.4 缓存
      1. 9.4.1 检查点
      2. 9.4.2 内存
    5. 9.5 重洗
    6. 9.6 序列化
    7. 9.7 配置文件
    8. 9.8 小结
  20. 第10章 扩展
    1. 10.1 概述
    2. 10.2 H2O
    3. 10.3 图模型
    4. 10.4 XGBoost
    5. 10.5 深度学习
    6. 10.6 基因组学
    7. 10.7 空间数据
    8. 10.8 故障排除
    9. 10.9 小结
  21. 第11章 分布式R
    1. 11.1 概述
    2. 11.2 用例
      1. 11.2.1 定制解析器
      2. 11.2.2 分区建模
      3. 11.2.3 网格搜索
      4. 11.2.4 Web API
      5. 11.2.5 模拟
    3. 11.3 分区
    4. 11.4 分组
    5. 11.5 列
    6. 11.6 context参数
    7. 11.7 函数
    8. 11.8 程序包
    9. 11.9 集群需求
      1. 11.9.1 安装R
      2. 11.9.2 Apache Arrow
    10. 11.10 故障排除
      1. 11.10.1 工作节点日志
      2. 11.10.2 解决超时
      3. 11.10.3 检查分区
      4. 11.10.4 调试工作节点
    11. 11.11 小结
  22. 第12章 数据流
    1. 12.1 概述
    2. 12.2 转换
      1. 12.2.1 分析
      2. 12.2.2 建模
      3. 12.2.3 管道
      4. 12.2.4 分布式R
    3. 12.3 Kafka
    4. 12.4 Shiny
    5. 12.5 小结
  23. 第13章 社区贡献
    1. 13.1 概述
    2. 13.2 Spark API
    3. 13.3 Spark扩展
    4. 13.4 使用Scala代码
    5. 13.5 小结
  24. 附录A 补充参考代码 (1/4)
  25. 附录A 补充参考代码 (2/4)
  26. 附录A 补充参考代码 (3/4)
  27. 附录A 补充参考代码 (4/4)
  28. 作者介绍
  29. 封面介绍

Product information

  • Title: 大规模数据分析和建模:基于 Spark 与 R
  • Author(s): Javier Luraschi, Kevin Kuo, Edgar Ruiz
  • Release date: July 2020
  • Publisher(s): China Machine Press
  • ISBN: 9787111661016

You might also like

book

数据驱动设计:A/B 测试提升用户体验

by Rochelle King, Elizabeth F. Churchill, Caitlin Tan

从表面上看,设计实践和数据科学没什么关系。但实际上,它们的目标都是协助设计师与产品经理了解用户,打造非凡的数字化体验。数据能够提升设计,设计能体现数据的价值。 这本实用指南将向你展示,如何通过数据驱动的A/B测试进行决策,从设计微调至大范围的用户体验概念,以真实的实践案例,阐述如何将数据驱动的设计融入产品设计流程。 了解数据、业务与设计之间的关系 切实了解数据、数据类型和A/B测试构成 借助实验框架定义机会、构建假设、测试不同方案 基于关键指标与业务目标构建假设 针对可行性最强的假设,设计解决方案 分析A/B测试结果,制定下一步行动计划

book

机器学习实战:基于Scikit-Learn、Keras 和TensorFlow (原书第2 版)

by Aurélien Géron

随着一系列的技术突破,深度学习推动了整个机器学习领域的发展。现在,即使是对这项技术几乎一无所知的程序员也可以使用简单有效的工具来实现“可以自动从数据中学习”的程序。这本畅销书的更新版通过具体的示例、非常少的理论和可用于生产环境的Python框架来帮助你直观地理解并掌握构建智能系统所需要的概念和工具。 你会学到一系列可以快速使用的技术。每章的练习可以帮助你应用所学的知识,你只需要有一些编程经验。所有代码都可以在GitHub上获得。它已更新为TensorFlow 2和Scikit-Learn的新版本。 使用Scikit-Learn和pandas通过端到端项目来学习机器学习基础。 使用TensorFlow 2构建和训练多个神经网络架构来进行分类和回归。 覆盖对象检测、语义分割、注意力机制、语言模型、GAN等。 探索Keras API与TensorFlow 2的官方高级API。 使用TensorFlow的数据API、分布策略API、TF Transform和TF-Serving来部署TensorFlow模型。 在Google Cloud AI Platform或移动设备上部署。 …

book

数字化转型:企业破局的34 个锦囊

by Gary O’Brien, Xiao Guo, Mike Mason

数字化时代正在对各行各业产生广泛而深远的影响。不是简单地将自动化或数字技术嵌入现有产品中去,而是需要重新考虑一切。在这本实操性质的书中,ThoughtWorks的三名专业人士提供了34个锦囊,帮助企业跨越转型,同时提供了相关的技术概念,助力你成为现代数字业务中的高效领导者。 本书包含丰富的实用性建议和案例研究,展示了企业是如何转型的,还揭示了指导企业数字化转型的相关经验教训。虽然转型没有银弹可用,但你将找到在组织中推行变革的有效方法。 通过阅读本书,你将了解: 如何重新调整业务和运营架构,关注客户价值。 如何建立一个响应更快、更敏捷的组织来应对发展速度和环境的不确定性。 如何构建下一代技术能力来作为企业的核心竞争力。

book

文本挖掘:基于R 语言的整洁工具

by Julia Silge, David Robinson

当前很多数据都是非结构化的大规模文本,这给分析和可视化带来了挑战。本书使用实用的tidytext软件包来介绍文本挖掘技术,该包是由Julia Silge和David Robinson共同开发的R软件包(类似于ggplot2和dplyr软件包),开发时采用了整洁原则。本书将会介绍如何利用tidytext以及其他整洁工具使文本分析变得更容易、更有效。 本书展示如何将文本转换为数据框,然后提取和可视化文本的特征;并介绍如何将自然语言处理(NLP)融入有效的工作流程中;实用的代码示例和数据分析将帮助你了解文学作品、新闻和社交媒体中的有用信息。 如何将tidytext格式应用于NLP 用情感分析方法挖掘文本中的情感内容 以词频作为衡量标准来确定文档中最重要的词项 使用ggraph和widyr软件包来分析单词之间的关系 在R的整洁格式和不整洁文本格式之间互相转换 使用主题建模对文档集合进行分类 案例研究:Twitter归档文件比较、挖掘NASA元数据、分析数千个Usenet消息