R大数据分析实用指南

Book description

了解R的核心功能及第三方软件包,掌握大数据处理的重要秘诀

Key Features

  • 本书挑战了关于R语言不支持大数据流程和分析的偏见
  • 从数据导入和管理到高级分析和预测建模的大数据产品周期的所有阶段中亲身体验各种工具与R的整合

Book Description

R是一个强大的、开源的、函数式编程语言,可以用于广泛的编程任务。一般来讲,R语言的应用主要在数据统计与分析、机器学习、高性能计算等方面。R语言已经在多个领域赢得了认可,同时也基于其开源、免费的特点不断地发展壮大。

本书通过9章内容,循序渐进地揭示了大数据的概念,介绍了如何使用R进行数据处理,如何创建Hadoop虚拟机,如何建立和部署SQL数据库,同时还介绍了MongoDB、HBase、Spark、Hive相关的内容,并在本书的最后介绍了R的潜在应用场景。

本书适合中级数据分析师、数据工程师、统计学家、研究人员和数据科学家阅读,需要读者具备数据分析、数据管理和大数据算法的基本知识。

What you will learn

  • 如何使用R进行数据处理
  • 如何创建Hadoop虚拟机
  • 如何建立和部署SQL数据库
  • MongoDB、HBase、Spark、Hive的相关内容
  • R的潜在应用场景

Who this book is for

本书适合中级数据分析师、数据工程师、统计学家、研究人员和数据科学家,希望并计划将当前或未来的大数据分析流程与R编程语言相结合。 本书假定读者已有一些数据分析、数据管理和大数据算法的经验,有可能只是欠缺一些与R相关的开源大数据工具的使用技能。

Table of contents

  1. 版权信息
  2. 版 权
  3. 版权声明
  4. 内容提要
  5. 作者简介
  6. 致谢
  7. 技术审稿人简介
  8. 前言
  9. 资源与支持
  10. 第1章 大数据时代
    1. 1.1 大数据——重新定义怪物
    2. 1.2 大数据工具箱——为大而生
      1. 1.2.1 Hadoop——屋中之象
      2. 1.2.2 数据库
      3. 1.2.3 Hadoop的Spark化
    3. 1.3 R语言——大数据的无冕之王
    4. 1.4 小结
  11. 第2章 R编程语言与统计环境的介绍
    1. 2.1 学习R
    2. 2.2 R语言基础回顾
      1. 2.2.1 准备R和RStudio
      2. 2.2.2 R语言数据结构
      3. 2.2.3 导出R数据对象
    3. 2.3 应用数据科学与R
      1. 2.3.1 导入不同格式的数据
      2. 2.3.2 探索性数据分析
      3. 2.3.3 数据聚合和列联表
      4. 2.3.4 假设检验和统计推断
      5. 2.3.5 数据可视化包
    4. 2.4 小结
  12. 第3章 由内而外释放R的力量
    1. 3.1 R的传统局限性
      1. 3.1.1 内存外的数据
      2. 3.1.2 处理速度
    2. 3.2 超越内存限制
      1. 3.2.1 使用ff和ffbase软件包进行数据转换和聚合
      2. 3.2.2 使用ff和ffbase包的广义线性模型
      3. 3.2.3 使用bigmemory包扩展内存
    3. 3.3 R的并行
      1. 3.3.1 从bigmemory到更快的计算
      2. 3.3.2 未来的R并行处理
    4. 3.4 使用data.table包和其他工具提高R性能
      1. 3.4.1 使用data.table包快速数据导入和操作
      2. 3.4.2 编写更好的R代码
    5. 3.5 小结
  13. 第4章 R相关的Hadoop和MapReduce框架
    1. 4.1 Hadoop架构
      1. 4.1.1 Hadoop分布式文件系统
      2. 4.1.2 MapReduce框架
      3. 4.1.3 其他Hadoop原生工具
      4. 4.1.4 学习Hadoop
    2. 4.2 云上的单节点Hadoop
      1. 4.2.1 在Azure上部署Hortonworks Sandbox
      2. 4.2.2 Java语言的Hadoop单词记数示例
      3. 4.2.3 R语言的Hadoop单词记数示例
    3. 4.3 HDInsight——Azure上的多节点Hadoop集群
      1. 4.3.1 创建第一个HDInsight集群
      2. 4.3.2 智能电表数据分析示例——在HDInsight集群上使用R
    4. 4.4 小结
  14. 第5章 R与关系型数据库管理系统(RDBMS)
    1. 5.1 关系型数据库管理系统(RDBMS)
      1. 5.1.1 常用RDBMS简介
      2. 5.1.2 结构化查询语言(SQL)
    2. 5.2 用SQLite连接R
      1. 5.2.1 准备并导入数据到本地SQLite数据库
      2. 5.2.2 通过RStudio连接SQLite数据库
    3. 5.3 在Amazon EC2实例中连接MariaDB和R
      1. 5.3.1 准备EC2实例和RStudio服务器
      2. 5.3.2 准备MariaDB和数据
      3. 5.3.3 连接MariaDB和RStudio
    4. 5.4 连接Amazon RDS上的PostgreSQL和R
      1. 5.4.1 启动一个Amazon RDS数据库实例
      2. 5.4.2 准备并上传数据到Amazon RDS上
      3. 5.4.3 从RStudio 远程查询 Amazon RDS上的PostgreSQL
    5. 5.5 小结
  15. 第6章 R与非关系型数据库
    1. 6.1 NoSQL数据库简介
      1. 流行非关系型数据库简介
    2. 6.2 用R操作MongoDB
      1. 6.2.1 MongoDB简介
      2. 6.2.2 在Amazon EC2上安装MongoDB并与R连接
      3. 6.2.3 使用MongoDB和R处理大数据
    3. 6.3 Hbase与R
      1. 6.3.1 Azure HDInsight与HBase和RStudio Server
      2. 6.3.2 将数据导入HDFS和HBase
      3. 6.3.3 使用rhbase包读取和查阅 Hbase
    4. 6.4 小结
  16. 第7章 比Hadoop更快——使用R编写Spark
    1. 7.1 为大数据分析服务的Spark
    2. 7.2 多节点HDInsight集群上使用R的Spark
      1. 7.2.1 部署使用支持Spark和R/RStudio的HDInsight
      2. 7.2.2 将数据读入HDFS和Hive
      3. 7.2.3 使用SparkR分析湾区共享单车数据
    3. 7.3 小结
  17. 第8章 R语言大数据机器学习
    1. 8.1 机器学习是什么
      1. 8.1.1 机器学习算法
      2. 8.1.2 监督和无监督机器学习方法
      3. 8.1.3 分类和聚类算法
      4. 8.1.4 R机器学习方法
      5. 8.1.5 大数据机器学习工具
    2. 8.2 在HDInsight集群中使用Spark和R的GLM示例
      1. 8.2.1 准备Spark群集并从HDFS读取数据
      2. 8.2.2 Spark中的R语言逻辑回归
    3. 8.3 R中基于Hadoop H2O 的朴素贝叶斯
      1. 8.3.1 在R中运行Hadoop上的H2O实例
      2. 8.3.2 读取和探索H2O中的数据
      3. 8.3.3 R中基于H2O的朴素贝叶斯
    4. 8.4 R中基于Hadoop H2O 的神经网络
      1. 8.4.1 神经网络的工作原理
      2. 8.4.2 在H2O上运行神经网络模型
    5. 8.5 小结
  18. 第9章 R语言的未来——大数据、快数据、智能数据
    1. 9.1 R大数据分析的现状
      1. 9.1.1 超过单机内存的数据
      2. 9.1.2 更快的R数据处理
      3. 9.1.3 Hadoop与R
      4. 9.1.4 Spark与R
      5. 9.1.5 R与数据库
      6. 9.1.6 机器学习与R
    2. 9.2 R的未来
      1. 9.2.1 大数据
      2. 9.2.2 快数据
      3. 9.2.3 智能数据
    3. 9.3 如何提升
    4. 9.4 小结

Product information

  • Title: R大数据分析实用指南
  • Author(s): Posts & Telecom Press, Simon Walkowiak
  • Release date: May 2024
  • Publisher(s): Packt Publishing
  • ISBN: 9781836205791

You might also like

book

程序员学数据结构

by Posts & Telecom Press, William Smith

一本帮助你轻松掌握数据结构的实用指南 Objective-C、C#、Java和Swift多种语言案例 Key Features 使用一系列主流移动软件开发平台通用的语言编写了示例程序 通过示例程序向读者介绍了多种数据结构和对应的用法 通过示例程序用浅显易懂的方式展示了很多实际案例 Book Description 本书通过实用的例子来帮助读者快速理解多种数据结构和它们在实际应用程序中的使用方法。本书使用一系列主流移动软件开发平台通用的语言编写了示例程序,并通过这些示例程序向读者介绍了多种数据结构和对应的用法。同时,本书还通过示例程序用浅显易懂的方式展示了很多实际案例。 本书的第一部分涵盖了大多数语言(如Objective-C、C#、Java以及Swift)均支持的基本数据结构,详细地介绍了如数组、列表、栈、队列、堆这些数据结构的用法和典型应用,并针对每种语言探讨了这些数据结构所独有的特点。这些章节均设有案例学习,通过讲解如何解决实际问题以帮助读者更深入地理解这些数据结构的内涵。 本书的第二部分讨论一些与数据结构相关的高级知识,如泛型数据集、递归、排序和查找。这些章节也提供了相应的案例学习,帮助读者将这些知识应用到自己的应用开发中。 本书适合初学编程或自学编程的人员以及计算机相关专业的教师和学生阅读,也非常适合程序员参考。 What you will …

book

Python算法交易实战

by Posts & Telecom Press, Sebastien Donadio

金融科技系列图书新作,了解经典实用的算法交易策略,构建自己的算法交易系统,赢在金融交易起跑线(送配套源代码和彩图资源) Key Features 由浅入深地讲解算法交易的相关知识 从基础知识和环境配置讲起 讲解如何通过编程完成交易信息的生成与交易策略的实施 介绍众多算法交易策略,以及如何管理算法策略中的风险 带领读者用Python建立自己交易系统 Book Description 本书由浅入深地讲解了算法交易的相关知识,首先从基础知识和环境配置讲起,其次讲解如何通过编程完成交易信息的生成与交易策略的实施,随后介绍众多算法交易策略,以及如何管理算法策略中的风险,最后带领读者用Python建立自己交易系统,并迎接算法交易的深层挑战。 全书共分为10章,包括算法交易的基础原理、通过技术分析解读市场、通过基础机器学习预测市场、人类直觉驱动的经典交易策略、复杂的算法策略、管理算法策略中的风险、用Python构建交易系统、连接到交易所、在Python中创建回测器、适应市场参与者和环境。 What you will learn …

book

精通R语言

by Posts & Telecom Press, Edina Berlinger, Ferenc Illés, Milán Badics, Ádám Banai

学习量化金融R语言高级教程,掌握R语言金融建模的核心技术,构建定制化的量化交易平台 Key Features R语言是数据处理的绝佳工具,将R语言引入金融定量分析可以更好地优化分析过程,高效获取分析结果。 本书是量化金融领域的R语言学习指南,通过阅读本书,读者可以了解核心的R语言建模技巧,掌握量化金融的关键技术。 Book Description R是一种功能强大的开源泛函式编程语言,提供了高水平的图形和对其他语言的接口。它的优点在于数据分析、绘图、可视化以及数据操作。在科学、工程以及商业领域,R正在成为一种被广泛使用的建模工具。 本书通过13章的内容向读者详细介绍了使用R语言实现量化金融的方方面面。本书从时间序列分析开始讲解,并教给你如何预测VWAP的交易成交量。本书还涵盖了外汇衍生品、利率衍生品以及期权对冲等内容。最后的几章概览了流动性风险管理、风险测度以及更多相关内容。 本书的目标读者是那些既熟悉基本金融概念又具有一定编程能力的人。通过阅读本书,读者可以了解R语言与量化金融相关的各类知识和编程技巧。 What you will learn 时间序列分析 因素模型 …

audiobook

Difficult Conversations

by Harvard Business Review

You have to talk with a colleague about a fraught situation, but you're worried that they'll …