R大数据分析实用指南

Book description

了解R的核心功能及第三方软件包,掌握大数据处理的重要秘诀

Key Features

  • 本书挑战了关于R语言不支持大数据流程和分析的偏见
  • 从数据导入和管理到高级分析和预测建模的大数据产品周期的所有阶段中亲身体验各种工具与R的整合

Book Description

R是一个强大的、开源的、函数式编程语言,可以用于广泛的编程任务。一般来讲,R语言的应用主要在数据统计与分析、机器学习、高性能计算等方面。R语言已经在多个领域赢得了认可,同时也基于其开源、免费的特点不断地发展壮大。

本书通过9章内容,循序渐进地揭示了大数据的概念,介绍了如何使用R进行数据处理,如何创建Hadoop虚拟机,如何建立和部署SQL数据库,同时还介绍了MongoDB、HBase、Spark、Hive相关的内容,并在本书的最后介绍了R的潜在应用场景。

本书适合中级数据分析师、数据工程师、统计学家、研究人员和数据科学家阅读,需要读者具备数据分析、数据管理和大数据算法的基本知识。

What you will learn

  • 如何使用R进行数据处理
  • 如何创建Hadoop虚拟机
  • 如何建立和部署SQL数据库
  • MongoDB、HBase、Spark、Hive的相关内容
  • R的潜在应用场景

Who this book is for

本书适合中级数据分析师、数据工程师、统计学家、研究人员和数据科学家,希望并计划将当前或未来的大数据分析流程与R编程语言相结合。 本书假定读者已有一些数据分析、数据管理和大数据算法的经验,有可能只是欠缺一些与R相关的开源大数据工具的使用技能。

Table of contents

  1. 版权信息
  2. 版 权
  3. 版权声明
  4. 内容提要
  5. 作者简介
  6. 致谢
  7. 技术审稿人简介
  8. 前言
  9. 资源与支持
  10. 第1章 大数据时代
    1. 1.1 大数据——重新定义怪物
    2. 1.2 大数据工具箱——为大而生
      1. 1.2.1 Hadoop——屋中之象
      2. 1.2.2 数据库
      3. 1.2.3 Hadoop的Spark化
    3. 1.3 R语言——大数据的无冕之王
    4. 1.4 小结
  11. 第2章 R编程语言与统计环境的介绍
    1. 2.1 学习R
    2. 2.2 R语言基础回顾
      1. 2.2.1 准备R和RStudio
      2. 2.2.2 R语言数据结构
      3. 2.2.3 导出R数据对象
    3. 2.3 应用数据科学与R
      1. 2.3.1 导入不同格式的数据
      2. 2.3.2 探索性数据分析
      3. 2.3.3 数据聚合和列联表
      4. 2.3.4 假设检验和统计推断
      5. 2.3.5 数据可视化包
    4. 2.4 小结
  12. 第3章 由内而外释放R的力量
    1. 3.1 R的传统局限性
      1. 3.1.1 内存外的数据
      2. 3.1.2 处理速度
    2. 3.2 超越内存限制
      1. 3.2.1 使用ff和ffbase软件包进行数据转换和聚合
      2. 3.2.2 使用ff和ffbase包的广义线性模型
      3. 3.2.3 使用bigmemory包扩展内存
    3. 3.3 R的并行
      1. 3.3.1 从bigmemory到更快的计算
      2. 3.3.2 未来的R并行处理
    4. 3.4 使用data.table包和其他工具提高R性能
      1. 3.4.1 使用data.table包快速数据导入和操作
      2. 3.4.2 编写更好的R代码
    5. 3.5 小结
  13. 第4章 R相关的Hadoop和MapReduce框架
    1. 4.1 Hadoop架构
      1. 4.1.1 Hadoop分布式文件系统
      2. 4.1.2 MapReduce框架
      3. 4.1.3 其他Hadoop原生工具
      4. 4.1.4 学习Hadoop
    2. 4.2 云上的单节点Hadoop
      1. 4.2.1 在Azure上部署Hortonworks Sandbox
      2. 4.2.2 Java语言的Hadoop单词记数示例
      3. 4.2.3 R语言的Hadoop单词记数示例
    3. 4.3 HDInsight——Azure上的多节点Hadoop集群
      1. 4.3.1 创建第一个HDInsight集群
      2. 4.3.2 智能电表数据分析示例——在HDInsight集群上使用R
    4. 4.4 小结
  14. 第5章 R与关系型数据库管理系统(RDBMS)
    1. 5.1 关系型数据库管理系统(RDBMS)
      1. 5.1.1 常用RDBMS简介
      2. 5.1.2 结构化查询语言(SQL)
    2. 5.2 用SQLite连接R
      1. 5.2.1 准备并导入数据到本地SQLite数据库
      2. 5.2.2 通过RStudio连接SQLite数据库
    3. 5.3 在Amazon EC2实例中连接MariaDB和R
      1. 5.3.1 准备EC2实例和RStudio服务器
      2. 5.3.2 准备MariaDB和数据
      3. 5.3.3 连接MariaDB和RStudio
    4. 5.4 连接Amazon RDS上的PostgreSQL和R
      1. 5.4.1 启动一个Amazon RDS数据库实例
      2. 5.4.2 准备并上传数据到Amazon RDS上
      3. 5.4.3 从RStudio 远程查询 Amazon RDS上的PostgreSQL
    5. 5.5 小结
  15. 第6章 R与非关系型数据库
    1. 6.1 NoSQL数据库简介
      1. 流行非关系型数据库简介
    2. 6.2 用R操作MongoDB
      1. 6.2.1 MongoDB简介
      2. 6.2.2 在Amazon EC2上安装MongoDB并与R连接
      3. 6.2.3 使用MongoDB和R处理大数据
    3. 6.3 Hbase与R
      1. 6.3.1 Azure HDInsight与HBase和RStudio Server
      2. 6.3.2 将数据导入HDFS和HBase
      3. 6.3.3 使用rhbase包读取和查阅 Hbase
    4. 6.4 小结
  16. 第7章 比Hadoop更快——使用R编写Spark
    1. 7.1 为大数据分析服务的Spark
    2. 7.2 多节点HDInsight集群上使用R的Spark
      1. 7.2.1 部署使用支持Spark和R/RStudio的HDInsight
      2. 7.2.2 将数据读入HDFS和Hive
      3. 7.2.3 使用SparkR分析湾区共享单车数据
    3. 7.3 小结
  17. 第8章 R语言大数据机器学习
    1. 8.1 机器学习是什么
      1. 8.1.1 机器学习算法
      2. 8.1.2 监督和无监督机器学习方法
      3. 8.1.3 分类和聚类算法
      4. 8.1.4 R机器学习方法
      5. 8.1.5 大数据机器学习工具
    2. 8.2 在HDInsight集群中使用Spark和R的GLM示例
      1. 8.2.1 准备Spark群集并从HDFS读取数据
      2. 8.2.2 Spark中的R语言逻辑回归
    3. 8.3 R中基于Hadoop H2O 的朴素贝叶斯
      1. 8.3.1 在R中运行Hadoop上的H2O实例
      2. 8.3.2 读取和探索H2O中的数据
      3. 8.3.3 R中基于H2O的朴素贝叶斯
    4. 8.4 R中基于Hadoop H2O 的神经网络
      1. 8.4.1 神经网络的工作原理
      2. 8.4.2 在H2O上运行神经网络模型
    5. 8.5 小结
  18. 第9章 R语言的未来——大数据、快数据、智能数据
    1. 9.1 R大数据分析的现状
      1. 9.1.1 超过单机内存的数据
      2. 9.1.2 更快的R数据处理
      3. 9.1.3 Hadoop与R
      4. 9.1.4 Spark与R
      5. 9.1.5 R与数据库
      6. 9.1.6 机器学习与R
    2. 9.2 R的未来
      1. 9.2.1 大数据
      2. 9.2.2 快数据
      3. 9.2.3 智能数据
    3. 9.3 如何提升
    4. 9.4 小结

Product information

  • Title: R大数据分析实用指南
  • Author(s): Posts & Telecom Press, Simon Walkowiak
  • Release date: May 2024
  • Publisher(s): Packt Publishing
  • ISBN: 9781836205791

You might also like

book

Python无监督学习

by Posts & Telecom Press, Giuseppe Bonaccorso

拥抱机器学习,用Python实现无监督学习算法,构建高效且实用的解决方案 Key Features 包含多个示例和讲解 全面揭示了无监督学习的内涵与实现技巧 Book Description 机器学习是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。无监督学习是机器学习中的一种学习方式,是数据科学的一个重要分支,常用于数据挖掘领域,通过构建模型来为业务决策提供依据。 本书通过Python语言讲解无监督学习,全书内容包括10章,前面9章由浅入深地讲解了无监督学习的基础知识、聚类的基础知识、高级聚类、层次聚类、软聚类和高斯混合模型、异常检测、降维和分量分析、无监督神经网络模型、生成式对抗网络和自组织映射,第10章以问题解答的形式对前面9章涉及的问题给出了解决方案。 本书适合数据科学家、机器学习从业者和普通的软件开发人员阅读,通过学习本书介绍的无监督学习理论和Python编程方法,读者能够在业务实践中获得有价值的参考。 What you will learn 了解无监督学习的实践技巧 熟练掌握一些列机器学习算法 …

book

程序员学数据结构

by Posts & Telecom Press, William Smith

一本帮助你轻松掌握数据结构的实用指南 Objective-C、C#、Java和Swift多种语言案例 Key Features 使用一系列主流移动软件开发平台通用的语言编写了示例程序 通过示例程序向读者介绍了多种数据结构和对应的用法 通过示例程序用浅显易懂的方式展示了很多实际案例 Book Description 本书通过实用的例子来帮助读者快速理解多种数据结构和它们在实际应用程序中的使用方法。本书使用一系列主流移动软件开发平台通用的语言编写了示例程序,并通过这些示例程序向读者介绍了多种数据结构和对应的用法。同时,本书还通过示例程序用浅显易懂的方式展示了很多实际案例。 本书的第一部分涵盖了大多数语言(如Objective-C、C#、Java以及Swift)均支持的基本数据结构,详细地介绍了如数组、列表、栈、队列、堆这些数据结构的用法和典型应用,并针对每种语言探讨了这些数据结构所独有的特点。这些章节均设有案例学习,通过讲解如何解决实际问题以帮助读者更深入地理解这些数据结构的内涵。 本书的第二部分讨论一些与数据结构相关的高级知识,如泛型数据集、递归、排序和查找。这些章节也提供了相应的案例学习,帮助读者将这些知识应用到自己的应用开发中。 本书适合初学编程或自学编程的人员以及计算机相关专业的教师和学生阅读,也非常适合程序员参考。 What you will …

book

数据科学原理

by Posts & Telecom Press, Sinan Ozdemir

让数据科学的学习有趣又自然;数据科学入门的概念手册和实用手册;集数据思维、概率统计基础、主流机器学习技术、应用案例和实操代码于一体的“数据科学百宝书” Key Features 由浅入深,通过案例和Python代码讲解 内容涵盖数据科学的全过程 Book Description 数据科学家是目前最热门的职业之一。本书的目的是帮助你掌握数学、编程和商业分析的综合技能。通过本书,你将能够自信地提出并解答复杂的数据问题,从抽象和原始的统计信息发掘并完善可执行的想法。通过将数学和计算机编程技能相结合,你将踏上成为数据科学家的激动人心的旅程。 本书介绍了数据科学的全过程,包括数据准备、数据清洗,以及如何选择有效的数据挖掘策略和技巧,从而深入理解数据科学的方方面面。你将学到数学和统计学的核心知识,以及数据科学家和分析师经常使用的代码。你将了解机器学习,学会用常见的统计学模型分析稠密数据集,创建有说服力的可视化图表,并和他人交流分析结果。 本书适合有志于成为数据科学家的师生或业界新手,同时也适合经验丰富的职场老手参考。 What you will learn 理解数据科学的五个核心步骤 聪明地使用你的数据,仔细地处理它 …

book

金融中的人工智能

by Posts & Telecom Press, Jeffrey Ng, Subhash Shah

一本书轻松读懂金融科技的核心内涵 Key Features 一本书轻松读懂金融科技的核心内涵; 众多业界人士推荐,内容通俗易懂; 立足AI视角,解读金融业务新形态; 书中囊括丰富的算法讲解和代码示例; 更有一系列高效的金融科技解决方案。 Book Description 近年来,人工智能在各个领域被广泛应用,但对于很多金融从业人员来说,人工智能仍然给人一种高深莫测的感觉。本书旨在从新技术(如人工智能)的视角给出金融业务的新兴解决方案。 本书内容通俗易懂,不仅揭示了人工智能在金融业中的重要性,还结合机器学习算法和示例给出了一系列的金融科技解决方案,涉及时间序列分析、强化学习、预测分析、自动化投资组合管理、情绪分析、自然语言处理等知识点。此外,本书还结合现实工作总结了相关的注意事项。 本书适合传统金融行业的从业者以及新兴金融科技领域的实践者阅读。读者可从本书深入浅出的知识点和案例中了解到人工智能的魅力,为更好地运用人工智能技术赋能金融业务做好准备。 What you will …