第2章 R编程语言与统计环境的介绍

在第1章中你已经熟悉了一些最常用的大数据术语,还有一系列针对庞大且复杂的数据的工具集。同时你还基本了解了R的发展历史,以及R是如何成为备受科技巨头和世界著名大学亲睐的领先的统计计算环境和编程语言的。这一章你会学到一些最重要的R语言函数,它们来自基础安装包和第三方的安装包,主要作用于数据处理、转换和分析,具体内容如下。

  • 概览一下R语言的数据结构。
  • 通过一系列操作的指引,学会导入标准的、特有格式的数据。
  • 完成基本数据清洗和处理操作,比如取子集、聚合和创建列联表等。
  • 通过执行一系列探索性的数据分析技术来审查数据,如描述性统计。
  • 应用基本统计方法来估计(皮尔森系数)两个或多个变量之间(多重回归)的相关参数,或者找到变量和均值之间的差值,两组变量叫t检验或多组方差分析(ANOVA,方差分析)。
  • 引入更先进的数据建模任务如逻辑和泊松回归。

本书假设你之前接触过R编程语言。本章更多的是对最基本操作的回顾和概述,而不是一个非常完整的R语言手册。本书的目的是给你介绍具体的与大数据相关的R语言应用程序,还有如何把R与你现有的大数据分析流程结合的方法,而不是教你R语言基本的数据处理。市面上有很多很好的R语言入门的书,你可以在IT专营书店或者直接在像Packt这样的出版社网站和亚马逊商店上购买。下面是一些推荐的书籍。

  • R in Action: Data Analysis and Graphics第二版,作者Robert Kabacoff,出版社Manning Publications,2015年出版(译者注,中文版《R语言实战(第2版)》 由人民邮电出版社于2016年5月出版)。
  • R Cookbook,作者Paul Teetor,出版社O'Reilly,2011年出版(译者注,中文版《R语言经典实例》由机械工程出版社于2013年5月出版)。 ...

Get R大数据分析实用指南 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.