第 III 部分. 变革
本书的第二部分深入探讨了数据可视化。在这部分内容中,你将了解到在数据帧中遇到的最重要的变量类型,并学习使用这些变量的工具。
图 III-1. 数据转换的选项在很大程度上取决于所涉及的数据类型,这也是本书这一部分的主题。
您可以根据自己的需要阅读这些章节;它们的设计在很大程度上是独立的,因此可以不按顺序阅读。
第 12 章将介绍逻辑向量。逻辑向量是最简单的向量类型,但功能非常强大。你将学习如何通过数字比较创建逻辑矢量,如何将逻辑矢量与布尔代数相结合,如何在摘要中使用逻辑矢量,以及如何将逻辑矢量用于条件转换。
第 13 章深入探讨数据科学的核心--数字向量工具。你将学到更多关于计数的知识,以及一系列重要的转换和汇总函数。
第 14 章为你提供了处理字符串的工具:将字符串切片、切块,然后再将它们粘在一起。本章主要关注 stringr 软件包,但你也会学到一些专门用于从字符串中提取数据的 tidyr 函数。
第 15 章将向你介绍正则表达式,这是一种强大的字符串操作工具。本章将带你从认为一只猫从你的键盘上走过,到读写复杂的字符串模式。
第 16 章介绍因子:R 用来存储分类数据的数据类型。当一个变量有一组固定的可能值,或者想要对字符串进行非字母排序时,就需要使用因子。
第 17 章为你提供了处理日期和日期时间的关键工具。遗憾的是,你对日期时间了解得越多,它们似乎就越复杂,但在 lubridate 软件包的帮助下,你将学会如何克服最常见的难题。
第 18 章深入讨论了缺失值。我们已经单独讨论过几次缺失值,现在是全面讨论缺失值的时候了,帮助你掌握隐式缺失值和显式缺失值的区别,以及如何和为什么要在它们之间进行转换。
第 19 章将为你提供将两个(或多个)数据帧连接在一起的工具,从而结束本书的这一部分。学习连接会让你不得不考虑键的概念,并思考如何识别数据集中的每一行。
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access