book

R在数据科学中的应用，第2版

Name: R在数据科学中的应用，第2版
ISBN: 9798341657304

by Hadley Wickham, Mine Cetinkaya-Rundel, Garrett Grolemund

May 2025

Intermediate to advanced

578 pages

8h 9m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

导言
第二版序言您将学到什么本书的编排方式你不会学到的东西建模大数据Python、朱莉娅和朋友们先决条件RRStudio整洁宇宙其他套餐运行 R 代码本书使用的其他约定O'Reilly 在线学习如何联系我们致谢网络版
I.全局
1.数据可视化
导言先决条件第一步企鹅数据框终极目标创建 ggplot增加美感和层次练习ggplot2 调用分布可视化分类变量数值变量练习关系可视化数字变量和分类变量两个分类变量两个数值变量三个或更多变量练习保存您的地块练习常见问题摘要
2.工作流程：基础知识
编码基础评论名字里有什么？调用函数练习摘要
3.数据转换
导言先决条件NYCFlights13dplyr 基础知识行数过滤()常见错误排列()distinct()练习专栏突变选择()重命名()重新定位()练习管道组别group_by()总结()切片_功能按多个变量分组取消分组.由练习案例研究：总量和样本量摘要
4.工作流程：代码风格
名称空间管道ggplot2分段评论练习摘要
5.数据 Tidy
导言先决条件Tidy 数据练习加长数据列名中的数据透视如何工作？列名中的许多变量列标题中的数据和变量名称拓宽数据pivot_wider() 如何工作？摘要
6.工作流程：脚本和项目
脚本运行代码RStudio 诊断保存和命名项目真理的源泉是什么？您的分析在哪里？RStudio 项目相对路径和绝对路径练习摘要
7.数据导入
导言先决条件从文件中读取数据实用建议其他论据其他文件类型练习控制列类型猜测类型缺失值、列类型和问题列类型从多个文件读取数据写入文件数据录入摘要
8.工作流程：获取帮助
谷歌是您的朋友制作 reprex投资自己摘要

II.视觉化
9.层数
导言先决条件审美映射练习几何物体练习面面观练习统计转换练习位置调整练习坐标系练习图形的分层语法摘要
10.探索性数据分析
导言先决条件问题变化典型值不寻常的价值练习不寻常的价值练习协变分类变量和数值变量两个分类变量两个数值变量模式和模型摘要
11.交流
导言先决条件标签练习注释练习天平默认刻度轴点和图例键图例布局更换刻度缩放练习主题练习布局练习摘要
III.变
12.逻辑向量
导言先决条件比较浮点比较缺失值is.na()练习布尔代数缺失值行动顺序%中练习摘要逻辑摘要逻辑向量的数字摘要逻辑子集练习条件变换if_else()case_when()兼容类型练习摘要
13.数字
导言先决条件制作数字计数练习数值变换算术和回收规则最小值和最大值模块化算术对数四舍五入将数字切入范围累计和滚动总数练习一般转换等级抵消连续标识符练习数字摘要中心最小值、最大值和定量值传播分布情况职位使用 mutate()练习摘要
14.弦乐
导言先决条件创建字符串逃离原始字符串其他特殊字符练习从数据创建多个字符串str_c()str_glue()str_flatten()练习从字符串中提取数据分隔成行分栏诊断不断扩大的问题信件长度子集练习非英语文本编码字母变体定位相关函数摘要
15.正则表达式
导言先决条件图案基础主要功能检测匹配计数比赛替换值提取变量练习图案细节逃离锚角色类别量词操作符优先级和括号分组和捕捉练习模式控制Regex 标志固定匹配实践检查您的工作布尔运算用代码创建模式练习其他地方的正则表达式Tidyverse基地 R摘要
16.因素
导言先决条件因子基础知识综合社会调查运动修改因子顺序练习修改因子水平练习有序因素摘要
17.日期和时间
导言先决条件创建日期/时间导入期间来自弦乐从单个组件来自其他类型练习日期-时间组件获取组件四舍五入修改组件练习时间跨度持续时间时期间隔练习时区摘要
18.缺失值
导言先决条件明确的缺失值转入的最后一个观测点固定值无隐性缺失值枢轴转动完整加入练习因素和空组摘要
19.加入
导言先决条件钥匙主键和外键检查主键代用钥匙练习基本连接变种连接指定连接键过滤连接练习连接是如何工作的？行匹配过滤连接非埃奎人加入交叉连接不平等加入滚动连接重叠连接练习摘要
IV.进口
20.电子表格
导言在 Excel先决条件入门阅读 Excel 电子表格阅读作业纸读取部分纸张数据类型写入 Excel格式化输出练习谷歌工作表先决条件入门阅读 Google Sheets写入 Google Sheets认证练习摘要
21.数据库
导言先决条件数据库基础知识连接数据库本书中加载一些数据DBI 基础知识dbplyr 基础知识SQLSQL 基础知识选择从GROUP BY地点ORDER BY子查询加入其他动词练习功能翻译摘要
22.箭头
导言先决条件获取数据打开数据集镶木地板格式镶木地板的优点分区重写西雅图图书馆数据将 dplyr 与 Arrow 结合使用性能将 dbplyr 与 Arrow 结合使用摘要
23.分层数据
导言先决条件列表层次结构列表栏不归巢unnest_wider()unnest_longer()不一致的类型其他职能练习案例研究非常广泛的数据关系数据深度嵌套练习JSON数据类型jsonlite开始矩形加工练习摘要
24.网络抓取
导言先决条件搜索道德与法律服务条款个人身份信息版权HTML 基础知识要素属性提取数据查找元素嵌套选择文本和属性表格寻找合适的选择器将所有内容整合在一起星球大战IMDb 热门影片动态网站摘要
V.计划
25.职能
导言先决条件矢量函数编写函数改进我们的职能突变功能功能摘要练习数据帧功能Indirection 和 Tidy 评价何时拥抱？常见用例数据屏蔽与 Tidy 选择练习绘图功能更多变量与其他 Tidyverse 软件包相结合标签练习风格练习摘要
26.迭代
导言先决条件修改多列使用 .cols 选择列调用单个函数调用多个函数列名过滤函数中的 across()与 pivot_longer() 的比较练习读取多个文件列出目录中的文件列表purrr::map() 和 list_rbind()路径中的数据保存您的作品多次简单迭代异构数据处理故障保存多个输出写入数据库编写 CSV 文件保存地块摘要
27.基地 R 实地指南
导言先决条件用 [ ] 选择多个元素子集向量子集数据帧dplyr 等价物练习用 $ 和 [[ ]选择单个元素数据帧提布尔斯列表练习申请家庭循环地块摘要
VI.交流
28.四开
导言先决条件四开本基础知识练习视觉编辑器练习来源编辑练习代码块大块标签大块选项全球选项内联代码练习数字图形尺寸其他重要选项练习表格练习缓存练习故障排除YAML 标头自备参数书目和引文工作流程摘要
29.四开本格式
导言输出选项文件演讲互动性htmlwidgets闪亮网站和书籍其他格式摘要
索引
关于作者

Content preview from R在数据科学中的应用，第2版

第 23 章分层数据分层数据

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

导言

在本章中，你将学习数据矩形化的艺术，即从根本上将分层数据或树状数据转换为由行和列组成的矩形数据帧。这一点非常重要，因为分层数据非常常见，尤其是在处理来自网络的数据时。

要学习矩形化，首先要了解列表，这是一种使分层数据成为可能的数据结构。然后，你将学习两个重要的 tidyr 函数： tidyr::unnest_longer()和 tidyr::unnest_wider().然后，我们将向你展示一些案例研究，反复应用这些简单的函数来解决实际问题。最后，我们将讨论 JSON，它是分层数据集最常见的来源，也是网络数据交换的常用格式。

先决条件

在本章中，我们将使用 tidyr 的许多函数，它是 tidyverse 的核心成员。我们还将使用repurrrsive提供一些有趣的数据集进行矩形化练习，最后使用jsonlite将 JSON 文件读入 R 列表。

library(tidyverse)
library(repurrrsive)
library(jsonlite)

列表

到目前为止，您已经使用过包含简单向量（如整数、数字、字符、日期时间和因数）的数据帧。这些向量之所以简单，是因为它们是同质的：每个元素都是相同的数据类型。如果要在同一向量中存储不同类型的元素，则需要一个列表，使用 list():

x1 <- list(1:4, "a", TRUE)
x1
#> [[1]]
#> [1] 1 2 3 4
#> 
#> [[2]]
#> [1] "a"
#> 
#> [[3]]
#> [1] TRUE

命名列表的组件或子元素通常很方便，命名方法与命名 tibble 列的方法相同：

x2 <- list(a = 1:2, b = 1:3, c = 1:4)
x2
#> $a
#> [1] 1 2
#> 
#> $b
#> [1] 1 2 3
#> 
#> $c
#> [1] 1 2 3 4

即使是这些简单的列表，打印也会占用大量空间。一个有用的替代方法是 str()，它可以紧凑地显示结构，而不强调内容：

str(x1)
#> List of 3
#>  $ : int [1:4] 1 2 3 4
#>  $ : chr "a"
#>  $ : logi TRUE
str(x2)
#> List of 3
#>  $ a: int [1:2] 1 2
#>  $ b: int [1:3] 1 2 3
#>  $ c: int [1:4] 1 2 3 4

正如您所看到的、 str()将列表中的每个子项显示在自己的一行上。如果存在，它会显示名称；然后是类型缩写；然后是前几个值。

层次结构

列表可以包含任何类型的对象，包括其他列表。因此，列表适合表示分层（树状）结构：

x3 <- list(list(1, 2), list(3, 4))
str(x3)
#> List of 2
#>  $ :List of 2
#>   ..$ : num 1
#>   ..$ : num 2
#>  $ :List of 2
#>   ..$ : num 3
#>   ..$ : num 4

这与 c()产生一个平面向量：

c(c(1, 2), c(3, 4))
#> [1] 1 2 3 4

x4 <- c(list(1, 2), list(3, 4))
str(x4)
#> List of 4
#> $ : num ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341657304

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

R在数据科学中的应用，第2版

by Hadley Wickham, Mine Cetinkaya-Rundel, Garrett Grolemund

第 23 章分层数据分层数据

导言

先决条件

列表

层次结构

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

More than 5,000 organizations count on O’Reilly

Julian F.

Addison B.

Amir M.

Mark W.

You might also like

R深度学习权威指南

AI工程

Raku学习手册

数据分析轻松进阶：从Excel到Python和R

Publisher Resources

第 23 章 分层数据 分层数据

导言

先决条件

列表

层次结构

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

More than 5,000 organizations count on O’Reilly

Julian F.

Addison B.

Amir M.

Mark W.

You might also like

R深度学习权威指南

AI工程

Raku学习手册

数据分析轻松进阶：从Excel到Python和R

Publisher Resources

第 23 章分层数据分层数据

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.