book

R在数据科学中的应用，第2版

Name: R在数据科学中的应用，第2版
ISBN: 9798341657304

by Hadley Wickham, Mine Cetinkaya-Rundel, Garrett Grolemund

May 2025

Intermediate to advanced

578 pages

8h 9m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

导言
第二版序言您将学到什么本书的编排方式你不会学到的东西建模大数据Python、朱莉娅和朋友们先决条件RRStudio整洁宇宙其他套餐运行 R 代码本书使用的其他约定O'Reilly 在线学习如何联系我们致谢网络版
I.全局
1.数据可视化
导言先决条件第一步企鹅数据框终极目标创建 ggplot增加美感和层次练习ggplot2 调用分布可视化分类变量数值变量练习关系可视化数字变量和分类变量两个分类变量两个数值变量三个或更多变量练习保存您的地块练习常见问题摘要
2.工作流程：基础知识
编码基础评论名字里有什么？调用函数练习摘要
3.数据转换
导言先决条件NYCFlights13dplyr 基础知识行数过滤()常见错误排列()distinct()练习专栏突变选择()重命名()重新定位()练习管道组别group_by()总结()切片_功能按多个变量分组取消分组.由练习案例研究：总量和样本量摘要
4.工作流程：代码风格
名称空间管道ggplot2分段评论练习摘要
5.数据 Tidy
导言先决条件Tidy 数据练习加长数据列名中的数据透视如何工作？列名中的许多变量列标题中的数据和变量名称拓宽数据pivot_wider() 如何工作？摘要
6.工作流程：脚本和项目
脚本运行代码RStudio 诊断保存和命名项目真理的源泉是什么？您的分析在哪里？RStudio 项目相对路径和绝对路径练习摘要
7.数据导入
导言先决条件从文件中读取数据实用建议其他论据其他文件类型练习控制列类型猜测类型缺失值、列类型和问题列类型从多个文件读取数据写入文件数据录入摘要
8.工作流程：获取帮助
谷歌是您的朋友制作 reprex投资自己摘要

II.视觉化
9.层数
导言先决条件审美映射练习几何物体练习面面观练习统计转换练习位置调整练习坐标系练习图形的分层语法摘要
10.探索性数据分析
导言先决条件问题变化典型值不寻常的价值练习不寻常的价值练习协变分类变量和数值变量两个分类变量两个数值变量模式和模型摘要
11.交流
导言先决条件标签练习注释练习天平默认刻度轴点和图例键图例布局更换刻度缩放练习主题练习布局练习摘要
III.变
12.逻辑向量
导言先决条件比较浮点比较缺失值is.na()练习布尔代数缺失值行动顺序%中练习摘要逻辑摘要逻辑向量的数字摘要逻辑子集练习条件变换if_else()case_when()兼容类型练习摘要
13.数字
导言先决条件制作数字计数练习数值变换算术和回收规则最小值和最大值模块化算术对数四舍五入将数字切入范围累计和滚动总数练习一般转换等级抵消连续标识符练习数字摘要中心最小值、最大值和定量值传播分布情况职位使用 mutate()练习摘要
14.弦乐
导言先决条件创建字符串逃离原始字符串其他特殊字符练习从数据创建多个字符串str_c()str_glue()str_flatten()练习从字符串中提取数据分隔成行分栏诊断不断扩大的问题信件长度子集练习非英语文本编码字母变体定位相关函数摘要
15.正则表达式
导言先决条件图案基础主要功能检测匹配计数比赛替换值提取变量练习图案细节逃离锚角色类别量词操作符优先级和括号分组和捕捉练习模式控制Regex 标志固定匹配实践检查您的工作布尔运算用代码创建模式练习其他地方的正则表达式Tidyverse基地 R摘要
16.因素
导言先决条件因子基础知识综合社会调查运动修改因子顺序练习修改因子水平练习有序因素摘要
17.日期和时间
导言先决条件创建日期/时间导入期间来自弦乐从单个组件来自其他类型练习日期-时间组件获取组件四舍五入修改组件练习时间跨度持续时间时期间隔练习时区摘要
18.缺失值
导言先决条件明确的缺失值转入的最后一个观测点固定值无隐性缺失值枢轴转动完整加入练习因素和空组摘要
19.加入
导言先决条件钥匙主键和外键检查主键代用钥匙练习基本连接变种连接指定连接键过滤连接练习连接是如何工作的？行匹配过滤连接非埃奎人加入交叉连接不平等加入滚动连接重叠连接练习摘要
IV.进口
20.电子表格
导言在 Excel先决条件入门阅读 Excel 电子表格阅读作业纸读取部分纸张数据类型写入 Excel格式化输出练习谷歌工作表先决条件入门阅读 Google Sheets写入 Google Sheets认证练习摘要
21.数据库
导言先决条件数据库基础知识连接数据库本书中加载一些数据DBI 基础知识dbplyr 基础知识SQLSQL 基础知识选择从GROUP BY地点ORDER BY子查询加入其他动词练习功能翻译摘要
22.箭头
导言先决条件获取数据打开数据集镶木地板格式镶木地板的优点分区重写西雅图图书馆数据将 dplyr 与 Arrow 结合使用性能将 dbplyr 与 Arrow 结合使用摘要
23.分层数据
导言先决条件列表层次结构列表栏不归巢unnest_wider()unnest_longer()不一致的类型其他职能练习案例研究非常广泛的数据关系数据深度嵌套练习JSON数据类型jsonlite开始矩形加工练习摘要
24.网络抓取
导言先决条件搜索道德与法律服务条款个人身份信息版权HTML 基础知识要素属性提取数据查找元素嵌套选择文本和属性表格寻找合适的选择器将所有内容整合在一起星球大战IMDb 热门影片动态网站摘要
V.计划
25.职能
导言先决条件矢量函数编写函数改进我们的职能突变功能功能摘要练习数据帧功能Indirection 和 Tidy 评价何时拥抱？常见用例数据屏蔽与 Tidy 选择练习绘图功能更多变量与其他 Tidyverse 软件包相结合标签练习风格练习摘要
26.迭代
导言先决条件修改多列使用 .cols 选择列调用单个函数调用多个函数列名过滤函数中的 across()与 pivot_longer() 的比较练习读取多个文件列出目录中的文件列表purrr::map() 和 list_rbind()路径中的数据保存您的作品多次简单迭代异构数据处理故障保存多个输出写入数据库编写 CSV 文件保存地块摘要
27.基地 R 实地指南
导言先决条件用 [ ] 选择多个元素子集向量子集数据帧dplyr 等价物练习用 $ 和 [[ ]选择单个元素数据帧提布尔斯列表练习申请家庭循环地块摘要
VI.交流
28.四开
导言先决条件四开本基础知识练习视觉编辑器练习来源编辑练习代码块大块标签大块选项全球选项内联代码练习数字图形尺寸其他重要选项练习表格练习缓存练习故障排除YAML 标头自备参数书目和引文工作流程摘要
29.四开本格式
导言输出选项文件演讲互动性htmlwidgets闪亮网站和书籍其他格式摘要
索引
关于作者

Content preview from R在数据科学中的应用，第2版

第 26 章迭代迭代

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

导言

在本章中，你将学习迭代工具，即在不同对象上重复执行相同的操作。R 语言中的迭代通常与其他编程语言不同，因为很多迭代都是隐式的，而且是免费的。例如，如果要在 R 中将一个数字向量x 加倍，只需写入2 * x 即可。而在大多数其他语言中，您需要使用某种 for 循环显式地将x 中的每个元素加倍。

本书已经为你提供了少量但功能强大的工具，可以对多个 "事物 "执行相同的操作：

facet_wrap()并 facet_grid()为每个子集绘制地图。
group_by()加上 summarize()计算每个子集的汇总统计数据。
unnest_wider()和 unnest_longer()并为列表列中的每个元素创建新行和新列。

现在是时候学习一些更通用的工具了，这些工具通常被称为函数式编程工具，因为它们是围绕将其他函数作为输入的函数而构建的。学习函数式编程很容易陷入抽象的境地，但在本章中，我们将把重点放在三个常见任务上，使其具体化：修改多个列、读取多个文件和保存多个对象。

先决条件

在本章中，我们将重点介绍由 dplyr 和 purrr 提供的工具，它们都是 tidyverse 的核心成员。你以前见过 dplyr，但purrr是新工具。在本章中，我们将只使用几个 purrr 函数，但在提高编程技能的过程中，它是一个非常值得探索的软件包：

library(tidyverse)

修改多列

想象一下，你有一个简单的 tibble，你想计算观测值的数量，并计算每一列的中位数：

df <- tibble(
  a = rnorm(10),
  b = rnorm(10),
  c = rnorm(10),
  d = rnorm(10)
)

你可以通过复制和粘贴来实现：

df |> summarize(
  n = n(),
  a = median(a),
  b = median(b),
  c = median(c),
  d = median(d),
)
#> # A tibble: 1 × 5
#>       n      a      b       c     d
#>   <int>  <dbl>  <dbl>   <dbl> <dbl>
#> 1    10 -0.246 -0.287 -0.0567 0.144

这违反了我们的经验法则，即复制和粘贴绝不超过两次，可以想象，如果你有几十甚至上百个列，这样做会很乏味。您可以使用 across():

df |> summarize(
  n = n(),
  across(a:d, median),
)
#> # A tibble: 1 × 5
#>       n      a      b       c     d
#>   <int>  <dbl>  <dbl>   <dbl> <dbl>
#> 1    10 -0.246 -0.287 -0.0567 0.144

across()有三个特别重要的参数，我们将在下面的章节中详细讨论。每次使用 across()第一个参数.cols 指定要遍历的列，第二个参数.fns 指定对每一列的操作。当需要对输出列的名称进行额外控制时，可以使用.names 参数，这在使用 across()与 mutate().我们还将讨论两个重要的变体、 if_any()和 if_all()和 filter().

使用 .cols 选择列

的第一个参数 across()的第一个参数，.cols ，选择要转换的列。它使用与 select(),"select() "的规格相同，因此您可以使用诸如 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341657304

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

R在数据科学中的应用，第2版

by Hadley Wickham, Mine Cetinkaya-Rundel, Garrett Grolemund

第 26 章迭代迭代

导言

先决条件

修改多列

使用 .cols 选择列

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

More than 5,000 organizations count on O’Reilly

Julian F.

Addison B.

Amir M.

Mark W.

You might also like

R深度学习权威指南

AI工程

Raku学习手册

数据分析轻松进阶：从Excel到Python和R

Publisher Resources

第 26 章 迭代 迭代

导言

先决条件

修改多列

使用 .cols 选择列

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

More than 5,000 organizations count on O’Reilly

Julian F.

Addison B.

Amir M.

Mark W.

You might also like

R深度学习权威指南

AI工程

Raku学习手册

数据分析轻松进阶：从Excel到Python和R

Publisher Resources

第 26 章迭代迭代

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.