book

R在数据科学中的应用，第2版

Name: R在数据科学中的应用，第2版
ISBN: 9798341657304

by Hadley Wickham, Mine Cetinkaya-Rundel, Garrett Grolemund

May 2025

Intermediate to advanced

578 pages

8h 9m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

导言
第二版序言您将学到什么本书的编排方式你不会学到的东西建模大数据Python、朱莉娅和朋友们先决条件RRStudio整洁宇宙其他套餐运行 R 代码本书使用的其他约定O'Reilly 在线学习如何联系我们致谢网络版
I.全局
1.数据可视化
导言先决条件第一步企鹅数据框终极目标创建 ggplot增加美感和层次练习ggplot2 调用分布可视化分类变量数值变量练习关系可视化数字变量和分类变量两个分类变量两个数值变量三个或更多变量练习保存您的地块练习常见问题摘要
2.工作流程：基础知识
编码基础评论名字里有什么？调用函数练习摘要
3.数据转换
导言先决条件NYCFlights13dplyr 基础知识行数过滤()常见错误排列()distinct()练习专栏突变选择()重命名()重新定位()练习管道组别group_by()总结()切片_功能按多个变量分组取消分组.由练习案例研究：总量和样本量摘要
4.工作流程：代码风格
名称空间管道ggplot2分段评论练习摘要
5.数据 Tidy
导言先决条件Tidy 数据练习加长数据列名中的数据透视如何工作？列名中的许多变量列标题中的数据和变量名称拓宽数据pivot_wider() 如何工作？摘要
6.工作流程：脚本和项目
脚本运行代码RStudio 诊断保存和命名项目真理的源泉是什么？您的分析在哪里？RStudio 项目相对路径和绝对路径练习摘要
7.数据导入
导言先决条件从文件中读取数据实用建议其他论据其他文件类型练习控制列类型猜测类型缺失值、列类型和问题列类型从多个文件读取数据写入文件数据录入摘要
8.工作流程：获取帮助
谷歌是您的朋友制作 reprex投资自己摘要

II.视觉化
9.层数
导言先决条件审美映射练习几何物体练习面面观练习统计转换练习位置调整练习坐标系练习图形的分层语法摘要
10.探索性数据分析
导言先决条件问题变化典型值不寻常的价值练习不寻常的价值练习协变分类变量和数值变量两个分类变量两个数值变量模式和模型摘要
11.交流
导言先决条件标签练习注释练习天平默认刻度轴点和图例键图例布局更换刻度缩放练习主题练习布局练习摘要
III.变
12.逻辑向量
导言先决条件比较浮点比较缺失值is.na()练习布尔代数缺失值行动顺序%中练习摘要逻辑摘要逻辑向量的数字摘要逻辑子集练习条件变换if_else()case_when()兼容类型练习摘要
13.数字
导言先决条件制作数字计数练习数值变换算术和回收规则最小值和最大值模块化算术对数四舍五入将数字切入范围累计和滚动总数练习一般转换等级抵消连续标识符练习数字摘要中心最小值、最大值和定量值传播分布情况职位使用 mutate()练习摘要
14.弦乐
导言先决条件创建字符串逃离原始字符串其他特殊字符练习从数据创建多个字符串str_c()str_glue()str_flatten()练习从字符串中提取数据分隔成行分栏诊断不断扩大的问题信件长度子集练习非英语文本编码字母变体定位相关函数摘要
15.正则表达式
导言先决条件图案基础主要功能检测匹配计数比赛替换值提取变量练习图案细节逃离锚角色类别量词操作符优先级和括号分组和捕捉练习模式控制Regex 标志固定匹配实践检查您的工作布尔运算用代码创建模式练习其他地方的正则表达式Tidyverse基地 R摘要
16.因素
导言先决条件因子基础知识综合社会调查运动修改因子顺序练习修改因子水平练习有序因素摘要
17.日期和时间
导言先决条件创建日期/时间导入期间来自弦乐从单个组件来自其他类型练习日期-时间组件获取组件四舍五入修改组件练习时间跨度持续时间时期间隔练习时区摘要
18.缺失值
导言先决条件明确的缺失值转入的最后一个观测点固定值无隐性缺失值枢轴转动完整加入练习因素和空组摘要
19.加入
导言先决条件钥匙主键和外键检查主键代用钥匙练习基本连接变种连接指定连接键过滤连接练习连接是如何工作的？行匹配过滤连接非埃奎人加入交叉连接不平等加入滚动连接重叠连接练习摘要
IV.进口
20.电子表格
导言在 Excel先决条件入门阅读 Excel 电子表格阅读作业纸读取部分纸张数据类型写入 Excel格式化输出练习谷歌工作表先决条件入门阅读 Google Sheets写入 Google Sheets认证练习摘要
21.数据库
导言先决条件数据库基础知识连接数据库本书中加载一些数据DBI 基础知识dbplyr 基础知识SQLSQL 基础知识选择从GROUP BY地点ORDER BY子查询加入其他动词练习功能翻译摘要
22.箭头
导言先决条件获取数据打开数据集镶木地板格式镶木地板的优点分区重写西雅图图书馆数据将 dplyr 与 Arrow 结合使用性能将 dbplyr 与 Arrow 结合使用摘要
23.分层数据
导言先决条件列表层次结构列表栏不归巢unnest_wider()unnest_longer()不一致的类型其他职能练习案例研究非常广泛的数据关系数据深度嵌套练习JSON数据类型jsonlite开始矩形加工练习摘要
24.网络抓取
导言先决条件搜索道德与法律服务条款个人身份信息版权HTML 基础知识要素属性提取数据查找元素嵌套选择文本和属性表格寻找合适的选择器将所有内容整合在一起星球大战IMDb 热门影片动态网站摘要
V.计划
25.职能
导言先决条件矢量函数编写函数改进我们的职能突变功能功能摘要练习数据帧功能Indirection 和 Tidy 评价何时拥抱？常见用例数据屏蔽与 Tidy 选择练习绘图功能更多变量与其他 Tidyverse 软件包相结合标签练习风格练习摘要
26.迭代
导言先决条件修改多列使用 .cols 选择列调用单个函数调用多个函数列名过滤函数中的 across()与 pivot_longer() 的比较练习读取多个文件列出目录中的文件列表purrr::map() 和 list_rbind()路径中的数据保存您的作品多次简单迭代异构数据处理故障保存多个输出写入数据库编写 CSV 文件保存地块摘要
27.基地 R 实地指南
导言先决条件用 [ ] 选择多个元素子集向量子集数据帧dplyr 等价物练习用 $ 和 [[ ]选择单个元素数据帧提布尔斯列表练习申请家庭循环地块摘要
VI.交流
28.四开
导言先决条件四开本基础知识练习视觉编辑器练习来源编辑练习代码块大块标签大块选项全球选项内联代码练习数字图形尺寸其他重要选项练习表格练习缓存练习故障排除YAML 标头自备参数书目和引文工作流程摘要
29.四开本格式
导言输出选项文件演讲互动性htmlwidgets闪亮网站和书籍其他格式摘要
索引
关于作者

Content preview from R在数据科学中的应用，第2版

第 25 章函数职能

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

导言

编写函数是提高数据科学家能力的最佳方法之一。与复制和粘贴相比，函数允许您以更强大、更通用的方式自动执行常见任务。与复制和粘贴相比，编写函数有三大优势：

您可以为函数取一个令人回味的名字，使代码更容易理解。
随着需求的变化，您只需要在一个地方更新代码，而不是在许多地方。
这样就不会在复制和粘贴时偶然出错（例如，在一处更新了变量名，但在另一处却没有更新）。
它使您更容易在各个项目之间重复使用工作，从而长期提高您的工作效率。

一个好的经验法则是，当你复制和粘贴一个代码块超过两次时（即你现在有三份相同的代码），就考虑编写一个函数。本章将介绍三种有用的函数：

向量函数将一个或多个向量作为输入，并将一个向量作为输出返回。
数据帧函数将数据帧作为输入，并将数据帧作为输出返回。
绘图函数将数据帧作为输入，并将绘图作为输出返回。

每个部分都包含许多示例，可以帮助你归纳出你所看到的模式。如果没有 Twitter 朋友们的帮助，这些示例是不可能实现的，我们鼓励你跟随评论中的链接查看原始灵感。您可能还想阅读一般函数和绘图函数的原始激励推文，以了解更多函数。

先决条件

我们将总结 tidyverse 中的各种函数。我们还将使用 NYCFlights13 作为熟悉的数据源，以使用我们的函数：

library(tidyverse)
library(nycflights13)

矢量函数

我们将从向量函数开始：这些函数接收一个或多个向量，并返回向量结果。例如，请看这段代码。它是做什么的？

df <- tibble(
  a = rnorm(5),
  b = rnorm(5),
  c = rnorm(5),
  d = rnorm(5),
)

df |> mutate(
  a = (a - min(a, na.rm = TRUE)) / 
    (max(a, na.rm = TRUE) - min(a, na.rm = TRUE)),
  b = (b - min(b, na.rm = TRUE)) / 
    (max(b, na.rm = TRUE) - min(a, na.rm = TRUE)),
  c = (c - min(c, na.rm = TRUE)) / 
    (max(c, na.rm = TRUE) - min(c, na.rm = TRUE)),
  d = (d - min(d, na.rm = TRUE)) / 
    (max(d, na.rm = TRUE) - min(d, na.rm = TRUE)),
)
#> # A tibble: 5 × 4
#>       a     b     c     d
#>   <dbl> <dbl> <dbl> <dbl>
#> 1 0.339  2.59 0.291 0    
#> 2 0.880  0    0.611 0.557
#> 3 0      1.37 1     0.752
#> 4 0.795  1.37 0     1    
#> 5 1      1.34 0.580 0.394

你也许能猜出这是将每一列的范围从 0 改为 1，但你发现错误了吗？当 Hadley 写这段代码时，他在复制和粘贴时犯了一个错误，忘记将a 改为b 。防止这种错误是学习如何编写函数的一个很好的理由。

编写函数

要编写函数，首先需要分析重复的代码，找出哪些部分是不变的，哪些部分是变化的。如果我们把前面的代码拉到 mutate()，就更容易看出其中的规律了，因为现在每段重复代码只有一行：

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341657304

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills