book

R在数据科学中的应用，第2版

Name: R在数据科学中的应用，第2版
ISBN: 9798341657304

by Hadley Wickham, Mine Cetinkaya-Rundel, Garrett Grolemund

May 2025

Intermediate to advanced

578 pages

8h 9m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

导言
第二版序言您将学到什么本书的编排方式你不会学到的东西建模大数据Python、朱莉娅和朋友们先决条件RRStudio整洁宇宙其他套餐运行 R 代码本书使用的其他约定O'Reilly 在线学习如何联系我们致谢网络版
I.全局
1.数据可视化
导言先决条件第一步企鹅数据框终极目标创建 ggplot增加美感和层次练习ggplot2 调用分布可视化分类变量数值变量练习关系可视化数字变量和分类变量两个分类变量两个数值变量三个或更多变量练习保存您的地块练习常见问题摘要
2.工作流程：基础知识
编码基础评论名字里有什么？调用函数练习摘要
3.数据转换
导言先决条件NYCFlights13dplyr 基础知识行数过滤()常见错误排列()distinct()练习专栏突变选择()重命名()重新定位()练习管道组别group_by()总结()切片_功能按多个变量分组取消分组.由练习案例研究：总量和样本量摘要
4.工作流程：代码风格
名称空间管道ggplot2分段评论练习摘要
5.数据 Tidy
导言先决条件Tidy 数据练习加长数据列名中的数据透视如何工作？列名中的许多变量列标题中的数据和变量名称拓宽数据pivot_wider() 如何工作？摘要
6.工作流程：脚本和项目
脚本运行代码RStudio 诊断保存和命名项目真理的源泉是什么？您的分析在哪里？RStudio 项目相对路径和绝对路径练习摘要
7.数据导入
导言先决条件从文件中读取数据实用建议其他论据其他文件类型练习控制列类型猜测类型缺失值、列类型和问题列类型从多个文件读取数据写入文件数据录入摘要
8.工作流程：获取帮助
谷歌是您的朋友制作 reprex投资自己摘要

II.视觉化
9.层数
导言先决条件审美映射练习几何物体练习面面观练习统计转换练习位置调整练习坐标系练习图形的分层语法摘要
10.探索性数据分析
导言先决条件问题变化典型值不寻常的价值练习不寻常的价值练习协变分类变量和数值变量两个分类变量两个数值变量模式和模型摘要
11.交流
导言先决条件标签练习注释练习天平默认刻度轴点和图例键图例布局更换刻度缩放练习主题练习布局练习摘要
III.变
12.逻辑向量
导言先决条件比较浮点比较缺失值is.na()练习布尔代数缺失值行动顺序%中练习摘要逻辑摘要逻辑向量的数字摘要逻辑子集练习条件变换if_else()case_when()兼容类型练习摘要
13.数字
导言先决条件制作数字计数练习数值变换算术和回收规则最小值和最大值模块化算术对数四舍五入将数字切入范围累计和滚动总数练习一般转换等级抵消连续标识符练习数字摘要中心最小值、最大值和定量值传播分布情况职位使用 mutate()练习摘要
14.弦乐
导言先决条件创建字符串逃离原始字符串其他特殊字符练习从数据创建多个字符串str_c()str_glue()str_flatten()练习从字符串中提取数据分隔成行分栏诊断不断扩大的问题信件长度子集练习非英语文本编码字母变体定位相关函数摘要
15.正则表达式
导言先决条件图案基础主要功能检测匹配计数比赛替换值提取变量练习图案细节逃离锚角色类别量词操作符优先级和括号分组和捕捉练习模式控制Regex 标志固定匹配实践检查您的工作布尔运算用代码创建模式练习其他地方的正则表达式Tidyverse基地 R摘要
16.因素
导言先决条件因子基础知识综合社会调查运动修改因子顺序练习修改因子水平练习有序因素摘要
17.日期和时间
导言先决条件创建日期/时间导入期间来自弦乐从单个组件来自其他类型练习日期-时间组件获取组件四舍五入修改组件练习时间跨度持续时间时期间隔练习时区摘要
18.缺失值
导言先决条件明确的缺失值转入的最后一个观测点固定值无隐性缺失值枢轴转动完整加入练习因素和空组摘要
19.加入
导言先决条件钥匙主键和外键检查主键代用钥匙练习基本连接变种连接指定连接键过滤连接练习连接是如何工作的？行匹配过滤连接非埃奎人加入交叉连接不平等加入滚动连接重叠连接练习摘要
IV.进口
20.电子表格
导言在 Excel先决条件入门阅读 Excel 电子表格阅读作业纸读取部分纸张数据类型写入 Excel格式化输出练习谷歌工作表先决条件入门阅读 Google Sheets写入 Google Sheets认证练习摘要
21.数据库
导言先决条件数据库基础知识连接数据库本书中加载一些数据DBI 基础知识dbplyr 基础知识SQLSQL 基础知识选择从GROUP BY地点ORDER BY子查询加入其他动词练习功能翻译摘要
22.箭头
导言先决条件获取数据打开数据集镶木地板格式镶木地板的优点分区重写西雅图图书馆数据将 dplyr 与 Arrow 结合使用性能将 dbplyr 与 Arrow 结合使用摘要
23.分层数据
导言先决条件列表层次结构列表栏不归巢unnest_wider()unnest_longer()不一致的类型其他职能练习案例研究非常广泛的数据关系数据深度嵌套练习JSON数据类型jsonlite开始矩形加工练习摘要
24.网络抓取
导言先决条件搜索道德与法律服务条款个人身份信息版权HTML 基础知识要素属性提取数据查找元素嵌套选择文本和属性表格寻找合适的选择器将所有内容整合在一起星球大战IMDb 热门影片动态网站摘要
V.计划
25.职能
导言先决条件矢量函数编写函数改进我们的职能突变功能功能摘要练习数据帧功能Indirection 和 Tidy 评价何时拥抱？常见用例数据屏蔽与 Tidy 选择练习绘图功能更多变量与其他 Tidyverse 软件包相结合标签练习风格练习摘要
26.迭代
导言先决条件修改多列使用 .cols 选择列调用单个函数调用多个函数列名过滤函数中的 across()与 pivot_longer() 的比较练习读取多个文件列出目录中的文件列表purrr::map() 和 list_rbind()路径中的数据保存您的作品多次简单迭代异构数据处理故障保存多个输出写入数据库编写 CSV 文件保存地块摘要
27.基地 R 实地指南
导言先决条件用 [ ] 选择多个元素子集向量子集数据帧dplyr 等价物练习用 $ 和 [[ ]选择单个元素数据帧提布尔斯列表练习申请家庭循环地块摘要
VI.交流
28.四开
导言先决条件四开本基础知识练习视觉编辑器练习来源编辑练习代码块大块标签大块选项全球选项内联代码练习数字图形尺寸其他重要选项练习表格练习缓存练习故障排除YAML 标头自备参数书目和引文工作流程摘要
29.四开本格式
导言输出选项文件演讲互动性htmlwidgets闪亮网站和书籍其他格式摘要
索引
关于作者

Content preview from R在数据科学中的应用，第2版

第 18 章缺失值

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

导言

在本书的前半部分你已经了解了缺失值的基本知识。在第 1 章中，我们第一次看到了缺失值，在绘制曲线图时，缺失值会发出警告；在" summarize() "中，缺失值会干扰汇总统计量的计算；在"缺失值 "中，我们了解了缺失值的传染性以及如何检查缺失值的存在。现在，我们将更深入地讨论它们，让你了解更多细节。

首先，我们将讨论一些用于处理记录为NAs 的缺失值的通用工具。然后，我们将探讨隐性缺失值的概念，即数据中根本不存在的值，并展示一些可以用来使其显性化的工具。最后，我们将对数据中未出现的因子水平所导致的空组进行相关讨论。

先决条件

处理缺失数据的函数主要来自 dplyr 和 tidyr，它们是 tidyverse 的核心成员。

library(tidyverse)

明确的缺失值

首先，让我们来探索几种方便的工具，用于创建或消除缺失的显式值，即看到NA 的单元格。

转入的最后一个观测点

缺失值的一个常见用途是方便数据录入。手工输入数据时，缺失值有时表示前一行的值被重复（或结转）：

treatment <- tribble(
  ~person,           ~treatment, ~response,
  "Derrick Whitmore", 1,         7,
  NA,                 2,         10,
  NA,                 3,         NA,
  "Katherine Burke",  1,         4
)

您可以用 tidyr::fill().其工作原理如下 select()，取一组列：

treatment |>
  fill(everything())
#> # A tibble: 4 × 3
#>   person           treatment response
#>   <chr>                <dbl>    <dbl>
#> 1 Derrick Whitmore         1        7
#> 2 Derrick Whitmore         2       10
#> 3 Derrick Whitmore         3       10
#> 4 Katherine Burke          1        4

这种处理方法有时被称为 "最后观测值结转"，简称locf。您可以使用.direction 参数来填补以更特殊方式生成的缺失值。

固定值

有时，缺失值代表一些固定的已知值，最常见的是 0。 dplyr::coalesce()来替换它们：

x <- c(1, 4, 5, 7, NA)
coalesce(x, 0)
#> [1] 1 4 5 7 0

有时您会遇到相反的问题，即某些具体值实际上代表了缺失值。这种情况通常出现在旧版软件生成的数据中，这些软件没有正确的方法来表示缺失值，因此必须使用一些特殊值，如 99 或 -999。

如果可能，可在读入数据时处理这个问题，例如使用na 的参数来处理。 readr::read_csv()的参数，如read_csv(path, na = "99") 。如果您后来发现了这个问题，或者您的数据源没有提供在读取时处理这个问题的方法，您可以使用 dplyr::na_if():

x <- c(1, 4, 5, 7, -99)
na_if(x, -99)
#> [1]  1  4  5  7 NA

无

在我们继续之前，有一种特殊的缺失值你会经常遇到：NaN （读作 "nan"），或者说不是数字。知道这一点并不重要，因为它的行为通常与NA 相同：

x <- c(NA, NaN)
x * 10
#> [1]  NA NaN
x == 1
#> [1] ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341657304

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

R在数据科学中的应用，第2版

by Hadley Wickham, Mine Cetinkaya-Rundel, Garrett Grolemund

第 18 章缺失值

导言

先决条件

明确的缺失值

转入的最后一个观测点

固定值

无

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

More than 5,000 organizations count on O’Reilly

Julian F.

Addison B.

Amir M.

Mark W.

You might also like

R深度学习权威指南

AI工程

Raku学习手册

数据分析轻松进阶：从Excel到Python和R

Publisher Resources

第 18 章 缺失值

导言

先决条件

明确的缺失值

转入的最后一个观测点

固定值

无

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

More than 5,000 organizations count on O’Reilly

Julian F.

Addison B.

Amir M.

Mark W.

You might also like

R深度学习权威指南

AI工程

Raku学习手册

数据分析轻松进阶：从Excel到Python和R

Publisher Resources

第 18 章缺失值

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.