book

R在数据科学中的应用，第2版

Name: R在数据科学中的应用，第2版
ISBN: 9798341657304

by Hadley Wickham, Mine Cetinkaya-Rundel, Garrett Grolemund

May 2025

Intermediate to advanced

578 pages

8h 9m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

导言
第二版序言您将学到什么本书的编排方式你不会学到的东西建模大数据Python、朱莉娅和朋友们先决条件RRStudio整洁宇宙其他套餐运行 R 代码本书使用的其他约定O'Reilly 在线学习如何联系我们致谢网络版
I.全局
1.数据可视化
导言先决条件第一步企鹅数据框终极目标创建 ggplot增加美感和层次练习ggplot2 调用分布可视化分类变量数值变量练习关系可视化数字变量和分类变量两个分类变量两个数值变量三个或更多变量练习保存您的地块练习常见问题摘要
2.工作流程：基础知识
编码基础评论名字里有什么？调用函数练习摘要
3.数据转换
导言先决条件NYCFlights13dplyr 基础知识行数过滤()常见错误排列()distinct()练习专栏突变选择()重命名()重新定位()练习管道组别group_by()总结()切片_功能按多个变量分组取消分组.由练习案例研究：总量和样本量摘要
4.工作流程：代码风格
名称空间管道ggplot2分段评论练习摘要
5.数据 Tidy
导言先决条件Tidy 数据练习加长数据列名中的数据透视如何工作？列名中的许多变量列标题中的数据和变量名称拓宽数据pivot_wider() 如何工作？摘要
6.工作流程：脚本和项目
脚本运行代码RStudio 诊断保存和命名项目真理的源泉是什么？您的分析在哪里？RStudio 项目相对路径和绝对路径练习摘要
7.数据导入
导言先决条件从文件中读取数据实用建议其他论据其他文件类型练习控制列类型猜测类型缺失值、列类型和问题列类型从多个文件读取数据写入文件数据录入摘要
8.工作流程：获取帮助
谷歌是您的朋友制作 reprex投资自己摘要

II.视觉化
9.层数
导言先决条件审美映射练习几何物体练习面面观练习统计转换练习位置调整练习坐标系练习图形的分层语法摘要
10.探索性数据分析
导言先决条件问题变化典型值不寻常的价值练习不寻常的价值练习协变分类变量和数值变量两个分类变量两个数值变量模式和模型摘要
11.交流
导言先决条件标签练习注释练习天平默认刻度轴点和图例键图例布局更换刻度缩放练习主题练习布局练习摘要
III.变
12.逻辑向量
导言先决条件比较浮点比较缺失值is.na()练习布尔代数缺失值行动顺序%中练习摘要逻辑摘要逻辑向量的数字摘要逻辑子集练习条件变换if_else()case_when()兼容类型练习摘要
13.数字
导言先决条件制作数字计数练习数值变换算术和回收规则最小值和最大值模块化算术对数四舍五入将数字切入范围累计和滚动总数练习一般转换等级抵消连续标识符练习数字摘要中心最小值、最大值和定量值传播分布情况职位使用 mutate()练习摘要
14.弦乐
导言先决条件创建字符串逃离原始字符串其他特殊字符练习从数据创建多个字符串str_c()str_glue()str_flatten()练习从字符串中提取数据分隔成行分栏诊断不断扩大的问题信件长度子集练习非英语文本编码字母变体定位相关函数摘要
15.正则表达式
导言先决条件图案基础主要功能检测匹配计数比赛替换值提取变量练习图案细节逃离锚角色类别量词操作符优先级和括号分组和捕捉练习模式控制Regex 标志固定匹配实践检查您的工作布尔运算用代码创建模式练习其他地方的正则表达式Tidyverse基地 R摘要
16.因素
导言先决条件因子基础知识综合社会调查运动修改因子顺序练习修改因子水平练习有序因素摘要
17.日期和时间
导言先决条件创建日期/时间导入期间来自弦乐从单个组件来自其他类型练习日期-时间组件获取组件四舍五入修改组件练习时间跨度持续时间时期间隔练习时区摘要
18.缺失值
导言先决条件明确的缺失值转入的最后一个观测点固定值无隐性缺失值枢轴转动完整加入练习因素和空组摘要
19.加入
导言先决条件钥匙主键和外键检查主键代用钥匙练习基本连接变种连接指定连接键过滤连接练习连接是如何工作的？行匹配过滤连接非埃奎人加入交叉连接不平等加入滚动连接重叠连接练习摘要
IV.进口
20.电子表格
导言在 Excel先决条件入门阅读 Excel 电子表格阅读作业纸读取部分纸张数据类型写入 Excel格式化输出练习谷歌工作表先决条件入门阅读 Google Sheets写入 Google Sheets认证练习摘要
21.数据库
导言先决条件数据库基础知识连接数据库本书中加载一些数据DBI 基础知识dbplyr 基础知识SQLSQL 基础知识选择从GROUP BY地点ORDER BY子查询加入其他动词练习功能翻译摘要
22.箭头
导言先决条件获取数据打开数据集镶木地板格式镶木地板的优点分区重写西雅图图书馆数据将 dplyr 与 Arrow 结合使用性能将 dbplyr 与 Arrow 结合使用摘要
23.分层数据
导言先决条件列表层次结构列表栏不归巢unnest_wider()unnest_longer()不一致的类型其他职能练习案例研究非常广泛的数据关系数据深度嵌套练习JSON数据类型jsonlite开始矩形加工练习摘要
24.网络抓取
导言先决条件搜索道德与法律服务条款个人身份信息版权HTML 基础知识要素属性提取数据查找元素嵌套选择文本和属性表格寻找合适的选择器将所有内容整合在一起星球大战IMDb 热门影片动态网站摘要
V.计划
25.职能
导言先决条件矢量函数编写函数改进我们的职能突变功能功能摘要练习数据帧功能Indirection 和 Tidy 评价何时拥抱？常见用例数据屏蔽与 Tidy 选择练习绘图功能更多变量与其他 Tidyverse 软件包相结合标签练习风格练习摘要
26.迭代
导言先决条件修改多列使用 .cols 选择列调用单个函数调用多个函数列名过滤函数中的 across()与 pivot_longer() 的比较练习读取多个文件列出目录中的文件列表purrr::map() 和 list_rbind()路径中的数据保存您的作品多次简单迭代异构数据处理故障保存多个输出写入数据库编写 CSV 文件保存地块摘要
27.基地 R 实地指南
导言先决条件用 [ ] 选择多个元素子集向量子集数据帧dplyr 等价物练习用 $ 和 [[ ]选择单个元素数据帧提布尔斯列表练习申请家庭循环地块摘要
VI.交流
28.四开
导言先决条件四开本基础知识练习视觉编辑器练习来源编辑练习代码块大块标签大块选项全球选项内联代码练习数字图形尺寸其他重要选项练习表格练习缓存练习故障排除YAML 标头自备参数书目和引文工作流程摘要
29.四开本格式
导言输出选项文件演讲互动性htmlwidgets闪亮网站和书籍其他格式摘要
索引
关于作者

Content preview from R在数据科学中的应用，第2版

第 5 章数据整理数据 Tidy

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

导言

"幸福的家庭都是相似的，不幸的家庭各有各的不幸"。列奥-托尔斯泰

"Tidy数据集都是相似的，但每一个凌乱的数据集都有其凌乱之处"。哈德利-维克汉姆

在本章中，你将学习使用一种名为 "tidy data"的系统在 R 中组织数据的一致方法。将数据转换成这种格式需要一些前期工作，但这些工作会带来长期回报。一旦你拥有了整洁数据和由 Tidyverse 中的软件包提供的整洁工具，你就可以花更少的时间将数据从一种表示法混杂到另一种表示法，从而将更多的时间花在你关心的数据问题上。

在本章中，你将首先学习整理数据的定义，并将其应用于一个简单的玩具数据集。然后，我们将深入学习整理数据的主要工具：透视。透视功能允许你在不改变任何值的情况下改变数据的形式。

先决条件

在本章中，我们将重点介绍 Tidyr，它是一个提供大量工具帮助整理凌乱数据集的软件包。

library(tidyverse)

从本章开始，我们将抑制来自 library(tidyverse).

Tidy 数据

您可以用多种方式表示相同的基础数据。下面的示例显示了以三种不同方式组织的相同数据。每个数据集都显示了四个变量的相同值：国家、年份、人口和记录在案的肺结核（TB）病例数，但每个数据集以不同的方式组织这些值。

table1
#> # A tibble: 6 × 4
#>   country      year  cases population
#>   <chr>       <dbl>  <dbl>      <dbl>
#> 1 Afghanistan  1999    745   19987071
#> 2 Afghanistan  2000   2666   20595360
#> 3 Brazil       1999  37737  172006362
#> 4 Brazil       2000  80488  174504898
#> 5 China        1999 212258 1272915272
#> 6 China        2000 213766 1280428583

table2
#> # A tibble: 12 × 4
#>   country      year type           count
#>   <chr>       <dbl> <chr>          <dbl>
#> 1 Afghanistan  1999 cases            745
#> 2 Afghanistan  1999 population  19987071
#> 3 Afghanistan  2000 cases           2666
#> 4 Afghanistan  2000 population  20595360
#> 5 Brazil       1999 cases          37737
#> 6 Brazil       1999 population 172006362
#> # … with 6 more rows

table3
#> # A tibble: 6 × 3
#>   country      year rate             
#>   <chr>     <dbl>     <chr>         
#> 1 Afghanistan  1999 745/19987071     
#> 2 Afghanistan  2000 2666/20595360    
#> 3 Brazil       1999 37737/172006362  
#> 4 Brazil       2000 80488/174504898  
#> 5 China        1999 212258/1272915272
#> ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341657304

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business