Skip to Content
R在数据科学中的应用,第2版
book

R在数据科学中的应用,第2版

by Hadley Wickham, Mine Cetinkaya-Rundel, Garrett Grolemund
May 2025
Intermediate to advanced
578 pages
8h 9m
Chinese
O'Reilly Media, Inc.
Content preview from R在数据科学中的应用,第2版

导言

数据科学是一门令人兴奋的学科,它能让你将原始数据转化为理解力、洞察力和知识。R for Data Science》的目标是帮助你学习 R 中最重要的工具,让你能够高效、可重复地进行数据科学研究,并在学习过程中获得一些乐趣!读完本书后,你将掌握各种工具,利用 R 的最佳部分应对各种数据科学挑战。

第二版序言

欢迎阅读《数据科学的 R 语言》(R4DS)第二版!这是第一版的一次重大改版,删除了我们认为不再有用的资料,添加了我们希望包含在第一版中的资料,并对文本和代码进行了全面更新,以反映最佳实践的变化。我们还非常高兴地迎来了一位新的合著者:Mine Çetinkaya-Rundel,她是一位著名的数据科学教育家,也是我们在 Posit(公司前身为 RStudio)的同事之一。

以下是最大变化的简要概述:

  • 本书的第一部分已更名为 "整个游戏"。这一部分的目的是在我们深入探讨数据科学的细节之前,向你介绍数据科学 "整个游戏 "的粗略细节。

  • 本书的第二部分是 "可视化"。与第一版相比,这一部分更全面地介绍了数据可视化工具和最佳实践。获取所有详细信息的最佳途径仍然是ggplot2 一书,但现在 R4DS 涵盖了更多最重要的技术。

  • 本书的第三部分现在称为 "转换",新增了关于数字、逻辑向量和缺失值的章节。这些内容之前是数据转换章节的一部分,但需要更多的篇幅来涵盖所有细节。

  • 本书的第四部分名为 "导入"。这是一组新的章节,除了读取平面文本文件外,还包括处理电子表格、从数据库中获取数据、处理大数据、矩形化分层数据以及从网站上搜刮数据。

  • 程序 "部分仍然保留,但已从上到下重新编写,重点放在函数编写和迭代的最重要部分。函数编写现在包括如何包装整齐度函数(处理整齐度评估的挑战)的细节,因为这在过去几年中变得更加容易和重要。我们添加了一个新章节,介绍重要的基础 R 函数,您很可能会在野生 R 代码中看到这些函数。

  • 建模 "部分已被删除。我们从来没有足够的空间来充分发挥建模的作用,而且现在有更好的资源可供使用。我们一般推荐使用tidymodels 软件包,并阅读 Max Kuhn 和 Julia Silge 所著的《Tidy Modeling with R》(O'Reilly出版社)。

  • "交流 "部分依然保留,但已全面更新,以Quarto代替 R Markdown。本书的这一版是用 Quarto 编写的,它显然是未来的工具。

您将学到什么

数据科学是一个广阔的领域,你不可能通过阅读一本书就掌握所有知识。本书旨在为你打下坚实的基础,让你掌握最重要的工具和足够的知识,以便在必要时找到资源学习更多知识。我们的典型数据科学项目步骤模型如图 I-1 所示

A diagram displaying the data science cycle: Import -> Tidy -> Understand (which has the phases Transform -> Visualize -> Model in a cycle) -> Communicate. Surrounding all of these is Communicate.

图 I-1. 在我们的数据科学流程模型中,首先是数据导入和 Tidy。然后,通过转换、可视化和建模的迭代循环来理解数据。最后,将结果传达给其他人。

首先,您必须将数据导入R。这通常意味着,您需要将存储在文件、数据库或网络应用程序编程接口(API)中的数据加载到 R 的数据框架中!

导入数据后,最好对其进行Tidy。整理数据意味着以一致的形式存储数据,使数据集的语义与存储方式相匹配。简而言之,当数据整齐时,每一列都是一个变量,每一行都是一个观测值。Tidy 数据之所以重要,是因为一致的结构可以让您将精力集中在回答有关数据的问题上,而不是为将数据转换成适用于不同功能的正确形式而争论不休。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

R深度学习权威指南

R深度学习权威指南

Posts & Telecom Press, Joshua F. Wiley
AI工程

AI工程

Chip Huyen
Raku学习手册

Raku学习手册

brian d foy

Publisher Resources

ISBN: 9798341657304