library(tidyverse)
第 10 章 探索性数据分析 探索性数据分析
本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com
导言
本章将向你展示如何使用可视化和转换来系统地探索数据,统计学家将这项任务称为探索性数据分析,简称 EDA。EDA 是一个迭代循环。你
生成有关数据的问题。
通过对数据进行可视化、转换和建模来寻找答案。
利用所学知识完善问题和/或提出新问题。
EDA 并不是一个有严格规则的正式流程。更重要的是,EDA 是一种心态。在 EDA 的初始阶段,你应该自由地研究你想到的每一个想法。这些想法中有些会成功,有些则是死胡同。随着探索的不断深入,你会发现一些特别有成效的见解,最终你会将其写成文章并传达给他人。
EDA 是任何数据分析的重要组成部分,即使主要的研究问题是摆在你面前的,因为你总是需要调查数据的质量。数据清理只是 EDA 的一种应用:您需要询问数据是否符合您的期望。要进行数据清理,您需要使用 EDA 的所有工具:可视化、转换和建模。
先决条件
在本章中,我们将结合所学的 dplyr 和 ggplot2 知识,以交互方式提出问题,用数据回答问题,然后提出新问题。
问题
"没有常规的统计问题,只有有问题的常规统计"。戴维-考克斯爵士
"对正确问题的近似回答远比对错误问题的精确回答要好,因为正确的问题往往是模糊的,而错误的问题总是可以精确的"。约翰-图基
在 EDA 期间,您的目标是了解您的数据。最简单的方法就是将问题作为指导调查的工具。当您提出问题时,问题会将您的注意力集中在数据集的特定部分,并帮助您决定要绘制哪些图表、建立哪些模型或进行哪些转换。
EDA 从根本上说是一个创造性的过程。与大多数创造性过程一样,提出高质量问题的关键在于提出大量问题。在分析开始时很难提出有启发性的问题,因为您不知道能从数据集中获得什么启示。另一方面,您提出的每一个新问题都会让您接触到数据的一个新方面,并增加您有所发现的机会。如果您根据发现的问题提出新的问题,那么您就可以快速深入研究数据中最有趣的部分,并提出一系列发人深省的问题。
您应该提出哪些问题来指导您的研究,这并没有规定。不过,有两类问题始终有助于在数据中有所发现。这些问题可以大致分为以下几种:
我的变量中出现了哪种类型的变异?
我的变量之间存在哪种共变关系?
本章接下来将探讨这两个问题。我们将解释什么是变异和协变,并向你展示回答这两个问题的几种方法。
变化
变异是指变量值在不同测量之间发生变化的趋势。在现实生活中,你可以很容易地看到变异;如果你对任何连续变量测量两次,就会得到两个不同的结果。即使测量的是恒定的量,如光速,也是如此。你的每次测量都会包含少量的误差,这些误差在不同的测量中会有所不同。如果测量对象不同(如不同人的眼睛颜色)或时间不同(如电子在不同时刻的能级),变量也会不同。每个变量都有自己的变化模式,它可以揭示出有趣的信息,即在对同一观察对象进行测量时,以及在不同观察对象之间,变量是如何变化的。了解这种模式的最佳方法是将变量值的分布可视化,这在第 1 章中已有介绍。
我们将从可视化diamonds 数据集中约 54,000 颗钻石的权重分布 (carat) 开始探索。由于carat 是一个数值变量,我们可以使用直方图:
ggplot(diamonds,aes(x=carat))+geom_histogram(binwidth=0.5)
现在您可以直观地看到变化了,那么您应该在绘图中注意什么?您应该提出哪些后续问题?我们在下一部分列出了图表中最有用的信息类型,并针对每种信息类型提出了一些后续问题。要提出好的后续问题,关键在于你的好奇心(你想了解什么?)和怀疑精神(这怎么可能是误导?) ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access