Skip to Content
数据可视化的基础知识
book

数据可视化的基础知识

by Claus O. Wilke
May 2025
Beginner to intermediate
390 pages
5h 5m
Chinese
O'Reilly Media, Inc.
Content preview from 数据可视化的基础知识

第 8 章 分布可视化 分布可视化: 经验累积分布函数和 Q-Q 图

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com

第 7 章中,我介绍了如何用直方图或密度图来直观显示分布。 这两种方法都很直观,视觉效果也很好。然而,正如该章所讨论的,它们都有一个共同的局限性,那就是所得到的图形在很大程度上取决于用户必须选择的参数,例如直方图的二进制宽度和密度图的带宽。因此,两者都必须被视为对数据的一种解释,而不是数据本身的直接可视化。

除了使用直方图或密度图之外,我们还可以将所有数据点单独显示为点云。不过,这种方法对于非常庞大的数据集来说会变得非常笨重,而且无论如何,能突出分布特性而非单个数据点的汇总方法都是有价值的。为了解决这个问题,统计学家发明了经验累积分布函数(ECDF)和量化-量化(q-q)图。这些类型的可视化不需要任意选择参数,而且能一次性显示所有数据。遗憾的是,与直方图或密度图相比,它们的直观性稍差,在技术性很强的出版物之外,我并没有经常看到它们被使用。不过它们在统计学家中相当流行,我认为任何对数据可视化感兴趣的人都应该熟悉这些技术。

经验累积分布函数

为了说明 ECDF,我将从一个假设的例子开始,这个例子与我作为教授在课堂上经常处理的事情非常相似:一个学生成绩数据集。假设我们假想的班级有 50 名学生,学生们刚刚完成了一次考试,分数在 0 分到 100 分之间。我们怎样才能最好地可视化班级的成绩,例如确定适当的分数界限?

我们可以绘制最多获得一定分数的学生总数与所有可能分数的对比图。该图将是一个递增函数,0 分从 0 开始,100 分从 50 结束。对这种可视化的另一种思考方式如下:我们可以按照所有学生获得的分数从高到低进行排名(因此分数最少的学生排名最低,分数最多的学生排名最高),然后绘制排名与实际分数的对比图。 结果就是经验累积分布函数,或简称累积分布。每个点代表一名学生,而线条则表示在任何可能的分值下观察到的最高学生排名(图 8-1)。

fodv 0801
图 8-1. 假设班级有 50 名学生,学生成绩的经验累积分布函数。

你可能会想,如果我们把学生的排名倒过来,按降序排列,会发生什么呢? 这种排序方式简单地将函数翻转过来,结果仍然是一个经验累积分布函数,但现在的线条代表了在任何可能的点值下观察到的最低学生排名(图 8-2)。

升序累积分布函数比降序累积分布函数更广为人知,也更常用,但两者都有重要的应用。当我们想要直观地显示高度倾斜的分布时,降序累积分布函数至关重要,这将在下一节中讨论。

fodv 0802
图 8-2. 以降序 ECDF 表示的学生成绩分布图。

在实际应用中,绘制 ECDF 时通常不突出单个 点,并以最大等级对等级进行归一化处理,这样y轴就代表了累积频率(图 8-3)。

fodv 0803
图 8-3. ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

Python数据分析

Python数据分析

Posts & Telecom Press, Ivan Idris
程序设计导论:Python语言实践

程序设计导论:Python语言实践

罗伯特 塞奇威克, 凯文 韦恩, 罗伯特 唐德罗
Beginning AppleScript®

Beginning AppleScript®

Stephen G. Kochan

Publisher Resources

ISBN: 9798341657793