第 8 章 分布可视化 分布可视化: 经验累积分布函数和 Q-Q 图
本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com
在第 7 章中,我介绍了如何用直方图或密度图来直观显示分布。 这两种方法都很直观,视觉效果也很好。然而,正如该章所讨论的,它们都有一个共同的局限性,那就是所得到的图形在很大程度上取决于用户必须选择的参数,例如直方图的二进制宽度和密度图的带宽。因此,两者都必须被视为对数据的一种解释,而不是数据本身的直接可视化。
除了使用直方图或密度图之外,我们还可以将所有数据点单独显示为点云。不过,这种方法对于非常庞大的数据集来说会变得非常笨重,而且无论如何,能突出分布特性而非单个数据点的汇总方法都是有价值的。为了解决这个问题,统计学家发明了经验累积分布函数(ECDF)和量化-量化(q-q)图。这些类型的可视化不需要任意选择参数,而且能一次性显示所有数据。遗憾的是,与直方图或密度图相比,它们的直观性稍差,在技术性很强的出版物之外,我并没有经常看到它们被使用。不过它们在统计学家中相当流行,我认为任何对数据可视化感兴趣的人都应该熟悉这些技术。
经验累积分布函数
为了说明 ECDF,我将从一个假设的例子开始,这个例子与我作为教授在课堂上经常处理的事情非常相似:一个学生成绩数据集。假设我们假想的班级有 50 名学生,学生们刚刚完成了一次考试,分数在 0 分到 100 分之间。我们怎样才能最好地可视化班级的成绩,例如确定适当的分数界限?
我们可以绘制最多获得一定分数的学生总数与所有可能分数的对比图。该图将是一个递增函数,0 分从 0 开始,100 分从 50 结束。对这种可视化的另一种思考方式如下:我们可以按照所有学生获得的分数从高到低进行排名(因此分数最少的学生排名最低,分数最多的学生排名最高),然后绘制排名与实际分数的对比图。 结果就是经验累积分布函数,或简称累积分布。每个点代表一名学生,而线条则表示在任何可能的分值下观察到的最高学生排名(图 8-1)。
图 8-1. 假设班级有 50 名学生,学生成绩的经验累积分布函数。
你可能会想,如果我们把学生的排名倒过来,按降序排列,会发生什么呢? 这种排序方式简单地将函数翻转过来,结果仍然是一个经验累积分布函数,但现在的线条代表了在任何可能的点值下观察到的最低学生排名(图 8-2)。
升序累积分布函数比降序累积分布函数更广为人知,也更常用,但两者都有重要的应用。当我们想要直观地显示高度倾斜的分布时,降序累积分布函数至关重要,这将在下一节中讨论。
图 8-2. 以降序 ECDF 表示的学生成绩分布图。
在实际应用中,绘制 ECDF 时通常不突出单个 点,并以最大等级对等级进行归一化处理,这样y轴就代表了累积频率(图 8-3)。
图 8-3. ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access