第9章 交流数据

本章介绍如何向他人分享我们的分析结果。我们将介绍多种数据展示风格和可视化技巧。本章的目标是让你能够以清晰易懂、有条理的方式向其他人展示分析结果。无论对方是不是数据专家,都能够理解和使用你的分析结果。

我们将讨论如何通过标签、键值、颜色等技巧创建有效的图表。我们还将介绍更高级的数据可视化技巧,比如轮廓图(parallel coordinate plots)

本章的主题包括:

  • 识别有效和无效的可视化;
  • 识别图表是否在说谎;
  • 识别因果关系和相关性;
  • 构建有吸引力和价值的图表。

在数据科学实战中,能够用程序语言处理数据、做实验还远远不够。数据科学的分析结果只有被真正使用之后才能产生价值。即便某研究医疗的数据科学家预测游客在发展中国家感染Malaria病毒的准确度高达98%,但如果该研究结果发表在没有影响力的期刊,在网络上也没有获得关注,那么这个原本可以预防很多人死亡的开拓性研究结果,将无法被世人知晓。

正因为如此,和他人交流数据才和研究结果本身一样重要。一个没有重视交流数据重要性的案例是Gregor Mendel[1]。Mendel被认为是现代基因学的奠基人,但直到他去世之后,人们才认识到他的研究结果(数据和图表)的价值。实际上,Mendel曾经将研究结果寄给了Charles Darwin[2],但Darwin丝毫没有关注Mendel的研究结果——因为它发表在一本不知名的期刊上。

通常来讲,有两种展示分析结果的方式:语言交流和可视化。语言交流和可视化又可以细分到多个子类,比如幻灯片、图表、期刊,甚至大学讲座。通过掌握数据展示的核心要素,我们每个人都可以拥有清晰、有效的交流技能。

下面将介绍有效和无效的交流方式,我们先从可视化开始。

Get 数据科学原理 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.