Einführung

Warum Datenvisualisierung?

In diesem Buch lernst du, wie du echte und aussagekräftige Datenvisualisierungen erstellst. Die Kapitel vereinen Gestaltungsprinzipien und Schritt-für-Schritt-Anleitungen, um deine informationsbasierten Analysen und Argumente aufschlussreicher und überzeugender zu machen. Genauso wie Sätze durch Belege und Quellenangaben überzeugender werden, wird auch dein datengestütztes Schreiben durch geeignete Tabellen, Diagramme oder Karten noch aussagekräftiger. Worte erzählen uns Geschichten, aber Visualisierungen zeigen uns Datengeschichten, indem sie quantitative, relationale oder räumliche Muster in Bilder umwandeln. Wenn Visualisierungen gut gestaltet sind, lenken sie unsere Aufmerksamkeit auf das Wichtigste in den Daten auf eine Art und Weise, die durch Text allein schwer zu vermitteln wäre.

Unser Buch stellt eine wachsende Zahl kostenloser und leicht zu erlernender digitaler Tools zur Erstellung von Datenvisualisierungen vor. Unter diesem Begriff verstehen wir in erster Linie Diagramme, die Daten als Bilder darstellen, und Karten, die eine räumliche Dimension hinzufügen. Obwohl Tabellen Daten nicht auf die gleiche Weise veranschaulichen, beziehen wir sie in dieses Buch mit ein, weil wir pragmatisch neue Lernende durch einen Entscheidungsprozess leiten wollen, der oft in der Erstellung eines dieser drei Produkte endet. Darüber hinaus definieren wir Datenvisualisierungen im digitalen Zeitalter als Bilder, die leicht wiederverwendet werden können, indem die zugrunde liegenden Informationen, die in der Regel in einer Datei gespeichert sind, geändert werden . Dies steht im Gegensatz zu Infografiken, die in der Regel als Einweggrafiken konzipiert sind.1

Als Pädagogen haben wir Hands-On Data Visualization entwickelt, um Schlüsselkonzepte vorzustellen und Schritt-für-Schritt-Tutorials für neue Lernende anzubieten. Du kannst es dir selbst beibringen oder das Buch nutzen, um andere zu unterrichten. Im Gegensatz zu vielen Fachbüchern, die sich nur auf ein einziges Tool konzentrieren, zeigt dir unser Buch, wie du aus mehr als 20 kostenlosen und benutzerfreundlichen Visualisierungstools auswählen kannst, die wir empfehlen. Während sich andere Bücher nur auf statische Visualisierungen konzentrieren, die nur auf Papier oder in PDF-Dokumenten verbreitet werden können, zeigen wir dir auf , wie du interaktive Tabellen, Diagramme und Karten gestaltest und sie ins Internet einbindest. Interaktive Visualisierungen sprechen ein breiteres Publikum im Internet an, indem sie dazu einladen, mit den Daten zu interagieren, Muster zu erforschen, die sie interessieren, auf Wunsch Dateien herunterzuladen und deine Arbeit ganz einfach in den sozialen Medien zu teilen.

Datenvisualisierungen haben sich in den letzten zehn Jahren im Internet stark verbreitet. Heute begegnen wir in unseren Webbrowsern mehr digitalen Diagrammen und Karten als in der Vergangenheit, als wir sie nur in gedruckter Form gesehen haben. Aber das schnelle Wachstum wirft auch ernste Probleme auf. Das "Informationszeitalter" überschneidet sich jetzt mit dem "Zeitalter der Desinformation". Wie kannst du jetzt, wo fast jeder online etwas veröffentlichen kann, kluge Entscheidungen darüber treffen, wem du vertrauen kannst? Wem glaubst du, wenn dir widersprüchliche Daten über politische Themen wie soziale Ungleichheit oder den Klimawandel vorgelegt werden? Im nächsten Abschnitt werden wir uns mit diesem heiklen Thema befassen und untersuchen, welche Arten von Beweisen dich überzeugen und warum. Und wir verraten dir das kleine, schmutzige Geheimnis der Datenvisualisierung: Sie erhellt unseren Weg auf der Suche nach der Wahrheit, aber sie befähigt uns auch, zu täuschen und zu lügen.

Was kannst du glauben?

Zunächst einmal: Woher weißt du, ob du uns, den Autoren dieses Buches, glauben sollst? Könnten wir dich anlügen? Wie kannst du feststellen, welche Informationen der Wahrheit entsprechen? Beginnen wir mit einer einfachen Aussage in einem Satz.

Beispiel I-1.

Die wirtschaftliche Ungleichheit ist in den Vereinigten Staaten seit den 1970er Jahren stark gestiegen.

Glaubst du diese Behauptung - oder nicht? Vielleicht hast du noch nie auf diese Weise über das Thema nachgedacht (und wenn ja, gibt es eine Menge Informationen, die dir dabei helfen). Vielleicht hängt deine Reaktion davon ab, ob diese Aussage mit deinen bisherigen Überzeugungen übereinstimmt oder ihnen widerspricht. Vielleicht wurde dir aber auch beigebracht, dass du Behauptungen ohne Beweise skeptisch gegenüberstehen sollst (wenn ja, dann danke deinen Lehrern). Gehen wir also zu einer komplexeren Aussage in zwei Sätzen über, die eine Quelle angibt.

Beispiel I-2.

Im Jahr 1970 erhielten die obersten 10 % der Erwachsenen in den USA ein durchschnittliches Einkommen von etwa 135.000 US-Dollar, während die unteren 50 % etwa 16.500 US-Dollar verdienten. Diese Ungleichheit wuchs in den nächsten fünf Jahrzehnten stark an, als das Einkommen der obersten Schicht auf etwa 350.000 USD kletterte, während die untere Hälfte nur noch etwa 19.000 USD verdiente, so die World Inequality Database.2

Ist Beispiel I-2 glaubwürdiger als Beispiel I-1? Es stellt eine präzisere Behauptung auf, indem es die wirtschaftliche Ungleichheit anhand des Durchschnittseinkommens der oberen 10 % gegenüber den unteren 50 % im Laufe der Zeit definiert. Außerdem verweist Beispiel I-2 auf eine bestimmte Quelle und lädt uns ein, weiterzulesen, indem wir der Fußnote folgen. Aber wie beeinflussen diese Faktoren die Überzeugungskraft des Beispiels? Führt Beispiel I-2 dazu, dass du dich fragst, wie vertrauenswürdig die Quelle ist und wie sie "Einkommen" definiert? Lässt dich die Formulierung nach den anderen 40 % der Bevölkerung fragen, die zwischen den beiden Extremen liegen?

Um einige dieser Fragen zu beantworten, wollen wir das Beispiel I-2 mit ein paar weiteren Informationen ergänzen, wie in Tabelle I-1 dargestellt.

Tabelle I-1. Durchschnittliches US-Erwachseneneinkommen, 1970-2019a
US-Einkommensstufe 1970 2019

Top 10%

$136,308

$352,815

Mitte 40%

$44,353

$76,462

Unten 50%

$16,515

$19,177

a Angegeben in konstanten 2019 US-Dollar. Nationaleinkommen für Einzelpersonen ab 20 Jahren, vor Steuern und Transfers, aber einschließlich Rentenbeiträgen und -ausschüttungen. Quelle: World Inequality Database 2020.

Macht Tabelle I-1 das Beispiel I-2 überzeugender? Da die Tabelle im Wesentlichen die gleichen Informationen enthält wie die beiden Sätze über das obere und untere Einkommensniveau, sollte sie keinen Unterschied machen. Aber die Tabelle vermittelt die Beweise effektiver und macht die Argumentation überzeugender.

Für viele Menschen ist es einfacher, die Beziehung zwischen Zahlen zu lesen und zu begreifen, wenn sie in einem Raster angeordnet sind, als in komplexen Sätzen. Wenn du die Spalten überfliegst, bemerkst du automatisch den enormen Einkommenssprung der oberen 10 %, der sich im Laufe der Zeit fast verdreifacht hat, während sich die unteren 50 % kaum verändert haben. Darüber hinaus enthält die Tabelle weitere Informationen über die mittleren 40 %, deren Einkommen im Laufe der Zeit zwar gestiegen ist, aber nicht annähernd so stark wie das der obersten Schicht. Die Anmerkung am Ende der Tabelle gibt außerdem mehr Aufschluss darüber, dass die Daten in konstanten US-Dollar des Jahres 2019 angegeben sind, was bedeutet, dass die Zahlen aus den 1970er Jahren angepasst wurden, um die Veränderungen bei den Lebenshaltungskosten und der Kaufkraft des Dollars über ein halbes Jahrhundert zu berücksichtigen. In der Notiz werden auch kurz andere Begriffe erwähnt, die von der World Inequality Database zur Berechnung des Einkommens verwendet werden (z. B. Steuern, Transfers und Renten), obwohl du für genauere Definitionen die Quelle konsultieren solltest. Sozialwissenschaftler verwenden unterschiedliche Methoden zur Messung der Einkommensungleichheit, kommen aber in der Regel zu ähnlichen Ergebnissen wie hier.3

Manche Bilder sind überzeugender

Ersetzen wir nun die Tabelle durch eine Datenvisualisierung, insbesondere das Liniendiagramm in Abbildung I-1, um zu vergleichen, welche Darstellung überzeugender ist.

hodv 0001
Abbildung I-1. Erkunde das interaktive Liniendiagramm zur Einkommensungleichheit von Erwachsenen in den USA im Laufe der Zeit.

Ist Abbildung I-1 überzeugender als Tabelle I-1? Da das Liniendiagramm die gleichen historischen Start- und Endpunkte enthält wie die Tabelle, sollte es keinen Unterschied machen. Aber das Liniendiagramm vermittelt auch eine aussagekräftige, visualisierte Datengeschichte über Einkommensunterschiede, die deine Aufmerksamkeit mehr fesselt als die Tabelle.

Wenn du den farbigen Linien horizontal über die Seite folgst, fällt dir auf, dass die Ungleichheit zwischen den oberen und den mittleren und unteren Rängen immer größer wird. Das Diagramm verpackt außerdem so viele detaillierte Informationen in ein einziges Bild. Wenn du genau hinsiehst, erkennst du auch, dass das oberste Einkommensniveau in den 1970er Jahren relativ stabil war, dann aber von den 1980er Jahren bis heute sprunghaft anstieg und sich immer weiter von den anderen Linien entfernte. Während das Einkommen der mittleren Schicht im Laufe der Zeit leicht anstieg, blieb das der untersten Schicht relativ konstant, erreichte 2007 seinen Höchststand und sank dann im letzten Jahrzehnt wieder ab. Die Reichen wurden reicher und die Armen wurden ärmer, wie man so schön sagt. Aber die Grafik zeigt, wie schnell der Reichtum wuchs, während die Armut in den letzten Jahren unaufhaltsam blieb.

Fügen wir nun Abbildung I-2 ein, die dieselben Daten wie Abbildung I-1 enthält, aber in einem anderen Format dargestellt wird. Welcher Grafik solltest du glauben? Erinnere dich daran, dass wir dich gewarnt haben, dich vor Leuten in Acht zu nehmen, die Datenvisualisierungen nutzen, um Lügen zu erzählen.

hodv 0002
Abbildung I-2. Erkunde die alternative Version des interaktiven Liniendiagramms über die Einkommensungleichheit von Erwachsenen in den USA im Laufe der Zeit, wobei die gleichen Daten wie in der ersten Version verwendet werden.

Was ist hier los? Wenn Abbildung I-2 die gleichen Daten enthält wie Abbildung I-1, warum sehen sie dann so anders aus? Was ist mit der auffälligen Zunahme der Ungleichheit passiert, die jetzt geglättet zu sein scheint? Ist die Krise plötzlich verschwunden? War sie eine Täuschung?

Obwohl das Diagramm in Abbildung I-2 technisch korrekt ist, haben wir es absichtlich so gestaltet, dass es die Leser in die Irre führt. Schau dir die Beschriftungen auf der vertikalen Achse genau an. Der Abstand zwischen der ersten und der zweiten Zahl (1.000 bis 10.000 $) ist derselbe wie der zwischen der zweiten und der dritten Zahl (10.000 bis 100.000 $), aber diese Sprünge stehen für sehr unterschiedliche Geldbeträge (9.000 $ gegenüber 90.000 $). Das liegt daran, dass dieses Diagramm mit einer logarithmischen Skala erstellt wurde, die sich am besten für die Darstellung exponentiellen Wachstums eignet.

Du erinnerst dich vielleicht daran, dass logarithmische Skalen während der COVID-19-Pandemie verwendet wurden, um sehr hohe Wachstumsraten zu veranschaulichen, die mit einer traditionellen linearen Skala nur schwer darstellbar sind. Dieses zweite Diagramm ist technisch korrekt, weil die Datenpunkte und Skalenbeschriftungen übereinstimmen, aber es ist irreführend, weil es keinen guten Grund gibt, diese Einkommensdaten mit einer logarithmischen Skala zu interpretieren, außer uns über diese Krise zu täuschen. Menschen können Diagramme nutzen, um die Wahrheit zu erhellen, aber auch, um sie zu verschleiern.

Verschiedene Schattierungen der Wahrheit

Weiten wir unsere Analyse der Einkommensungleichheit über die Grenzen einer Nation hinaus aus. Beispiel I-3 stellt vergleichende Daten und ihre Quelle vor. Im Gegensatz zu den vorherigen Beispielen aus den USA, die historische Daten für drei Einkommensstufen zeigten, konzentriert sich dieses globale Beispiel auf das aktuellste Jahr, für das Daten für die obersten 1% in jeder Nation verfügbar sind. Außerdem wird bei diesem internationalen Vergleich nicht das Einkommen in US-Dollar gemessen, sondern der prozentuale Anteil der obersten 1 % am nationalen Einkommen. Mit anderen Worten: Er gibt an, wie groß das Stück des Kuchens ist, das die reichsten 1 % in jedem Land bekommen.

Beispiel I-3.

Die Einkommensungleichheit ist in den USA noch größer, wo das reichste 1% der Bevölkerung derzeit 20% des Nationaleinkommens erhält. Im Gegensatz dazu erhält das reichste 1% in den meisten europäischen Ländern einen geringeren Anteil, der zwischen 6% und 15% des Nationaleinkommens liegt.4

Wenn wir diesen Gedankengang weiterverfolgen, können wir Beispiel I-3 mit einer Visualisierung ergänzen, um seine Überzeugungskraft zu bewerten. Wir könnten zwar eine Tabelle oder ein Diagramm erstellen, aber das wäre nicht die effektivste Methode, um die Informationen für die mehr als 120 Nationen in unserem Datensatz schnell darzustellen. Da es sich um räumliche Daten handelt, sollten wir sie in eine interaktive Karte umwandeln, um geografische Muster zu erkennen und die Leser zu ermutigen, das Einkommensniveau rund um den Globus zu erkunden, wie in Abbildung I-3 dargestellt.

hodv 0003
Abbildung I-3. Erkunde die interaktive Karte der weltweiten Einkommensungleichheit, gemessen am Anteil des Nationaleinkommens der obersten 1% der Bevölkerung, basierend auf den neuesten verfügbaren Daten. Quelle: World Inequality Database 2020.

Ist Abbildung I-3 überzeugender als Beispiel I-3? Die Karte und der Text zeigen die gleichen Daten über die Einkommensungleichheit in den USA und Europa, es sollte also keinen Unterschied geben. Aber die Karte zieht dich in eine überzeugende Geschichte hinein, die die Kluft zwischen Arm und Reich anschaulich darstellt, ähnlich wie das Beispiel mit dem Diagramm oben. Die Farben auf der Karte signalisieren eine Krise, denn Rot steht in vielen Kulturen für Dringlichkeit. Die Einkommensungleichheit in den USA (und einigen anderen Ländern, darunter Russland und Brasilien) wird auf der höchsten Ebene der Legende dunkelrot dargestellt, da die obersten 1 % 19 % oder mehr des nationalen Einkommens besitzen. Wenn dein Blick über den Atlantik schweift, erscheinen dagegen fast alle europäischen Länder in helleren Beige- und Orangetönen, was auf keine dringende Krise hindeutet, da die oberste Schicht einen geringeren Anteil des Nationaleinkommens besitzt.

Jetzt stellen wir dir die alternative Karte in Abbildung I-4 vor, die die gleichen Daten wie in Abbildung I-3 enthält, aber in einem anderen Format dargestellt wird. Welcher Karte solltest du glauben?

hodv 0004
Abbildung I-4. Erkunde eine alternative Version der interaktiven Karte der weltweiten Einkommensungleichheit, die dieselben Daten wie die vorhergehende Karte verwendet.

Warum sieht die zweite Karte in Abbildung I-4 anders aus als die erste Karte in Abbildung I-3? Statt dunkelrot sind die USA jetzt mittelblau gefärbt und liegen damit näher an Kanada und den meisten europäischen Ländern. Ist die Ungleichheitskrise einfach aus den USA verschwunden und ins dunkelblaue Brasilien gewandert? Welche Karte sagt die Wahrheit?

Dieses Mal ist keine der beiden Karten irreführend. Beide interpretieren die Daten wahrheitsgetreu und sind vernünftig gestaltet, auch wenn sie in unseren Augen sehr unterschiedliche Eindrücke vermitteln. Um zu verstehen, warum das so ist, schau dir die Legenden der Karten genau an. Die erste Karte teilt die Länder in drei Kategorien ein (weniger als 13 %, 13-19 % und 19 % und mehr), während die zweite Karte die gesamte Bandbreite in einem grün-blauen Farbverlauf darstellt. Da der Anteil der USA bei 20,5 % liegt, fällt er in der ersten Karte in die oberste Kategorie mit der dunkelsten roten Farbe, in der zweiten Karte aber eher in die Mitte als mittelblau. Dennoch sind beide Karten gleichwertig, denn keine von ihnen verstößt gegen eine eindeutige Regel bei der Kartengestaltung, und wir verschleiern die Daten auch nicht absichtlich. Menschen können mit Karten in die Irre führen, aber es ist auch möglich, mehr als ein Bild der Wahrheit zu zeichnen.

Die interpretative Natur der Datenvisualisierung stellt eine große Herausforderung dar. Als Autoren dieses Buches ist es unser Ziel, dich bei der Erstellung wahrheitsgetreuer und aussagekräftiger Diagramme und Karten anzuleiten. Wir weisen dich auf die Grundsätze guten Designs hin, ermutigen dich zu überlegtem Handeln und versuchen, mit gutem Beispiel voranzugehen. Gelegentlich sagen wir dir auch, was du nicht tun solltest. Aber Datenvisualisierung ist ein schwieriges Thema - manchmal mehr Kunst als Wissenschaft. Wir wissen, dass Diagramme und Karten - genau wie Worte - manipuliert werden können, um dein Publikum in die Irre zu führen, und wir zeigen dir gängige Täuschungstechniken, damit du sie in der Arbeit anderer erkennen und in deiner eigenen Arbeit bewusst vermeiden kannst. Neulinge können jedoch von den etwas unscharfen Regeln der Datenvisualisierung frustriert sein. Oft gibt es nicht die eine richtige Antwort auf ein Problem, sondern mehrere plausible Lösungen, jede mit ihren eigenen Stärken und Schwächen.

Als Lernender ist es deine Aufgabe, ständig nach besseren Antworten zu suchen, ohne unbedingt zu erwarten, dass du die eine richtige Antwort findest, zumal sich die Visualisierungsmethoden und -werkzeuge weiterentwickeln und die Menschen neue Wege finden, die Wahrheit zu zeigen.

Organisation des Buches

Wir haben die Kapitel dieses Buches so aufgebaut, dass sie als einführende, praktische Anleitung zur Datenvisualisierung dienen, von Tabellenkalkulationen bis hin zum Code. Außerdem setzen wir keinerlei Vorkenntnisse voraus, außer einer allgemeinen Vertrautheit mit der Bedienung eines Computers und einer vagen Erinnerung an Mathematik in der Sekundarstufe sowie einer angeborenen Neugierde, mit Daten Geschichten zu erzählen. Stell dir das Buch in vier Teilen vor.

In Teil I lernst du, wie du dir deine Datengeschichte vorstellst und welche Werkzeuge und Daten du dafür brauchst. Wir gehen schrittweise zu den Kapiteln 1, 2, 3, 4 und 5 über. In diesen Kapiteln findest du praktische Übungen, die das Lernen durch Handeln bereichern.

In Teil II erstellst du viele Visualisierungen mit einfach zu erlernenden Drag-and-Drop-Tools und findest heraus, welche Arten von Visualisierungen am besten mit verschiedenen Datengeschichten funktionieren. Wir beginnen mit den Kapiteln 6, 7 und 8 und entwickeln dein Verständnis für den Interpretationsstil, den jedes Kapitel betont. In Kapitel 9 erfährst du, wie du all diese interaktiven Visualisierungen in gängige Webplattformen einfügst, um Leser/innen einzuladen, deine Daten zu erforschen und deine Arbeit weiter zu verbreiten.

In Teil III wirst du mit leistungsfähigeren Tools arbeiten, insbesondere mit Code-Templates, mit denen du das Aussehen deiner Visualisierungen und den Ort, an dem du sie online bereitstellst, besser anpassen kannst. Wir beginnen mit Kapitel 10 und führen dich durch die einfache Weboberfläche einer beliebten Open-Source-Codierungsplattform. Dann baust du mit Hilfe der Kapitel 11 und 12 auf und entdeckst in Kapitel 13 fortgeschrittenere räumliche Werkzeuge. Am Ende des Buches findest du den Anhang: Behebe häufige Probleme, damit du nachschlagen kannst, wenn du deinen Code versehentlich kaputt gemacht hast, und damit du lernst, wie der Code funktioniert.

In Teil IV werden wir alle Visualisierungsfähigkeiten, die du entwickelt hast, abschließen, indem wir zum zentralen Thema dieser Einführung zurückkehren: wahre und aussagekräftige Geschichten mit Daten erzählen. In Kapitel 14 lernst du, wie du mit Diagrammen und Karten lügen kannst, um die Wahrheit besser zu erzählen. In Kapitel 15 schließlich wird betont, dass es bei der Datenvisualisierung nicht nur darum geht, Bilder über Zahlen zu machen, sondern eine wahrheitsgetreue Erzählung zu erstellen, die die Leser/innen davon überzeugt, wie und warum deine Interpretation wichtig ist.

Zusammenfassung

Jetzt hast du eine klarere Vorstellung von unserem Hauptziel für dieses Buch. Wir möchten, dass du lernst, wie du mit interaktiven Datenvisualisierungen wahre und aussagekräftige Geschichten erzählst, ohne dabei zu vergessen, dass sie auch zur Irreführung eingesetzt werden können. Im nächsten Kapitel geht es um die Datengeschichte, die du erzählen willst, und um die Faktoren, die du bei der Auswahl von Tools für diese Aufgabe berücksichtigen musst.

1 Beachte, dass andere Bücher über Datenvisualisierung diese Begriffe möglicherweise anders verwenden. In Alberto Cairo, How Charts Lie: Getting Smarter About Visual Information (W.W. Norton & Company, 2019), https://oreil.ly/wXcBX, S. 23 , werden zum Beispiel alle Visualisierungen als "Charts" definiert.

2 World Inequality Database, "Income Inequality, USA, 1913-2019", Zugriff 2020, https://oreil.ly/eUYZn.

3 Die World Inequality Database baut auf der Arbeit der Ökonomen Thomas Piketty, Emmanuel Saez und ihrer Kollegen auf, die historische Einkommensdaten für die USA nicht nur auf der Grundlage von Selbstauskünften, sondern auch auf der Grundlage großer Stichproben von Steuererklärungen erstellt haben, die dem Internal Revenue Service vorgelegt wurden. Siehe WID-Methoden unter World Inequality Database, "Methodology", 2020, https://oreil.ly/F4SNk. Siehe den Überblick über die methodischen Ansätze in Chad Stone et al., "A Guide to Statistics on Historical Trends in Income Inequality" (Center on Budget and Policy Priorities, 13. Januar 2020), https://oreil.ly/uqAzm. Siehe vergleichbare Ergebnisse des Pew Charitable Trust zur Einkommensungleichheit in den USA in "Trends in US Income and Wealth Inequality" von Julia Menasce Horowitz, Ruth Igielnik und Rakesh Kochhar (Pew Research Center's Social & Demographic Trends Project, 9. Januar 2020), https://oreil.ly/W5nPq.

4 World Inequality Database, "Top 1% National Income Share", 2020, Zugriff 2020, https://oreil.ly/fwQQV.

Get Datenvisualisierung zum Anfassen now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.