Kapitel 4. Daten auf unterschiedliche Weise visualisieren

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Wenn du nur Tabellen, Balken- und Liniendiagramme verwendest, kannst du die meisten Anforderungen an die Datenkommunikation erfüllen. Wenn du jedoch nur diese grundlegenden Formen der Datenkommunikation verwendest, schränkst du deine Analyse ein und riskierst, dein Publikum zu langweilen.

Die Verwendung alternativer Diagrammtypen kann dir dabei helfen, unterschiedliche Aussagen in den Daten zu finden. Wenn du zwei Kennzahlen in einem Diagramm verwendest, kannst du Beziehungen erkennen, die du sonst nicht sehen würdest. Wenn du eine Kennzahl direkt mit einer anderen vergleichst, musst du dir nicht zwei verschiedene Diagramme ansehen und die Analyse im Kopf erstellen. Und wenn du die einzelnen Datenpunkte anzeigst, anstatt die Werte zu einer zusammenfassenden Kennzahl zu aggregieren, kannst du neue Trends in den Daten aufdecken.

In diesem Kapitel geht es um einige alternative Diagramme und wie du sie nutzen kannst.

Diagrammtypen: Scatterplots

Ich muss das gleich zu Beginn erwähnen: Ich liebe Streudiagramme. Da, ich habe es gesagt. Natürlich werde ich dir eine unvoreingenommene Meinung geben, aber ich werde dir auch sagen, warum ich sie für so wirkungsvoll halte.

Ich liebe Scatterplots wegen ihrer Flexibilität; sie können verschiedene Anwendungsfälle abdecken. Viele Menschen finden sie außerdem leicht zu interpretieren. Die Kombination mehrerer Metriken ist für die Analyse nützlich. Und schließlich kannst du mit Streudiagrammen Hunderte, wenn nicht Tausende von Datenpunkten in einem einzigen Diagramm zusammenfassen, so dass Geschichten in den Daten aufgedeckt werden, die verloren gehen könnten, wenn du die Daten so filterst, dass sie auf eine einzige Seite passen. (Farbe kann hier helfen, indem sie die wichtigsten Datenpunkte hervorhebt.)

Bei so vielen Möglichkeiten sollten wir sicherstellen, dass du die grundlegenden Bausteine von Streudiagrammen verstehst.

Wie man Streudiagramme liest

Du kannst viele Details zu einem Streudiagramm hinzufügen, aber das heißt nicht, dass du das auch tun solltest. Zu viele Details können das Diagramm schwer lesbar machen.

Wir beginnen mit einem einfachen Streudiagramm aus unserem Fahrradladen Allchains. Dieses Streudiagramm vergleicht den Verkaufswert mit dem Gewinn für jeden unserer Fahrradtypen(Abbildung 4-1).

Lass uns die Elemente eines Streudiagramms erkunden: mehrere Achsen, Flächen, Farben und Formen. Bei jedem Element haben wir eine Menge Auswahlmöglichkeiten.

Mehrere Achsen

Streudiagramme haben zwei Achsen und nicht die eine Achse, die wir bisher in Diagrammen gesehen haben(Abbildung 4-2). Das ist nützlich, wenn du zwei Messgrößen direkt miteinander vergleichen willst.

Die Achsen bilden eine 2D-Position, mit der du den Datenpunkt vergleichen kannst. Wenn du mehrere Punkte aufträgst, kannst du Muster zwischen ihnen finden und analysieren. Außerdem sollte das Maß, das die x-Achse bildet, die unabhängige Variable sein: das Maß, das nicht von der y-Achse abhängt oder gesteuert wird. Die Messgröße auf der y-Achse wird daher als abhängige Variable bezeichnet. In Abbildung 4-2 ist der Umsatz auf der x-Achse aufgetragen, da ohne Umsatz kein Gewinn erzielt werden kann: Der Gewinn ist vom Umsatz abhängig.

Die Muster, die durch diese Diagramme entstehen, werden als Korrelationsmuster bezeichnet(Abbildung 4-3). Vielleicht hast du schon vom Trugschluss der falschen Ursache gehört: "Korrelation ist nicht gleich Kausalität". Das bedeutet, dass du, nur weil du eine starke Korrelation zwischen zwei Faktoren in deinen Daten findest, nicht davon ausgehen kannst, dass der eine Faktor den anderen verursacht.

In diesem Beispiel verkauft Allchains an sonnigen Tagen mehr Fahrradhelme. Können wir davon ausgehen, dass sonnige Tage zu mehr Verkäufen von Fahrradausrüstung führen? Nicht unbedingt. Ich persönlich fahre an sonnigen Tagen viel mehr Fahrrad als an regnerischen - und die meisten dieser sonnigen Tage sind im Sommer. Wenn an sonnigen Tagen mehr Helme verkauft werden, liegt das wahrscheinlich an dem allgemein wärmeren Wetter im Sommer und nicht am Sonnenschein selbst. Schließlich können auch Wintertage sonnig und eisig zugleich sein, aber an solchen Tagen gehe ich nicht reiten!

Korrelationen lassen sich in zahlreiche Arten unterteilen; die wichtigsten Begriffe, die dir begegnen werden, sind positive und negative Korrelationen sowie starke und schwache Korrelationen. Bei steigt bei einer positiven Korrelation der Wert auf der x-Achse und der Wert auf der y-Achse(Abbildung 4-4). Wir können dies mit einer Trendlinie in unserem Streudiagramm darstellen. In Abbildung 4-4 habe ich Orange verwendet, um die Trendlinie hervorzuheben.

Wenn die abhängige Variable sinkt, während die unabhängige Variable steigt, hast du eine negative Korrelation(Abbildung 4-5). Wenn X zum Beispiel die Anzahl der von Allchains durchgeführten Wartungsarbeiten an Fahrrädern ist, zeigt Y eine Verringerung der Anzahl der mechanischen Pannen bei unseren Kunden im folgenden Jahr.

Es reicht jedoch nicht aus, nur die Richtung der Korrelation zu kennen. Wie viel Aufmerksamkeit du der gefundenen Beziehung schenken solltest, hängt von der Stärke der Beziehung zwischen den Variablen ab. Eine starke Korrelation bedeutet, dass die Datenpunkte eng um die Trendlinie herum angeordnet sind(Abbildung 4-6). Je geringer der Abstand zwischen den Datenpunkten und der Linie ist, desto stärker ist der Zusammenhang.

Je weiter die Datenpunkte von der Trendlinie entfernt sind, desto schwächer ist die Beziehung(Abbildung 4-7).

Nicht jedes Streudiagramm zeigt eine Korrelation. Wenn kein Zusammenhang zwischen der Messgröße auf der x-Achse und der Messgröße auf der y-Achse besteht, hat das Streudiagramm keine Korrelation. Das könnte dann etwa so aussehen wie in Abbildung 4-8.

Unabhängig davon, ob du die Trendlinie zeichnest oder nicht, kann es einfacher sein, die Muster in Streudiagrammen darzustellen, als die Beziehung durch Worte oder andere Diagrammoptionen zu erklären. Wenn du das Muster in den Daten siehst, ist es auch einfacher, die Ausreißer zu erkennen, also die Datenpunkte, die nicht in das von dir festgelegte Muster passen. Die Untersuchung von Ausreißern kann Probleme in deiner Organisation aufdecken, die sonst nicht auffallen würden.

Grundstücke

Die Superstars des Streudiagramms sind die eigentlichen Datenpunkte. Ein Plot oder ein Punkt auf dem Scatterplot stellt zwei Datenpunkte dar, einen aus dem Maß, das die x-Achse bildet, und einen aus der y-Achse (x, y).

Wenn zu wenige Datenpunkte hat, wie in Abbildung 4-1, kann es schwierig sein, etwas Nützliches aus dem Diagramm zu ziehen. Der umgekehrte Fall ist das Overplotting: Wenn du zu viele Datenpunkte hast, ist es schwierig zu erkennen, was das Diagramm zeigt. Abbildung 4-9 ist ein Beispiel: Sie zeigt den Verkaufswert und den Gewinn von etwa 800 Fahrradverkäufen.

An example of overplotting on a scatterplot

Kannst du hier 800 verschiedene Parzellen identifizieren? Ich kann es nicht. Viele der Parzellen liegen direkt übereinander. Diese Technik ist hilfreich, wenn sich nur wenige Flächen überlappen. In Abbildung 4-9 ist der dunkel schattierte Bereich jedoch ein amorpher Haufen ununterscheidbarer Diagramme. Dieses Diagramm ist jedoch nicht völlig nutzlos, denn es zeigt die Ausreißer.

Wenn die Frage, die du zu beantworten versuchst, einzelne Datenpunkte erfordert, z. B. die Analyse aller Schüler/innen einer Schule, kannst du den Diagrammstil entsprechend anpassen. Wenn du die Transparenz der Diagramme erhöhst, kannst du besser erkennen, wo sich die Punkte überschneiden. In Abbildung 4-10 habe ich die gleichen Diagramme auf 30 % ihrer ursprünglichen Deckkraft reduziert.

Increasing the transparency of the plots

Eine weitere Technik zur Auflockerung des amorphen Kleckses ist das Hinzufügen von Rändern zu den Diagrammen, um die Anzahl der Datenpunkte zumindest an der Oberfläche zu zeigen. In Abbildung 4-11 habe ich einen hellgrauen Rand verwendet, damit die einzelnen Punkte aus dem Bild herausragen, wenn sie sich überschneiden.

Manchmal ist es schwierig, alles, was du brauchst, in ein einziges, statisches Diagramm zu packen. In Kapitel 7 werden wir uns damit befassen, wie man mehrere Diagramme verwendet, um verschiedene Aspekte der Daten darzustellen, anstatt zu versuchen, alles in ein einziges Diagramm zu packen.

Farbe

Eine Sache, die dir bei unseren Streudiagrammen bisher vielleicht aufgefallen ist, ist, dass es schwierig ist zu erkennen, welcher Punkt sich auf welchen kategorischen Wert bezieht. Bei den Diagrammen handelt es sich oft um kategorische Werte, wie die Überschriften in Balkendiagrammen. In Abbildung 4-12 werden Farben und eine Farblegende hinzugefügt (der kleine Hinweis an der Seite des Diagramms, der erklärt, wofür jede Farbe steht).

Achte darauf, dass du bei Streudiagrammen nicht zu viele Farben verwendest: Dein Publikum wird sich wahrscheinlich nicht mehr daran erinnern, wofür jede der 20 Farben steht, und wenn du es zwingst, zu oft zur Legende hin und her zu blicken, erhöht sich der kognitive Aufwand, um deine Botschaft zu verstehen. Wie in Kapitel 1 besprochen, liegt einer unserer Schwerpunkte darauf, den kognitiven Aufwand zu verringern, der nötig ist, um die Botschaft zu verstehen, die du vermitteln willst.

Die meisten Kulturen assoziieren bereits viele Bedeutungen mit Farben, und das kannst du zu deinem Vorteil nutzen. Wenn du Farben auf eine Weise verwendest, die bereits mit bekannten Konzepten verknüpft ist, muss das Publikum viel weniger auf die Legende verweisen. Wenn du zum Beispiel den Verkauf von Obst und Gemüse in einem Lebensmittelladen visualisierst, wird die Legende leichter zu lesen sein, wenn du die Farben verwendest, die mit den Lebensmitteln in Verbindung stehen, z. B. rot für Erdbeeren und gelb für Bananen. Rot für Bananen und Gelb für Erdbeeren zu verwenden, würde hingegen die kognitive Belastung erhöhen. Ebenso könntest du schwarz und rot verwenden, um Gewinn und Verlust zu kennzeichnen, denn "in the red" ist eine gängige Redewendung für Unternehmen, die Verluste machen, und "in the black" beschreibt profitable Unternehmen. Wo immer du das Bewusstsein der Verbraucher/innen für solche Faktoren nutzen kannst, solltest du das tun: Das reduziert die kognitive Belastung. Das psychologische Schema deines Publikums zu nutzen, heißt das.¹

In Abbildung 4-12 habe ich absichtlich Farben verwendet, die wie Schlamm für Mountainbikes, Stein für Gravelbikes und Grau für Rennräder aussehen. Die Verwendung einzelner Farben zur Darstellung von Kategorien wird als kategorische Farbpalette bezeichnet.

Wenn deine Diagramme ein ordinales Datenfeld darstellen, möchtest du vielleicht eine sequenzielle Farbpalette verwenden. Dabei werden Abstufungen einer einzigen Farbe von hell bis dunkel verwendet, um eine Abfolge von Werten darzustellen (z. B. von niedrig bis hoch oder von früh bis spät). Bei 16 Datenpunkten in Abbildung 4-13 wäre es schwierig zu erkennen, ob in späteren Quartalen höhere Umsätze und Gewinne erzielt wurden als in früheren Quartalen. Mit einer fortlaufenden Farbpalette, die anzeigt, wann im Jahr der Verkauf stattgefunden hat, ist es zumindest möglich, einige Schlussfolgerungen aus diesem Diagramm zu ziehen. In diesem Fall sind die Flächen mit höheren Umsätzen und Gewinnen alle dunkelblau, was bedeutet, dass sie in jüngerer Zeit entstanden sind.

Ein weiterer Palettentyp, den du verwenden kannst, ist die divergierende Farbpalette, die zwei Farben verwendet, um Werte darzustellen, die über oder unter einem bestimmten Schwellenwert liegen, z. B. Null oder ein Ziel. Eine Farbe könnte für eine Unterschreitung und eine andere Farbe für eine Überschreitung stehen.

Schließlich kannst du Farbe verwenden, um bestimmte Punkte von allen anderen abzuheben. In Abbildung 4-14 habe ich meine eigenen Einkäufe bei Allchains inmitten der Einkäufe von Hunderten anderer Kunden hervorgehoben.

Dies ist eine einfache Technik, die die Botschaft vermittelt, ohne den Kontext des Verhaltens aller anderen Kunden zu verlieren. In Kapitel 7 erfährst du mehr über Farben.

Formen

Die Plots auf deinem Scatterplot müssen nicht unbedingt Kreise sein. Du kannst auch Formen verwenden, um Kategorien darzustellen, wie in Abbildung 4-15 gezeigt.

Shape Scatterplots sind besonders nützlich, um die Zugänglichkeit von sicherzustellen. Du weißt nicht immer, ob alle deine Kunden Farben leicht unterscheiden können. Die sogenannte Farbenblindheit ist eine Unfähigkeit, einen Teil des Farbspektrums zu unterscheiden, und kann sich bei vielen Sehbehinderungen unterschiedlich äußern.

Hier gibt es Kompromisse: Die Form ist ein präattentives Attribut, genau wie die Farbe, aber die Farbe löst stärker präattentive Reaktionen aus. Die Interpretation von Formen erfordert mehr kognitive Arbeit. Um dies zu erleichtern, kannst du, wenn möglich, repräsentative Formen verwenden oder Formen mit Farben kombinieren. In Kapitel 5 wird näher auf Formen eingegangen.

Wie man Streudiagramme optimiert

Streudiagramme sind eine gute Option für Diagramme, wenn du zwei Kennzahlen vergleichst, vor allem wenn eine Kennzahl einen Einfluss auf die andere hat (oder haben könnte). Denke an die in diesem Kapitel verwendeten Kennzahlen für Umsatz und Gewinn. Wenn die Umsätze steigen, solltest du auch erwarten, dass die Gewinne steigen, oder? Aber das ist vielleicht nicht der Fall! Was ist, wenn der Umsatz steigt, weil unser Unternehmen die Preise senkt, um die Konkurrenz zu unterbieten? Oder die Kosten für jeden Verkauf könnten steigen und das Unternehmen dazu zwingen, mehr als üblich auszugeben, um das Produktionsvolumen durch zusätzliche Verkäufe aufrechtzuerhalten.

Das Streudiagramm kann dir vielleicht nicht immer sagen, warum etwas passiert, aber es gibt dir einen Anstoß in die richtige Richtung und bringt dich dazu, die richtigen Fragen zu stellen. Einige Varianten von Streudiagrammen, die im Folgenden vorgestellt werden, können sich in bestimmten Situationen als nützlich erweisen.

Kleine Mehrfach-Streudiagramme

Wie auf unter "Mehrere Achsen" zu sehen ist , kann die Verwendung von Trendlinien in Streudiagrammen eine gute Methode sein, um die Beziehung zwischen zwei Messgrößen darzustellen. Allerdings können zu viele Diagramme in einem einzigen Streudiagramm signifikante oder wechselnde Trends verbergen. Eine Abhilfe ist es, das einzelne Streudiagramm in mehrere Streudiagramme aufzuteilen. Du kannst die Diagramme verkleinern und die Formatierung ändern, um die Botschaft auf einer einzigen Seite oder einem einzigen Bildschirm zu vermitteln.

Der Begriff Small Multiples bezieht sich auf das spalierartige Muster von Diagrammen, das entsteht, wenn jedes Diagramm in Kategorien unterteilt wird. Kleine Multiplikatoren können aus den meisten Diagrammformen gebildet werden, aber ich finde Streudiagramme besonders effektiv. In Abbildung 4-16 habe ich ein Streudiagramm nach Jahr (vertikal) und Quartal (horizontal) aufgeteilt, um die vierteljährlichen Trends deutlich miteinander zu vergleichen. Außerdem habe ich die Formatierung geändert, damit der Trend der deutlichste Teil des Diagramms ist. Durch die farbliche Hervorhebung des Trends gegenüber einer starken x- und y-Achse werden die Trends schnell vergleichbar. Die Transparenz der Diagramme wurde erhöht, damit sie zwar noch sichtbar sind, aber im Hintergrund verschwinden.

In Abbildung 4-16 kannst du schnell die negative Korrelation zwischen Umsatz und Gewinn im Q1 2017 erkennen: Es ist die einzige Trendlinie, die bei steigendem Umsatz nach unten verläuft. Die Trendlinien zeigen, dass der größte Gewinn bei den Umsätzen im Q1 2020 erzielt wurde, und diese Aussage wird durch das kleine Mehrfachstreudiagramm deutlich gemacht.

Diese Technik ist besonders nützlich, wenn du statische Versionen des Diagramms teilst. Aber auch wenn du eine interaktive Version deines Streudiagramms erstellst, die Filter enthält, um jedes einzelne kleine Vielfache der Reihe nach zu erstellen, solltest du die Option der kleinen Vielfachen in Betracht ziehen. Die Spalierform der kleinen Multiplikatoren ermöglicht es dir, Trends horizontal zu vergleichen - in diesem Fall von Quartal zu Quartal und das gleiche Quartal in einem anderen Jahr.

Quadrantenkarten

Genau wie das kleine Mehrfachstreudiagramm Trends deutlicher macht, vereinfacht ein Quadrantendiagramm auch die Interpretation der Daten im Streudiagramm. Quadrantendiagramme zerlegen das Streudiagramm effektiv mit Referenzlinien, die mit den Achsen verbunden sind. Diese Klarheit macht es viel einfacher, die nächsten Schritte zu bestimmen.

Nimm das Streudiagramm in Abbildung 4-17: Wie interpretierst du bei einer schwachen Korrelation die Aussage in diesem Diagramm? Die x-Achse zeigt den Umsatz, die y-Achse den Gewinn und jedes Diagramm steht für eine andere Kategorie des jeweiligen Fahrradtyps.

Es ist schwierig, in diesem Streudiagramm viel zu erkennen, da die Daten nur wenig gruppiert sind. Die Gruppierung ist ein weiteres Attribut, das deinem Publikum hilft, die Botschaften in Streudiagrammen zu verstehen.

Du kannst für jede Kennzahl eine Durchschnittslinie hinzufügen, um die Analyse zu erleichtern. Abbildung 4-18 zeigt, wie du mit zwei Durchschnittslinien die Diagramme unterteilen kannst, um ein Quadrantendiagramm zu erstellen.

Die Abschnitte des Quadranten-Diagramms lassen sich nun leicht beschreiben, so dass der Leser erkennen kann, welche Entscheidungen zu den einzelnen Punkten getroffen werden können. Die Flächen im Abschnitt "Hoher Umsatz, hoher Gewinn" sind zum Beispiel sehr wichtig für den Laden: Sie generieren einen hohen Cashflow und bringen dem Laden trotzdem Geld ein.

Der Abschnitt "Geringer Umsatz, hoher Gewinn" stellt eine Chance für das Unternehmen dar, denn er ermöglicht es uns zu verstehen, warum wir mit einer so geringen Menge an Verkäufen einen so hohen Wert erzielen konnten. Wenn das Unternehmen mehr verkaufen könnte, würde dann der Gewinn im gleichen Verhältnis steigen, oder müsste der Verkaufspreis sinken, was die Gewinnspanne schmälern würde, um mehr zu verkaufen?

Der Abschnitt "Hoher Umsatz, geringer Gewinn" stellt eine interessante Herausforderung dar: Diese Fahrradtypen verkaufen sich gut, aber das Unternehmen kann scheinbar keinen Gewinn mit ihnen erzielen. Das zehrt an den Ressourcen. Sollte Allchains den Verkauf von Fahrrädern in diesen Kategorien einstellen und sich auf andere Typen konzentrieren?

Der Bereich "Geringer Umsatz, geringer Gewinn" sollte überwacht werden, um festzustellen, ob es eine Chance auf Wachstum gibt oder ob es an der Zeit ist, den Verkauf dieser Artikel einzustellen.

Quadrantendiagramme sind nützlich, um die Datenpunkte klar darzustellen und gleichzeitig die Analyse zu vereinfachen. Sie sind besonders nützlich für ein Publikum, das es nicht gewohnt ist, Streudiagramme zur Interpretation von Daten zu verwenden.

Wann Streudiagramme zu vermeiden sind

Manchmal machen Streudiagramme die Botschaft schwerer verständlich. Du wirst sie oft verwenden, aber ich empfehle, davon abzusehen, wenn zu viele Farben benötigt werden oder wenn du eine dritte Maßnahme hinzufügen musst. Ich will dir zeigen, warum.

Zu viele Farben

In Worten meines Kollegen Luke Stoughton kann die Verwendung von zu vielen Farben in einem Streudiagramm so aussehen, als hätte man "ein Einhorn zerquetscht". Es fällt mir schwer, ihm zu widersprechen, wenn ich schon zu viele Diagramme gesehen habe, die wie Abbildung 4-19 aussehen.

Eine mögliche Alternative sind interaktive Diagramme. Bei interaktiven Diagrammen kann der Nutzer mit dem Mauszeiger über die einzelnen Diagramme fahren, um zu sehen, was sie darstellen - du brauchst also keine bunten Einhornfarben. (Auf die Herausforderungen der Interaktivität wird in Kapitel 8 näher eingegangen.) Um dieses Problem zu entschärfen, ist es viel einfacher, nur ein einziges Diagramm oder schlimmstenfalls ein paar wichtige Punkte hervorzuheben, wie in Abbildung 4-14 gezeigt.

Ununterscheidbare Farbpaletten

Streudiagramme sind so effektiv, wenn es darum geht, zwei Kennzahlen darzustellen, dass du versucht sein könntest, eine dritte hinzuzufügen, um eine zusätzliche Beziehung in den Daten zu zeigen. In Abbildung 4-20 wird den Diagrammen, die als Grundlage für das Quadrantendiagramm in Abbildung 4-17 dienten, eine neue Dimension hinzugefügt: der durchschnittliche Rabatt.

Scatterplot with sequential color palette

Nein, es ist nicht deine Augen - es ist nur schwierig, die durchschnittlichen Rabatte zu unterscheiden, die durch den blauen Farbverlauf in der fortlaufenden Farbpalette angezeigt werden. Du kannst wahrscheinlich den höchsten Durchschnittsrabatt erkennen, aber es ist schwierig, das untere Drittel der Punkte zu unterscheiden. Dieses Diagramm wäre viel besser, wenn der Rabatt in Form von Banden dargestellt würde, damit der Benutzer klarere Unterscheidungen zwischen den Rabattstufen treffen kann(Abbildung 4-21).

Wenn die Nutzer nur ein paar Schattierungen der gleichen Farbe auswählen müssen, ist es für sie viel einfacher, eine Beziehung zwischen Farbe und Bedeutung herzustellen. Um die Beziehung zwischen den beiden Messgrößen, die als Achsen des Streudiagramms dargestellt werden, zu verdeutlichen, sollte jede Achse gleich lang sein. Jede Verzerrung ihrer Länge kann dazu führen, dass die Beziehungen und Korrelationen anders wahrgenommen werden.

Auch hier solltest du nicht versuchen, zu viel in ein einziges Diagramm zu packen. Wenn du Schwierigkeiten hast, die Farben klar zu erkennen, solltest du stattdessen ein separates Diagramm erstellen oder ein interaktives Diagramm verwenden.

Diagrammtypen: Karten

Karten ziehen die Aufmerksamkeit der Leser auf sich. Kinder lernen schon früh, Karten zu lesen, daher sind sie in der Regel eine vertraute Form der Datenübermittlung, was die Aufnahme der Botschaft erheblich vereinfachen kann. In diesem Abschnitt werden einige wichtige Aspekte der Visualisierung von Daten mit Karten vorgestellt, darunter auch, wie du herausfindest, ob eine Karte die beste Wahl ist.

Wie man Karten liest

Wenn du wirklich darüber nachdenkst, sind Karten eine Art Punktwolke. Stell dir Längen- und Breitengrad als x-Achse bzw. y-Achse einer Karte vor.

Wenn wir verstehen, können wir uns eine Eigenschaft zunutze machen, die wir uns in Kapitel 1 angesehen haben: die Gruppierung. Eine Anhäufung von Punkten auf einer Karte, z. B. bei Naturereignissen wie Meteoriteneinschlägen, kann Bereiche mit Aktivität anzeigen; das Fehlen von Punkten zeigt dann einen Mangel an derselben Aktivität.

Wenn deine Daten auf menschliche Aktivitäten zeigen, wirst du jedoch häufig feststellen, dass sich Datenpunkte in dicht besiedelten Gebieten wie Großstädten häufen, wie Abbildung 4-22 zeigt. In diesen Fällen kann das Clustering die Geschichten in deinen Daten verschleiern.

Abbildung 4-22 ist eine Symbolkarte: Ein Symbol (in diesem Fall ein Kreis) wird auf der Karte platziert, um den Datenpunkt für diesen Ort darzustellen.

Symbol map showing sales by city from our bike stores across the United States

Größe und Form

Die Daten werden in einer Symbolkarte visualisiert, indem die Größe der Form an die Werte der Maßnahme angepasst wird; je größer die Form, desto höher der Wert. Je größer die Form ist, desto höher ist der Wert. So sind die größten Werte leicht zu erkennen, aber die niedrigsten Werte treten oft in den Hintergrund, da sie klein sind. Wenn du niedrige Werte identifizieren musst (z. B. Märkte mit unterdurchschnittlichen Umsätzen), kann das ein Problem sein. Symbolkarten eignen sich gut, wenn du dem Leser schnell die Spanne der Werte zeigen musst, aber da die Leser die genaue Größe der Form nicht messen können, sind diese Karten nicht geeignet, um genaue Unterschiede zu zeigen.

Hier ist ein weiteres mögliches Problem mit Symbolkarten. Die Cluster in der oberen rechten Ecke der Karte in Abbildung 4-22 lassen es so aussehen, als ob die Verkäufe im Nordosten der USA besonders hoch sind. In Wirklichkeit liegen viele große Städte in diesem Gebiet viel näher beieinander als in anderen Teilen der USA, was die Darstellung verzerrt.

Symbolkarten können eine beliebige Form verwenden, um den Datenpunkt darzustellen. Bei Kreisen steht die Mitte der Form oft für den Standort des Datenpunkts. Bei der umgekehrten Tropfenform von Google (mehr dazu in Kapitel 5 mit Abbildung 5-21) wird jedoch der Punkt am unteren Ende der Form verwendet, um eine genaue Position anzugeben. Vergewissere dich, dass die von dir gewählte Form den Ort deutlich macht.

Choropleth-Karten und Farbe

Du kannst auch Farbe auf einer Symbolkarte verwenden, aber ich empfehle, ihr eine andere Bedeutung zu geben als der Form. Die Verwendung von zwei Formen von präattentiven Attributen für dieselbe Information, z. B. sowohl Farbe als auch Größe für dieselbe Aggregation derselben Größe, wird als doppelte Kodierung bezeichnet. Sie kann andere Geschichten in den Daten verbergen, indem sie die Hauptaussage übertreibt, und sollte daher vermieden werden.

Sequentielle oder divergierende Paletten werden häufig mit Karten verwendet, um zu zeigen, wie ein Wertebereich mit der Form eines geografischen Elements übereinstimmt. Diese Karten werden Choropleth-Karten genannt. In Abbildung 4-23 werden ähnliche Daten wie in Abbildung 4-22 verwendet, diesmal jedoch auf der Ebene des Bundeslandes und nicht der Stadt. Hier werden größere Werte farblich intensiver dargestellt. Wie bei der Symbolkarte ist es jedoch schwierig, in einer Choroplethenkarte zwischen den höchsten und niedrigsten Werten zu unterscheiden.

Wie du Karten optimierst

Du hast vielleicht bemerkt, dass die Karten, die ich bisher verwendet habe, alle einen minimalen Hintergrund haben. Wenn du so viele unnötige Details wie möglich entfernst, kommen die Daten besser zur Geltung. Erinnere dich daran, dass deine Datenvisualisierung der Hauptzweck der Karte ist. Überlege dir genau, ob du Straßen, Flüsse oder Grenzen hinzufügen oder entfernen willst, je nachdem, welchen Zweck die Visualisierung erfüllen soll. Wenn du das richtige Gleichgewicht zwischen Hintergrund und Daten findest, erhält dein Publikum einen klaren Blick auf die Datenpunkte und ihren geografischen Kontext.

Wie du bei den Formen gesehen hast, kann auch bei Choropleth-Karten die Größe der Markierung die Wahrnehmung deiner Botschaft beeinflussen. Kleine Orte, wie die Staaten in Abbildung 4-23, sind schwer zu erkennen; große Gebiete ziehen wahrscheinlich die Aufmerksamkeit deines Publikums auf sich, auch wenn sie nicht der beabsichtigte Fokus sind. Abbildung 4-24 zeigt die Verkaufszahlen von Fahrradsätteln in den Staaten östlich des Mississippi.

Bike accessory sales shown by a choropleth map

Schnell, in welchem Staat werden die meisten Sättel verkauft?

Kannst du erkennen, dass es sich um Rhode Island (RI) handelt? Was, du meinst, du kannst es nicht? Damit bist du nicht allein. Ich glaube, die meisten Leute würden sich schwer tun, diese Schlussfolgerung aus dieser Karte zu ziehen, weil Rhode Island so klein ist. Deine Augen werden wahrscheinlich von den größeren Staaten angezogen, da sie größere Blöcke in derselben Farbe sind.

Wie können wir das ändern? Wenn du dieselben Daten als Symbolkarte visualisierst, hebt sich selbst der kleinste Zustand hervor(Abbildung 4-25). Die Symbole in Abbildung 4-25 müssen ziemlich klein bleiben, damit sie sich nicht gegenseitig überlappen und kleinere Symbole dahinter verbergen. Kachelkarten sind in dieser Situation vielleicht der bessere Ansatz.

Kachelkarten

Kachelkarten bieten gleich viel Platz für jede Einheit (in diesem Fall für jeden Staat), aber in einem Layout, das einer normalen Karte ähnelt: Maine liegt zum Beispiel immer noch ganz oben neben Vermont und New Hampshire. Abbildung 4-26 zeigt den Gewinn der Allchains Fahrradläden in jedem Bundesstaat.

Daten-Schwellenwerte

Choropleth-Karten können nützlicher sein als Symbolkarten, wenn du Daten visualisieren willst, die eine Schwelle überschreiten, z. B. Null oder ein Ziel. Die Möglichkeit zu sehen, was über und was unter den Schwellenwert fällt, ist wahrscheinlich der wichtigste Aspekt der Visualisierung. Die Formen einer Symbolkarte werden auf einer linearen Skala dargestellt. Wenn die Daten den Schwellenwert überschreiten, z. B. den Nullpunkt, wird es schwierig, diese lineare Skala sinnvoll zu nutzen.

Nimm zum Beispiel den Gewinn und Verlust für die Allchains-Märkte in jedem Bundesland. Wir haben drei Möglichkeiten, Gewinn und Verlust anhand der Größe der Symbole zu visualisieren(Abbildung 4-27):

Kleine Symbole stehen für die negativsten Werte, große Symbole für die positivsten Werte.
Große Symbole stehen für die negativsten Werte; kleine Symbole stehen für die positivsten Werte.
Große Symbole stehen für die negativsten Werte und verjüngen sich zu kleinen, wenn die Werte den Nullpunkt überschreiten; die Symbole werden dann mit den positiven Werten größer.

Keine dieser drei Optionen ist sehr effektiv.

Option 1 in Abbildung 4-27 könnte die größten negativen Werte ausblenden. Die profitabelsten Posten würden die Karte dominieren, aber die Posten, die den größten Verlust machen, wären nicht sichtbar. Das könnte eine gute Wahl sein, wenn du die Zahlen positiv darstellen willst, aber es wäre keine klare Darstellung der Daten.

Wenn du die Skalierung von der größten zur kleinsten Zahl umkehrst, während die Werte von der größten negativen Zahl zur größten positiven Zahl gehen, wie in Option 2, erweckst du den gegenteiligen Eindruck. Beides hilft dem Publikum nicht, die größten Gewinner und Verlierer zu erkennen und ein ausgewogenes Urteil zu fällen.

Option 3 schafft dieses Gleichgewicht, ist aber völlig verwirrend: Hier sagt die Größe dem Leser nicht, ob eine Zahl positiv oder negativ ist. Du könntest eine Farbe hinzufügen, um anzuzeigen, ob der Wert positiv oder negativ ist, aber das wäre eine doppelte Kodierung.

Ein Choroplethendiagramm würde die größten positiven und negativen Werte viel besser hervorheben. In Abbildung 4-28 wird eine divergierende Farbpalette verwendet, um negative und positive Werte zu unterscheiden.

Choropleth map using a diverging color scale to represent state profit

Je dunkler oder intensiver die Farbe eines Zustands ist, desto größer ist der Gewinn oder Verlust. In Abbildung 4-28 kannst du die höchsten Gewinne (in schwarz) oder die größten Verluste (in rot, um das psychologische Schema des Publikums für die Farben der Buchhaltung zu verwenden) leicht auf demselben Diagramm finden. Du kannst sehen, dass kein Staat in gleichem Maße Verluste hat wie andere Gewinne.

Dichte- und Hex-Bin-Karten

Da mit dem Internet verbundene Geräte und Tracker immer größere geografische Datensätze erzeugen, besteht eine häufige Herausforderung bei der Kartierung darin, viele tausend Datenpunkte auf derselben Karte zu visualisieren. Das bringt uns zurück zum Problem des Overplottens, das wir im Abschnitt "Wie man Scatterplots liest" besprochen haben .

Schauen wir uns die Daten zu den Taxifahrten in New York City an. Wenn wir uns überlegen würden, wo wir einen Allchains-Laden eröffnen wollen, würden wir nach Orten suchen, von denen wir wissen, dass dort viele Menschen unterwegs sind und eine alternative Transportmöglichkeit anbieten. Aber in Manhattan sind Taxis so weit verbreitet, dass es fast 800.000 Datenpunkte gibt. Auf der Karte in Abbildung 4-29 wird jeder Datenpunkt zu einem Punkt verkleinert, so dass er sich zu einer Masse von der Form Manhattans zusammenfügt.

Map of hundreds of thousands of taxi journey starting points in Manhattan

Zwei alternative Kartentypen können uns dabei helfen, das Dilemma des Overplottens zu lösen. Die erste ist eine Dichtekarte, die die Flächen berücksichtigt, die nahe beieinander oder übereinander liegen. Dichtekarten verwenden eine aufeinander aufbauende Farbpalette: Je höher die Anzahl der Parzellen, desto heller ist die Farbe.

In Abbildung 4-30 zeigt die Dichtekarte ein höheres Maß an Aktivität in Midtown Manhattan. Die Flächen mit niedrigeren Werten sind fast vollständig verschwommen, wie zum Beispiel an der Nordspitze der Insel. Diese Daten waren auch in Abbildung 4-29 zu sehen, aber durch die Art der Karte war sie nicht zu erkennen.

Eine andere Alternative ist eine Hex-Bin-Karte. In Abbildung 4-31 sind dieselben Daten der Manhattan-Taxifahrt als Hex-Bin-Karte dargestellt. Bei dieser Art von Karte wird die Anzahl der Punkte in einem bestimmten Gebiet gezählt. Diese Bereiche werden oft als Sechsecke dargestellt, die wie eine Bienenwabe eng aneinander liegen. Eine fortlaufende Farbpalette zeigt die Bandbreite der in jedem Bereich erfassten Werte an, wobei dunklere Farben die höchsten Werte darstellen.

Die Dichtekarte und die Hex-Bin-Karte zeigen ein ähnliches Bild: Beide schlagen vor, den Laden in der Innenstadt zwischen der 30. und 54. Mit der Hex-Bin-Karte ist es jedoch etwas einfacher, den Standort des Fahrradladens genauer zu bestimmen.

Es stehen viele Kartenstile zur Auswahl, aber je nach der Botschaft, die du vermitteln willst, der Menge der Daten und dem Maßstab der geografischen Gebiete sind einige Stile nützlicher als andere.

Wann du Karten meiden solltest

Manchmal solltest du dich von bestimmten Kartenarten fernhalten, aber manchmal sind Karten einfach nicht die richtige Lösung. Schauen wir uns ein paar solcher Situationen an.

Wenn du Daten analysierst, die geografische Felder enthalten, musst du nicht unbedingt eine Karte verwenden. Gehen wir zurück zu den in Abbildung 4-25 gezeigten Allchains-Absätzen. Was wäre, wenn die Daten in eine Rangfolge umgewandelt würden, wobei 1 für den höchsten Umsatz steht. Wie würden mehrere Ränge für verschiedene Produkte angezeigt werden? Der ursprüngliche Datensatz enthält drei Werte für jedes Bundesland, die zeigen, wie jedes Bundesland in Bezug auf drei Produkte rangiert.

Wären drei Karten der beste Weg, um diese Daten darzustellen? Sicherlich nicht: Das würde eine Menge Platz beanspruchen, es sei denn, du willst jeden Staat winzig klein darstellen. Außerdem müsste sich das Publikum den Rang der einzelnen Staaten merken, um die Abweichungen vergleichen zu können.

Stattdessen könntest du ein paralleles Koordinatendiagramm verwenden, um die Veränderung des Rangs zwischen den verschiedenen Maßnahmen zu zeigen(Abbildung 4-32).

In einem parallelen Koordinatendiagramm bestimmt der Rang eines kategorialen Mitglieds (in diesem Fall der Zustand), wo die Markierung auf einer vertikalen Achse vorgenommen wird. Der von links nach rechts verlaufende Verlauf des Diagramms in Abbildung 4-32 zeigt die Veränderungen des Rangs für verschiedene Produkte. (Wenn die Veränderung im Laufe der Zeit dargestellt wird, nennt man das Diagramm ein Bump-Diagramm.) In diesem Beispiel habe ich eine Markierung hinzugefügt, um zu zeigen, dass Rhode Island in zwei Zubehörkategorien an erster Stelle steht, nicht aber bei Pedalen. Die Linien, die die Kreise der einzelnen Staaten miteinander verbinden, können Veränderungen in den einzelnen Kategorien anzeigen. Ein steiler Anstieg oder Abfall ist ein deutlicher Hinweis auf eine Veränderung der Rangfolge und erregt deine Aufmerksamkeit mehr als eine Veränderung der Farbsättigung auf einer Karte es je könnte.

Wenn du mehrere Kennzahlen oder Kategorien hast, ist die Versuchung groß, zu viel auf eine einzige Karte zu packen. Abbildung 4-33 zeigt, wie verwirrend mehrere Kennzahlen auf einer Karte sein können.

A parallel coordinates chart as an alternative to a map

Diese Karte ist nicht unmöglich zu lesen, aber sie ist nicht einfach. Die Einbeziehung von zwei Kennzahlen zwingt uns dazu, zwei Markierungstypen zu verwenden: den Gewinn als Choroplethen und den Gesamtumsatz als größenmäßige Formen. Die Aussage in Abbildung 4-33 ist nicht eindeutig. Als Alternative bietet sich ein Streudiagramm an, um zwei Kennzahlen, die durch eine Kategorie unterteilt sind, darzustellen(Abbildung 4-34).

Scatterplot showing sales compared to profit for each state

Es kann vorkommen, dass du mehrere Kategorien sowie mehrere Kennzahlen verwenden musst. Ich habe schon zu viele Karten wie in Abbildung 4-35 gesehen, bei denen mehrere Diagrammtypen über die Basiskarte gelegt wurden. Das mag extrem erscheinen, da die verwendeten Diagrammtypen so unterschiedlich sind, aber diese Art der Gegenüberstellung ist üblich. Widerstehe der Versuchung!

In Kapitel 7 zeige ich dir, warum es viel einfacher ist, mehrere Diagramme zu erstellen, als zu viele Informationen in ein einziges Diagramm zu packen.

Diagrammtypen: Teil-zu-Ganzes

Immer wenn du einen Gesamtwert visualisierst, wird man dich fragen, wie sich dieser Wert aufschlüsselt: Aus welchen Bestandteilen setzt er sich zusammen? Die Aufschlüsselung des Wertes ist ein kategorisches Datenfeld, dessen Visualisierung eine Herausforderung sein kann, besonders in statischer Form. Wir haben mehrere Arten von Teil-Ganzes-Diagrammen zur Auswahl (einschließlich Balkendiagrammen), aber dieser Abschnitt befasst sich mit zwei der gebräuchlichsten: Kreisdiagrammen und Baumdiagrammen.

Wie man Teil-zu-Ganzes-Diagramme liest

Genau wie werden Kuchendiagramme schon früh im Schulunterricht behandelt und sind in den Nachrichtenmedien weit verbreitet, so dass sie den Zuschauern vertraut sind.

Sektionen

Der Kreis ( ) stellt die Gesamtsumme der analysierten Maßnahme dar. Der individuelle Beitrag einer Kategorie zur Gesamtmaßnahme wird durch den eingefärbten Teil des Kreises dargestellt. In Abbildung 4-36 macht der lilafarbene Radverkauf bei Allchains ein Viertel des Gesamtbetrags aus, daher ist ein Viertel des Kreises lila gefärbt. Alle anderen Kategorien wurden zu der Gruppe "Alles andere" zusammengefasst.

Wenn du mehr als zwei Abschnitte hast, sollte der größte Abschnitt oben im Kreis beginnen, es sei denn, der andere Abschnitt ist die Gruppierung aller anderen kategorialen Variablen. Gehe davon aus, dass das Auge des Lesers im Uhrzeigersinn rotiert.

Weitere Kategorien folgen im Uhrzeigersinn ab dem Ende des ersten Abschnitts. In Abbildung 4-37 machen die Bremsenverkäufe ein Achtel der Gesamtsumme aus, sodass der eingefärbte Abschnitt 12,5 % des Kreises abdeckt. Die hervorgehobenen Kategorien sollten in der Reihenfolge vom höchsten zum niedrigsten Wert dargestellt werden, um die Interpretation zu erleichtern.

Basic pie chart with additional category

Winkel

Bei Tortendiagrammen dreht sich alles um Winkel - und du wirst feststellen, dass Winkel nicht in der Liste der vorbereitenden Attribute auftauchen. Die Größe erscheint jedoch in dieser Liste, und das ist es, was wir vergleichen, wenn wir uns verschiedene Abschnitte des Kreisdiagramms ansehen. Menschen sind nicht besonders gut darin, Winkel genau einzuschätzen, aber das macht es nicht unmöglich, Kuchendiagramme zu lesen. Es hilft, wenn du von klein auf lernst, analoge Zifferblätter zu lesen. Ich habe festgestellt, dass Menschen ein Viertel, die Hälfte oder drei Viertel eines Kreises visuell bestimmen können. Wenn du den Ausschnitt am oberen Punkt des Kreises beginnst, ist er noch leichter zu erkennen, wie in Abbildung 4-38.

Wenn diese Abschnitte nicht am oberen Rand des Kreises beginnen und um eine andere Kategorie versetzt sind, werden sie viel schwieriger zu interpretieren. In Abbildung 4-39 zum Beispiel ist der Radverkauf gleich groß wie in den Abbildungen 4-36 und 4-37, aber an einer anderen Stelle. Wenn ich dir nicht gesagt hätte, dass es die gleiche Größe ist, wärst du dir dann sicher gewesen?

Offset sections making pie charts harder to read

Etiketten

Ein Element, das häufiger in einem Kreisdiagramm angezeigt wird als andere, die wir bisher vorgestellt haben, sind Beschriftungen. Die Beschriftungen können den Namen der Kategorie, den Wert und/oder den prozentualen Anteil des Abschnitts an der Gesamtsumme anzeigen(Abbildung 4-40).

Beschriftungen können dem Nutzer helfen, die angezeigten Werte genauer zu interpretieren. Achte jedoch darauf, dass dein Publikum das Diagramm nicht als zweitrangig gegenüber der Beschriftung ansieht.

Donut Karten

Eine andere Variante des Kreisdiagramms, die oft in den Nachrichtenmedien zu sehen ist, wird Donut-Diagrammgenannt - benanntnach dem Loch in der Mitte(Abbildung 4-41).

Donut-Diagramme bieten mehr Leerraum, was bei der Gestaltung der Kommunikation bekanntlich wichtig ist. Der fehlende Mittelteil kann es jedoch etwas schwieriger machen, den Winkel des Datenbereichs und damit den Wert, den er darstellt, zu bestimmen.

Treemaps

Statt Winkel zu verwenden, um Werte darzustellen, verwenden Baumkarten eine Fläche, die als Rechteck dargestellt wird. Die Baumkarte in Abbildung 4-42 zeigt die gleichen Werte wie das erste Kreisdiagramm in diesem Abschnitt(Abbildung 4-36).

Forscher diskutieren darüber, was einfacher zu interpretieren ist, aber ich persönlich finde es einfacher, eine Fläche mit Quadraten oder Rechtecken zu interpretieren als mit den Winkeln oder Kreisabschnitten von Kreisdiagrammen.

Beschriftungen sind hilfreich für Donut-Diagramme, besonders wenn ein Abschnitt hervorgehoben wird. Mit der leeren Mitte des Donuts kannst du kreativ werden. Du könntest dort den Wert des hervorgehobenen Abschnitts und andere Informationen anzeigen, die du über ihn mitteilen möchtest(Abbildung 4-43). Du könntest kleine prozentuale Veränderungen oder sogar Sparklines (siehe Kapitel 3) einfügen, um zusätzlichen Kontext zu schaffen.

In einer Baumstruktur kannst du Beschriftungen über den Abschnitten anbringen, die die einzelnen Kategorien repräsentieren(Abbildung 4-44). Wenn die Fläche eines Abschnitts in der Baumstruktur zu klein für eine Beschriftung ist, verdient dieser Abschnitt wahrscheinlich nicht die Aufmerksamkeit, die eine Beschriftung erregen würde.

Treemap with multiple sections and labels

Wann sollte man Teil-zu-Ganzes-Diagramme verwenden?

Kreisdiagramme funktionieren nur dann gut, wenn du wenige kategoriale Variablen hast. Zwei Variablen sind ideal. Bei der Darstellung der Verkäufe des Rennradtyps habe ich mich zum Beispiel dafür entschieden, die Verkäufe der anderen Fahrradtypen zu gruppieren, um die Darstellung für den Leser zu vereinfachen(Abbildung 4-45).

Die Botschaft ist viel klarer, als wenn ich jeden Fahrradtyp zeigen würde, sogar mit Beschriftungen(Abbildung 4-46). Die anderen Abschnitte lenken von der eigentlichen Botschaft ab, die sich auf den prozentualen Anteil der Rennradverkäufe bezieht.

Wenn du mehrere Segmente verwendest, bieten Baumdiagramme mehr Platz für Beschriftungen und machen es einfacher, Abschnitte mit ähnlichen Werten zu vergleichen(Abbildung 4-47).

Ich finde Treemaps auch besonders nützlich, wenn es darum geht, Long-Tailed-Verteilungen von Daten zu zeigen, bei denen jede Kategorie viele kleine Beiträge hat. Wenn du zum Beispiel eine große Auswahl an Produkten verkaufst, kann es nützlich sein, den Wert der Verkäufe der einzelnen Produkte zu vergleichen. In Abbildung 4-48 habe ich jeden Fahrradtyp nach Herstellern aufgeschlüsselt und zeige alle Marken, die im Laufe der Zeit über den Fahrradladen verkauft wurden. Dadurch entstehen zwar viele Unterteilungen, aber du kannst trotzdem Rückschlüsse ziehen: Die fünf größten Hersteller von Gravelbikes machen zum Beispiel etwa die Hälfte des Umsatzes mit diesem Fahrradtyp aus.

Die meisten Business-Intelligence-Tools, die zur Erstellung von Baumdiagrammen verwendet werden, zeigen den größten Wert automatisch oben links an, so dass es einfacher ist, die Verkäufe visuell zu ordnen und zu sehen, wie viele Werte nötig sind, um einen signifikanten Anteil am Gesamt- oder Segmentwert zu haben.

Treemap showing long-tailed distribution

Wann man Teil-zu-Ganzes-Diagramme vermeidet

Um Teil-Ganzes-Diagramme zu verwenden, brauchst du ein Ganzes. Wenn das Diagramm nicht den Gesamtbetrag des Wertes anzeigt, ist dies nicht der richtige Diagrammtyp. In Abbildung 4-49 wurde der Fahrradtyp Kies entfernt. Je nach Überschrift könnte dieses Diagramm den Eindruck erwecken, dass die Geschäfte nur zwei Fahrradtypen verkaufen.

Umfrageergebnisse werden oft in Kreisdiagrammen dargestellt, aber das kann kompliziert werden. Wenn die Befragten in der Umfrage zum Beispiel mehrere Antworten geben können, ist das Verhältnis nicht das von separaten, sich nicht überschneidenden Teilen zu einem Ganzen und summiert sich nicht zu 100%. Ein Tortendiagramm ist dann wahrscheinlich irreführend.

Außerdem kannst du den Gesamtbetrag nicht in einem Tortendiagramm oder einer Baumkarte darstellen - selbst wenn du alle potenziellen Kategorien einbeziehst -, wenn einige Mitglieder der Kategorie negative Werte haben. Es gibt keine klare Möglichkeit, einen negativen Beitrag als Anteil an einer Fläche darzustellen.

Schließlich solltest du Teil-zu-Ganzes-Diagramme vermeiden, wenn du Veränderungen im Laufe der Zeit darstellst. Wenn du zeigen willst, wie sich der Anteil der Fahrradverkäufe nach Typ im Laufe der Zeit verändert, und du bereits ein Tortendiagramm für ein einzelnes Jahr erstellt hast, könntest du versucht sein, ein Tortendiagramm pro Jahr zu wiederholen. In Abbildung 4-50 ist es aufgrund der wechselnden Anteile der einzelnen Fahrradtypen schwierig, die Veränderung der Verkaufsanteile im Laufe der Zeit zu erkennen.

Pie charts demonstrating change over time

Die Verwendung von Kreisdiagrammen zur Darstellung von Veränderungen im Laufe der Zeit kann auch die absolute Veränderung des Gesamtbetrags verbergen, den das Kreisdiagramm darstellt. Damit Kreisdiagramme diese Informationen klar vermitteln, ist eine Menge Beschriftung erforderlich.

Ein Liniendiagramm würde die Veränderung des prozentualen Anteils der einzelnen Fahrradtypen an den Gesamtverkäufen pro Jahr viel deutlicher darstellen. Abbildung 4-51 zeigt genau diese Beziehung, aber es ist viel einfacher, die sich verändernden Muster über die Jahre hinweg zu erkennen. In den Kreisdiagrammen hatte der Mountainbike-Typ keinen einheitlichen Ausgangspunkt.

Zu viele kategorische Variablen machen jedes Kreisdiagramm schwer lesbar. Das gleiche Detail, das in der Baumkarte in Abbildung 4-48 gut funktioniert, wird in Form eines Kreisdiagramms unlesbar, wie in Abbildung 4-52 zu sehen ist.

Schließlich solltest du keine Teil-zu-Ganzes-Diagramme verwenden, um eine Kennzahl darzustellen, die über 100% hinausgeht, wie z.B. den Fortschritt in Richtung eines Verkaufsziels (und hoffentlich darüber hinaus).

Zusammenfassung

In der Sprache gilt: Je mehr Wörter du kennst, desto mehr Möglichkeiten hast du, deinen Standpunkt zu vertreten. Bei der Datenvisualisierung sind die Diagrammtypen dein Vokabular.

Die weniger verbreiteten Diagramme ziehen zwar aufgrund ihrer einzigartigen Ästhetik die Aufmerksamkeit des Publikums auf sich, sind aber auch schwieriger zu interpretieren, da sie weniger vertraut sind und nicht immer so effektiv auf prä-attentive Eigenschaften zurückgreifen.

In diesem Kapitel haben wir nur einen kleinen Teil der alternativen Diagrammtypen behandelt, die es gibt. Wenn du die Grundlagen beherrschst, kannst du noch mehr entdecken. Der Hauptgrund für die Verwendung alternativer Diagrammtypen ist, dass sie auffällig sind. Du hast in diesem Buch gesehen, dass ein großer Teil des Kampfes darin besteht, deine Datenvisualisierungen für die Augen und das Gedächtnis des Publikums auffällig zu machen.

Abbildung 4-53 zeigt eine Visualisierung, die von meinem Kollegen Joe Kernaghan inspiriert wurde und eine alternative Möglichkeit zur Darstellung der Gewinn- und Verlustrechnung eines Unternehmens bietet. Dieses Diagramm, das Sankey-Diagramm genannt wird, zeigt die verschiedenen Gewinnarten, die im Jahresabschluss 2020 von Tesla enthalten sind.

Die Tabelle bietet keine genauen Informationen, zeigt aber, wie die verschiedenen Beträge zusammenpassen. Sie erklärt den Lesern auch, wie diese Beträge den Brutto- und Betriebsgewinn des Unternehmens bilden. Die ungewöhnliche Form des Diagramms zieht die Aufmerksamkeit der Menschen auf sich, sodass es sich gut als Diagramm eignet.

Wenn du über die einfachen Balkendiagramme hinausgehst und die große Vielfalt der Diagrammtypen erkundest, triffst du aktive Entscheidungen darüber, wie du verschiedene Arten von Informationen kommunizierst. Je mehr Erfahrung du mit diesen Entscheidungen sammelst, desto besser werden deine Visualisierungen.

Sankey chart for TSLA 2020 income statement (based on a template from the Flerlage Twins)

¹ Ryan Sleeper, Practical Tableau (Sebastopol, CA: O'Reilly, 2018), 495.

Get Mit Daten kommunizieren now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.

Start your free trial

Kapitel 4. Daten auf unterschiedliche Weise visualisieren

Diagrammtypen: Scatterplots

Wie man Streudiagramme liest

Abbildung 4-1. Scatterplot

Mehrere Achsen

Abbildung 4-2. Mehrere Achsen in einem Scatterplot

Abbildung 4-3. Korrelation ist nicht gleich Kausalität

Abbildung 4-4. Streudiagramm mit einer positiven Korrelation

Abbildung 4-5. Streudiagramm mit einer negativen Korrelation

Abbildung 4-6. Streudiagramm mit einer starken Korrelation

Abbildung 4-7. Streudiagramm mit einer schwachen Korrelation

Abbildung 4-8. Streudiagramm ohne Korrelation

Grundstücke

Abbildung 4-9. Ein Beispiel für das Überplotten eines Streudiagramms

Abbildung 4-10. Erhöhen der Transparenz der Plots

Abbildung 4-11. Erhöhte Transparenz mit Grenzen

Farbe

Abbildung 4-12. Farbiges Scatterplot

Abbildung 4-13. Sequentiell gefärbtes Scatterplot

Abbildung 4-14. Farbe zum Hervorheben

Formen

Abbildung 4-15. Streudiagramm der Form

Wie man Streudiagramme optimiert

Kleine Mehrfach-Streudiagramme

Abbildung 4-16. Kleine Mehrfach-Streudiagramme

Quadrantenkarten

Abbildung 4-17. Streudiagramm zur Erstellung eines Quadrantendiagramms

Abbildung 4-18. Quadranten-Diagramm

Wann Streudiagramme zu vermeiden sind

Zu viele Farben

Abbildung 4-19. Scatterplot mit zu vielen Farben

Ununterscheidbare Farbpaletten

Abbildung 4-20. Scatterplot mit sequenzieller Farbpalette

Abbildung 4-21. Streudiagramm mit gebänderter Farbe

Diagrammtypen: Karten

Wie man Karten liest

Abbildung 4-22. Symbolkarte mit den Umsätzen unserer Fahrradläden in den Vereinigten Staaten nach Städten

Größe und Form

Choropleth-Karten und Farbe

Abbildung 4-23. Choroplethenkarte

Wie du Karten optimierst

Abbildung 4-24. Verkäufe von Fahrradzubehör in einer Choroplethenkarte dargestellt

Abbildung 4-25. Bessere Symbolkarte

Kachelkarten

Abbildung 4-26. Kachelkarte des Gewinns nach Bundesland

Daten-Schwellenwerte

Abbildung 4-27. Die Auswirkung eines Nulldurchgangs der Skala

Abbildung 4-28. Choroplethenkarte mit einer divergierenden Farbskala zur Darstellung des staatlichen Gewinns

Dichte- und Hex-Bin-Karten

Abbildung 4-29. Karte mit Hunderttausenden von Startpunkten für Taxifahrten in Manhattan

Abbildung 4-30. Dichtekarte mit den gleichen Daten wie in Abbildung 4-29

Abbildung 4-31. Hex-Bin-Map mit den gleichen Daten wie in Abbildung 4-29

Wann du Karten meiden solltest

Abbildung 4-32. Eine parallele Koordinatenkarte als Alternative zur Karte

Abbildung 4-33. Karte mit mehreren Maßnahmen

Abbildung 4-34. Streudiagramm zum Umsatz im Vergleich zum Gewinn für jeden Staat

Abbildung 4-35. Kreisdiagramm und Choroplethenkarte

Diagrammtypen: Teil-zu-Ganzes

Wie man Teil-zu-Ganzes-Diagramme liest

Sektionen

Abbildung 4-36. Grundlegende Kreisdiagrammabschnitte

Abbildung 4-37. Einfaches Kreisdiagramm mit zusätzlicher Kategorie

Winkel

Abbildung 4-38. Lesen von Kreisdiagrammwinkeln

Abbildung 4-39. Versetzte Abschnitte erschweren die Lesbarkeit von Kreisdiagrammen

Etiketten

Abbildung 4-40. Kreisdiagramm mit Beschriftungen

Donut Karten

Abbildung 4-41. Donut-Tabelle

Treemaps

Abbildung 4-42. Grundlegende Baumkarte

Abbildung 4-43. Donut-Diagramm mit Beschriftungen

Abbildung 4-44. Treemap mit mehreren Abschnitten und Beschriftungen

Wann sollte man Teil-zu-Ganzes-Diagramme verwenden?

Abbildung 4-45. Einfaches Beispiel für ein Donut-Diagramm

Abbildung 4-46. Donut-Diagramm mit mehreren Segmenten

Abbildung 4-47. Einfache Baumkarte mit mehreren Segmenten

Abbildung 4-48. Baumkarte mit Long-Tailed-Verteilung

Wann man Teil-zu-Ganzes-Diagramme vermeidet

Abbildung 4-49. Kuchendiagramm zeigt nicht den Gesamtumsatz