Kapitel 4. Verhältnisse und Raten

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

"Wir sind die sicherste Großstadt Amerikas, aber die Kriminalitätsrate ist zu hoch."

Michael Bloomberg, ehemaliger Bürgermeister von New York City

Bis jetzt haben wir absolute Mengen von zählbaren und messbaren Substantiven betrachtet, wie z.B. die Einwohnerzahl, die Anzahl der gesammelten Mülltonnen und die Anzahl der Rattensichtungen in den einzelnen Stadtteilen. Angenehm, ich weiß.

Aber nicht alle Bezirke sind gleich. Wie wir in Kapitel 1 gesehen haben, haben sie unterschiedliche Flächen und eine unterschiedliche Anzahl von Menschen, die in ihnen leben. Die Tatsache, dass sie unterschiedliche Mengen an Müll produzieren, überrascht nicht und ist wahrscheinlich auch keine besonders interessante Botschaft, die man einem Publikum vermitteln kann.

Diese absoluten Vergleiche sind zwar hilfreich, um das Gesamtbild zu verdeutlichen, werden aber im Allgemeinen nicht als "Äpfel-zu-Äpfel"-Vergleiche betrachtet. Es gibt Äpfel und, nun ja, es gibt große Äpfel.

Eine hilfreiche Methode, um Vergleiche zu "normalisieren", ist die Verwendung von Verhältnissen, Raten, Proportionen und Prozentsätzen. Was ist der Unterschied zwischen diesen vier?

  • Ein Verhältnis ist ein Vergleich von zwei Begriffen, die als Quotient ausgedrückt werden. Zum Beispiel produzierte Manhattan 0,264 Tonnen Recycling für jede Tonne Müll. Verhältnisse können als "x zu y", "x:y", "x/y" oder als Dezimalzahl ausgedrückt werden.

  • Eine Quote ist ein Verhältnis, bei dem die beiden Begriffe unterschiedliche Einheiten haben. Zum Beispiel beträgt die Bevölkerungsdichte von Brooklyn 36.136 Einwohner pro Quadratmeile. Raten sind oft aussagekräftig, weil die Zeit als Nenner verwendet werden kann (Kriminalitätsraten, Bevölkerungswachstumsraten usw.).

  • Ein Anteil ist ein Verhältnis, bei dem der Zähler eine Teilmenge und der Nenner die Gesamtmenge ist (ausgedrückt als Zahl zwischen 0 und 1). Zum Beispiel beträgt der Anteil der Bevölkerung von New York City, der in der Bronx lebt, 0,169. Ein Anteil wird als eine Zahl zwischen 0 und 1 ausgedrückt.

  • Ein Prozentsatz ist ein Verhältnis, das eine Zahl mit 100 vergleicht. Zum Beispiel leben 16,9 % der Einwohner von New York in der Bronx. Ein Prozentsatz ist in der Regel eine Zahl zwischen 0 und 100, kann aber auch größer als 100 sein (z. B. "Der Umsatz ist im Vergleich zum Vorjahr um 150 % gestiegen").

Diese Arten von normalisierten Vergleichen können viel interessantere Nachrichten vermitteln. Zum Glück sind sie in Tableau recht einfach zu erstellen. Wir werden die ersten beiden in diesem Kapitel und die letzten beiden im nächsten Kapitel untersuchen.

Verhältnisse

Die Datenquelle selbst kann ein Feld enthalten, das ein Verhältnis darstellt, aber meistens enthalten die Rohdaten Begriffe, die ein Analyst kombinieren muss, um ein Verhältnis zu erstellen. Tableau kann diese Art von Berechnungen mit Berechnete Felder handhaben, in denen neue Felder durch die Kombination bestehender Felder mit einer Vielzahl von Operationen erstellt werden können. Wir haben das Konzept in Kapitel 2 vorgestellt und werden es jetzt weiter ausbauen.

Kehren wir zum DSNY-Datensatz zurück, um die Technik zu veranschaulichen, und wir werden sehen, ob der Verhältnisvergleich interessanter ist als die absoluten Zahlen.

Die von DSNY gemeldeten Daten umfassen drei kontinuierliche Maßnahmen (quantitative Felder) für jeden Gemeindebezirk:

RefuseTonsCollected

Menge an nicht wiederverwertbarem Müll

PaperTonsCollected

Menge an recycelbarem Papier

MGPTonsCollected

Menge an recycelbarem Metall, Glas und Kunststoff

Die zweiten beiden Datentypen (Papier und MGP) sind beide recycelbar und können daher summiert werden, um eine neue Variable für jeden Gemeindebezirk zu erstellen, die wir RecyclableTonsCollected nennen, um der vorgegebenen Nomenklatur zu entsprechen.

Ein Vergleich des Verhältnisses zwischen recyceltem Material und Abfall wäre interessant, da er zeigen würde, welche Gemeinden in New York City besser recyceln.

Zunächst müssen wir ein neues berechnetes Feld erstellen, das die beiden wiederverwendbaren Felder zusammenfasst. Klicke mit der rechten Maustaste auf eine beliebige Stelle im linken Dimensions- oder Measures-Panel und wähle Berechnetes Feld erstellen. Dann füllst du unter das Dialogfeld aus, wie in Abbildung 4-1 dargestellt.

Abbildung 4-1. Summieren zweier Felder mit einem berechneten Feld

Als Nächstes erstellen wir ein zweites berechnetes Feld, das das Verhältnis von Wertstoffen zu Abfällen angibt. Klicke erneut mit der rechten Maustaste in den Bereich Maße oder Maßnahmen und fülle das Dialogfeld aus, wie in Abbildung 4-2 dargestellt.

Beachte, dass wir den Zähler und den Nenner in Klammern setzen, denen SUM vorangestellt ist. Das ist entscheidend, denn wenn wir eine Ebene höher gehen, vom Gemeindebezirk zum Stadtbezirk, wollen wir nicht die einzelnen Quoten der einzelnen Gemeindebezirke addieren, sondern eine neue Quote erstellen, die den Quotienten der Gesamtbeträge darstellt. Der erste Ansatz würde ein größeres Verhältnis ergeben, das irreführend ist.

Abbildung 4-2. Erstellen eines Verhältnisses mit einem berechneten Feld

Nachdem wir nun die Verhältnisse erstellt haben, wie können wir sie am besten visualisieren? Beginnen wir mit einem einfachen Balkendiagramm der aggregierten Verhältnisse der einzelnen Bezirke. Um ein solches Diagramm zu erstellen, ziehen wir das Feld Borough aus dem Dimensionsbereich auf der linken Seite in die Zeilenablage und das berechnete Feld Recycle to Refuse Ratio in die Spaltenablage. Die Farbe wird zwar nicht unbedingt benötigt, aber wir fügen sie trotzdem aus ästhetischen Gründen hinzu, indem wir Borough in das Regal Farbe ziehen. Schließlich werden wir die Balken in absteigender Reihenfolge sortieren, damit der Bezirk mit der höchsten Recyclingquote ganz oben steht. Der Screenshot in Abbildung 4-3 zeigt die resultierende Ansicht.

Anhand dieses einfachen Balkendiagramms können wir leicht erkennen, dass Manhattan das höchste Verhältnis von Recycling zu Müll hat, aber trotzdem nur etwa eine Tonne Material pro vier Tonnen Müll recycelt. Das Verhältnis in Manhattan ist etwa doppelt so hoch wie das in der Bronx.

Bedeutet das, dass jeder Gemeindebezirk in Manhattan eine höhere Recyclingquote hat als jeder Gemeindebezirk in der Bronx? Nicht unbedingt, denn wir haben es hier mit der Gesamtheit der Begriffe zu tun.

Wie würden wir die Ergebnisse auf Gemeindebezirksebene kommunizieren? Wenn wir einfach Borough durch CommunityDistrict im Regal Zeilen ersetzen, erhalten wir ein Balkendiagramm, in dem alle Gemeindebezirke Nr. 1 und alle Gemeindebezirke Nr. 2 zusammengefasst werden usw. Eine solche Zusammenfassung der Gemeindebezirke ist nicht sehr aussagekräftig. Stattdessen möchten wir das Verhältnis der Gemeindebezirke zu den einzelnen Bezirken sehen.

Abbildung 4-3. Veranschaulichung des Verhältnisses von Recycling zu Abfall für jeden Bezirk

Um diesen Vergleich durchzuführen, klicke auf die Pille Borough und ziehe sie aus der Zeilenablage in die Spaltenablage und füge das Feld CommunityDistrict aus dem Measures-Panel zur Zeilenablage hinzu, um ein Gitter aus Balkendiagrammen zu erstellen, wie in Abbildung 4-4 dargestellt.

Abbildung 4-4. Verhältnisse nach Gemeindebezirk und Stadtbezirk

Aus dieser Übersicht geht hervor, dass auch innerhalb der Stadtbezirke nicht alle Gemeindebezirke gleich sind. Der Gemeindebezirk 1 in Manhattan hat insgesamt die höchste Quote, aber es ist klar, dass einige Gemeindebezirke in der Bronx höhere Quoten haben als einige in Manhattan.

Aber was, wenn wir die genauen Verhältnisse wissen wollen? Anhand der Balkendiagramme in Abbildung 4-4 kannst du dir leicht ein Bild von den relativen Verhältnissen in den Gemeindebezirken machen, aber eine genaue Angabe ist nicht so einfach, oder? Kannst du das genaue Verhältnis für den Gemeindebezirk 1 in Manhattan bestimmen? Ich kann es nicht. Wenn unser Publikum die genauen Beträge wissen will, müssen wir uns überlegen, wie wir es ihm leicht machen, diese Aufgabe zu erfüllen.

Wir können die Genauigkeit erhöhen, indem wir Recycle to Refuse Ratio aus dem Maßnahmenbereich in das Beschriftungsregal ziehen (oder AGG(Recycle to Refuse Ratio bei gedrückter Strg-Taste auswählen und es aus dem Spaltenregal in das Beschriftungsregal ziehen, um es zu duplizieren). Das resultierende Balkendiagramm mit Beschriftungen ist in Abbildung 4-5 zu sehen.

Abbildung 4-5. Hinzufügen von Beschriftungen zum Balkendiagrammgitter

Das sind eine Menge Nachkommastellen, nicht wahr? Unser Publikum muss das Verhältnis wahrscheinlich nicht bis zur vierten Dezimalstelle (Zehntausendstel) kennen. Wir können die Anzahl der angezeigten Ziffern ändern, indem wir mit der rechten Maustaste auf Recycle to Refuse Ratio im Kennzahlenbereich klicken, Standardeigenschaften und dann Zahlenformat auswählen und dann Zahl (benutzerdefiniert) wählen. Im daraufhin angezeigten Dialogfeld ändern wir die Dezimalstellen in drei, wie in Abbildung 4-6 gezeigt.

Abbildung 4-6. Festlegen der Anzahl der Dezimalstellen im Measures-Panel

Beachte, dass sich die Beschriftungen im Balkendiagramm entsprechend ändern.

In Wirklichkeit haben wir es hier mit einer Tabelle zu tun, die durch Balken erweitert wurde, deren Länge proportional zu den Werten in jeder Zelle ist. Eine andere Möglichkeit, diesen präzisen Vergleich darzustellen, besteht darin, die Balken wegzulassen und stattdessen jede Zelle entsprechend dem Verhältnis einzufärben - eine Highlight-Tabelle.

Beginnen wir mit einem neuen Blatt, um eine Highlight-Tabelle zu erstellen. Klicke bei gedrückter Strg-Taste auf Borough, CommunityDistrict und Recycle to Refuse Ratio, öffne dann das Fenster Zeigen und wähle Highlight-Tabelle. Tableau erstellt die in Abbildung 4-7 gezeigte Ansicht.

Abbildung 4-7. Die Standard-Highlight-Tabelle für das Verhältnis von Recycling zu Abfall

Beachte, dass Tableau eine hervorgehobene Tabelle erstellt hat, die im Vergleich zu unserem Balkendiagramm in Abbildung 4-5 "umgedreht" ist (Borough steht in Zeilen statt in Spalten und CommunityDistrict in Spalten statt in Zeilen). Um die Tabelle umzudrehen, klicken wir einfach auf die Schaltfläche " Tauschen " in der Symbolleiste, , und erhalten so die in Abbildung 4-8 gezeigte größere Tabelle.

Abbildung 4-8. Die hervorgehobene Tabelle mit vertauschten Zeilen und Spalten

Tableau hat standardmäßig eine sequenzielle grüne Farbpalette eingestellt, was bedeutet, dass der Farbverlauf mit zunehmender Recycle to Refuse Ratio proportional zunimmt. Unsere Augen können die dunkelste Zelle leicht erkennen, und wir finden auch die hellste recht leicht. Die meisten Menschen können zwischen etwa sechs verschiedenen Intensitätsstufen unterscheiden. Wenn es darum ginge, die genauen Werte zu vermitteln, hätten wir eine einfache Tabelle ohne die Hervorhebungen erstellen können. Durch das Hinzufügen der Hervorhebungen ist es einfacher, die Zellen schnell zu vergleichen und die höchsten und niedrigsten Werte zu finden.

Es ist allerdings nicht sofort ersichtlich, welcher Gemeindebezirk den zweithöchsten Wert hat. Unsere Augen müssen zu allen dunklen Feldern huschen und die Werte lesen und sich merken. Schließlich einigen wir uns darauf, dass der Gemeindebezirk Brooklyn Nr. 6 den zweithöchsten Wert hat, aber die Aufgabe wird immer schwieriger. Welcher Bezirk hat den dritthöchsten Wert? Den vierten? Gibt es einen einfacheren Weg, um diese Einschätzung des Ranges zu erleichtern?

Was wir wollen, ist eine einfache Liste der Gemeindebezirke in absteigender Reihenfolge des Verhältnisses. Um diese Liste zu erstellen, erstellen wir zunächst ein neues Feld, das die Felder Borough und CommunityDistrict zu einer einzigen Dimension kombiniert.

Klicke bei gedrückter Strg-Taste auf Borough und CommunityDistrict, so dass beide Felder ausgewählt sind, und klicke dann mit der rechten Maustaste auf eines der beiden ausgewählten Felder (eines von beiden reicht aus) und wähle Felder kombinieren. Im Dimensionsbereich erscheint ein neues Stringfeld mit dem Namen Borough & CommunityDistrict (Combined).

Erstelle die in Abbildung 4-9 gezeigte Liste, indem du Borough & CommunityDistrict in das Regal "Zeilen", Recycle to Refuse Ratio in das Regal " Spalten" und Borough in das Regal "Farbe" ziehst und in absteigender Reihenfolge sortierst.

Abbildung 4-9. Balkendiagramm der Gemeindebezirke

Jetzt können wir schnell erkennen, welche die besten vier oder fünf Bezirke sind und welche die schlechtesten vier oder fünf. Anhand der farbigen Balken können wir auch einige Muster erkennen, z. B. dass die Bezirke mit dem niedrigsten Verhältnis alle in der Bronx (blau) liegen und die meisten der zehn besten Bezirke in Manhattan (grün).

Aber wenn ich dich bitten würde, den zehnten oder fünfzehnten Bezirk auszuwählen, müsstest du von oben nach unten zählen, richtig? Das ist nicht gerade die einfachste Aufgabe. Wie können wir dieser Liste einen Rang hinzufügen, um die Reihenfolge von 1 bis 59 zu bestimmen?

Zwei Möglichkeiten, den Rang zu erhöhen

Lass uns ein Rank Feld erstellen. Klicke dazu mit der rechten Maustaste auf eine beliebige Stelle im Dimensions- oder Measures-Panel auf der linken Seite und wähle erneut " Berechnetes Feld erstellen". Diesmal benennst du das Feld Rank und gibst INDEX() ein. Sobald unten links die Meldung "Die Berechnung ist gültig" erscheint, wird oben rechts ein blauer Text mit der Aufschrift "Standard-Tabellenberechnung" angezeigt. Klicke auf diesen blauen Text und ändere die Dropdown-Liste " Berechnen mit" in " Borough & CommunityDistrict (Combined)", wie in Abbildung 4-10 zeigt.

Abbildung 4-10. Erstellen eines Rangs für jeden der 59 Gemeindebezirke

Damit wird Tableau mitgeteilt, dass der Rang für die Kombination von Borough und CommunityDistrict gelten soll.

Nachdem wir zweimal auf OK geklickt haben, sehen wir ein neues Feld im Measures-Panel namens Rank. Beachte, dass dieses Feld kontinuierlich ist (das # Symbol ist grün), aber wir können die Ränge als diskrete ganze Zahlen betrachten, weil es keinen Rang zwischen zwei aufeinanderfolgenden Rängen gibt. Um den Typ des Datenfeldes Rank zu ändern, klickst du mit der rechten Maustaste auf das Feld im Measures Panel und wählst Convert to Discrete. Das Symbol # neben Rank wird blau und zeigt damit an, dass es sich um ein diskretes Feld handelt. Jetzt können wir Rank in das Diagramm einfügen.

Um das Feld Rank zum Balkendiagramm hinzuzufügen, ziehst du es einfach links neben Borough & CommunityDistrict (Combined) auf die Ablage "Zeilen". Nachdem die Zeilentrenner entfernt wurden, haben wir das farbige, sortierte und nun geordnete Balkendiagramm, das in Abbildung 4-11 dargestellt ist.

Abbildung 4-11. Hinzufügen des Feldes Rang zum Balkendiagramm

Seit der Einführung von Version 8.1 können Nutzer alternativ ein ähnliches Rank Feld erstellen, indem sie die neue Rangtabellenberechnung nutzen. Ziehe dazu eine weitere Instanz von Recycle to Refuse Ratio in die Spaltenablage, klicke auf den Abwärtspfeil der neuen Pille und ändere sie in Diskret, klicke dann erneut auf den Abwärtspfeil und wähle Quick Table Calculation und dann Rank. Zum Schluss klickst du noch einmal auf den Abwärtspfeil und wählst Berechnen mit, dann wählst du Borough CommunityDistrict (combined). (Mit diesem berechneten Feld kannst du auch Ungleichheiten auf verschiedene Weise behandeln).

Die einzige Aufgabe, die dieses Diagramm nicht erleichtert, ist das Ablesen von genauen Werten. Wir könnten die Beschriftungen rechts von den Balken hinzufügen, wie wir es in Abbildung 4-5 getan haben, indem wir das Feld Ratio einfach in das Regal "Beschriftung" ziehen. Aber vielleicht wäre es besser, die Beschriftungen links von den Balken einzufügen, um die Wahrnehmung der Balkenlängen nicht zu beeinträchtigen.

Da es sich bei Recycle to Refuse Ratioum ein kontinuierliches Datenfeld handelt (das Symbol #ist grün), können wir es einfach auf die Zeilenablage rechts neben Borough & CommunityDistrict ziehen, und Tableau erstellt 59 Y-Achsen für jeden der Balken. Probiere es aus und du wirst sehen, was ich meine.

Wir wollen nur, dass der Wert des Verhältnisses selbst angezeigt wird, also konvertieren wir zuerst Recycle to Refuse Ratio in ein diskretes Feld, so wie wir Rank konvertiert haben, und ziehen dann das Verhältnis auf die Ablage "Zeilen" ganz nach rechts, so dass eine blaue Pille übrig bleibt und die in Abbildung 4-12 gezeigte aktualisierte Ansicht entsteht.

Abbildung 4-12. Genaue Werte links von den Balken hinzugefügt

Wir haben das Verhältnis jetzt so visualisiert, dass unser Publikum sehr schnell eine Reihe von Aufgaben erledigen kann:

  • Verschaffe dir einen Überblick darüber, wie die 59 Gemeindebezirke im Vergleich zueinander stehen

  • Ermitteln, welche Bezirke die höchsten und welche die niedrigsten Quoten haben

  • Verschaffe dir einen Überblick darüber, welche Bezirke ganz oben auf der Liste stehen und welche ganz unten

  • Kenne das genaue Verhältnis für jeden Bezirk

  • Wähle einen beliebigen Bezirk in der Rangfolge aus (z.B. den12. oder den28.)

Diese Ansicht ist eine sehr vielseitige und nützliche Methode, um das Verhältnis von Recycling und Müll zu vermitteln. Aber sie sagt uns nicht, welche Bezirke insgesamt mehr Müll pro Person produziert haben. Es kann sein, dass die Bezirke an der Spitze viel recyceln, aber auch viel mehr Müll pro Person produzieren. Hier kommen die Raten ins Spiel .

Preise

Erinnere dich daran, dass eine Rate nur eine besondere Art von Verhältnis ist, bei der Zähler und Nenner unterschiedliche Einheiten haben. Im vorangegangenen Beispiel ging es beim Verhältnis von Recycling zu Müll um Begriffe mit denselben Einheiten, nämlich Tonnen. Wenn wir die Müllproduktionsrate pro Person betrachten, ist der Zähler immer noch die Tonne, aber der Nenner ist jetzt die Anzahl der Menschen.

Der Datensatz, mit dem wir bisher gearbeitet haben, enthält jedoch keine Angaben zur Bevölkerung der Gemeinden. Um die Müllproduktion pro Person zu bestimmen, müssen wir einen Weg finden, um die Bevölkerungsdaten in unsere Analyse einzubeziehen.

Wenn wir zum Datenermittlungsprozess in Abbildung 1-1 zurückkehren, haben wir den ganzen Weg um die Pferderennbahn zurückgelegt und haben nun eine brandneue Frage, die das Sammeln neuer Daten erfordert.

Idealerweise würden wir die Einwohnerzahl nach Gemeindebezirken für September 2011 finden, dem Zeitpunkt, an dem die Daten der DSNY-Sammlung erhoben wurden. Das können wir nicht finden, aber wir können uns annähern: Mit den Daten der Volkszählung von 2010 liegen wir ein Jahr vor den Daten der Müllabfuhr und sind wahrscheinlich geeignet, um eine vernünftige Annäherung an die Müllproduktionsrate zu erhalten.

Jetzt, wo wir Bevölkerungsdaten gefunden haben, wie können wir damit Raten erstellen? Glücklicherweise können wir mit Tableau unsere aktuelle Arbeitsmappe mit diesem neuen Datensatz verbinden und ihn mit den vorhandenen Daten in der Arbeitsmappe "vermischen".

Datenquellen mischen

Wähle im Menü Daten unserer aktuellen Arbeitsmappe die Option Mit Daten verbinden und dann Microsoft Excel und navigiere zu der Bevölkerungsdatendatei, verbinde dich mit dem richtigen Blatt in der Datei und importiere die Daten als Extrakt. Unter wird die neue Datenquelle nun im Bereich Daten zusammen mit den DSNY-Daten angezeigt, wie in Abbildung 4-13 dargestellt.

Abbildung 4-13. Hinzufügen einer zweiten Datenquelle zu einer Arbeitsmappe

Der neu importierte Datensatz wird im Datenbereich hervorgehoben, und die Felder für diesen Datensatz werden in den Feldern Dimensionen und Maßnahmen unten angezeigt. Wenn wir auf den DSNY-Datensatz klicken, werden die Datenfelder für diesen Datensatz unten angezeigt.

Beachte, dass sich CommunityDistrictim Dimensions-Panel des DSNY-Sets befindet, aber im Measures-Bereich der neuen Bevölkerungsdatenquelle. Um sie abzugleichen, ziehe CommunityDistrict aus dem Measures-Panel der Bevölkerungstabelle in den Dimensions-Bereich.

Da beide Datenquellen jetzt eine Dimension namens Borough und eine Dimension namens CommunityDistrict haben, verknüpft Tableau sie für uns. Hätten die zu verknüpfenden Felder unterschiedliche Namen, müssten wir sie manuell über Daten Beziehungen bearbeiten verknüpfen.

Raten visualisieren

Da wir nun mit diesen beiden Datenquellen verknüpft haben, enthält unsere aktualisierte Tableau-Arbeitsmappe beide Ausdrücke des Müll-pro-Person-Verhältnisses: die Messung der Müllmenge in Tonnen (der Zähler) und die Zählung der Anzahl der Menschen in jedem Gemeindebezirk (der Nenner). Wir erstellen die Quote auf die gleiche Weise wie das Verhältnis im vorherigen Abschnitt, aber jetzt müssen wir ein berechnetes Feld erstellen, das Felder aus zwei verschiedenen Quellen enthält, wie in Abbildung 4-14 dargestellt.

Abbildung 4-14. Erstellen eines Tarifs mit Feldern aus zwei Datenquellen

Die Verwendung der Aggregationsart SUM für beide Begriffe in der Rate bedeutet, dass wir aussagekräftige Raten für Bezirke und Gemeinden erhalten können. Beachte auch, dass wir von Short Tons (US) in Pounds (lbs.) umrechnen, indem wir den Zähler mit 2.000 multiplizieren - das ist die Anzahl der Pounds in einer Tonne. Auf einer Pro-Kopf-Basis ist es viel einfacher, in Pfund zu denken, daher ist diese Einheit für diesen Vergleich besser geeignet.

Jetzt, wo wir den Satz erstellt haben, können wir ihn visualisieren. Wir folgen denselben Schritten, die wir zur Erstellung des Verhältnis-Balkendiagramms in Abbildung 4-12 verwendet haben, um das in Abbildung 4-15 gezeigte Balkendiagramm zum Tarifvergleich zu erstellen.

Abbildung 4-15. Vergleich von Raten in einem Balkendiagramm

Aus dieser Übersicht geht hervor, dass die drei Gemeindebezirke in Staten Island im September 2011 mit mehr als 70 Pfund pro Person den meisten Müll produzierten.

Warnung

Ein Wort der Warnung zu diesen Ergebnissen: Datenvisualisierung und Datenanalyse werden oft am besten dazu genutzt, neue Fragen zu stellen. Daten helfen uns, Vergleiche anzustellen, aber sie beantworten nicht immer die Fragen "Warum?" und "Wie?". Es kann leicht passieren, dass wir aufgrund der Daten voreilige Schlüsse ziehen, aber häufig sind weitere qualitative Untersuchungen erforderlich.

Warum stehen die Gemeindebezirke von Staten Island an der Spitze dieser Tabelle? Das Diagramm selbst sagt es uns nicht. Sie hilft uns, die nächste Frage zu formulieren. Bedeutet das, dass jede Person, die auf Staten Island lebt, in diesem Monat 70 bis 80 Pfund Müll produziert hat? Nein, das geht aus den Daten nicht hervor. Die Daten zeigen nur, wie viel Müll in den jeweiligen Gemeinden gesammelt wurde. DSNY hat den gesammelten Müll insgesamt angegeben, nicht nur für die Wohnhäuser. Vielleicht gibt es also Industrien oder Unternehmen auf Staten Island, die viel Müll produziert haben.

Es geht darum, vorsichtig zu sein mit dem, was wir kommunizieren, und nicht mehr zu kommunizieren, als die Daten uns erlauben.

Zusammenfassung

In diesem Kapitel haben wir gelernt, wie man berechnete Felder und gemischte Datenquellen verwendet, um Verhältnisse (Quotienten) und Raten (Quotienten mit gemischten Einheiten) zu erstellen. Außerdem lernten wir die Indexfunktion und die Berechnung der Rangtabelle kennen und erstellten Hervorhebungstabellen und Balkendiagramme, um verschiedene Dimensionen zu vergleichen - sowohl auf Bezirks- als auch auf Gemeindeebene. So konnten wir über die Gesamtbeträge ("wie viel") hinausgehen und relative Beträge ("wie viel pro") berücksichtigen.

Im nächsten Kapitel werden wir uns mit einer anderen Art von normalisiertem Vergleich befassen: Proportionen und Prozentzahlen.

Get Daten mit Tableau kommunizieren now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.