Kapitel 1. Einführung in die Geospatial Analytics

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Bist du ein Geograf, Geologe oder Informatiker? Beeindruckend, wenn du mit Ja geantwortet hast! Ich bin nichts von alledem: Ich bin ein Geodatenanalyst, der sich für die Erforschung von Daten und die Integration von Standortinformationen in die Datenanalyse interessiert.

Geodaten werden überall gesammelt. Die Berücksichtigung des "Wo" bei der Datenanalyse führt eine neue Dimension ein: den Einfluss einer größeren Vielfalt von Merkmalen auf eine bestimmte Beobachtung oder ein bestimmtes Ergebnis zu verstehen. Ich verbringe zum Beispiel beruflich viel Zeit damit, große Open-Source-Datensätze im öffentlichen Gesundheitswesen und in der Gesundheitsversorgung zu untersuchen. Wenn du dich erst einmal mit Geokodierung und räumlichen Dateien vertraut gemacht hast, kannst du nicht nur Erkenntnisse aus verschiedenen Bereichen gewinnen, sondern auch Bereiche erkennen und anvisieren, in denen tiefe soziale und wirtschaftliche Lücken bestehen.

Schon früh in meiner Entwicklung als Datenanalyst wurde mir klar, dass ich größere und komplexere Fragen zu beantworten hatte und mehr Ressourcen brauchte. Mit Blick auf die Arbeit mit den Volkszählungsdaten der Vereinigten Staaten belegte ich einen Kurs in angewandter Analytik. Ich hatte bereits mit der Programmiersprache R gearbeitet, aber dieser Kurs wurde in Python unterrichtet. Ich schaffte es, aber in den folgenden Monaten entdeckte ich vieles, das ich gerne neben den Python-Grundlagen gelernt hätte. In diesem Buch möchte ich das weitergeben, was ich mir wünschte, gelernt zu haben.

Was ich hier mit dir teilen möchte, ist weder das komplette Programmierparadigma von Python, noch ist es ein Python-Einführungskurs. Stattdessen soll es dein Python-Lernen ergänzen, indem es dir zeigt, wie du umsetzbaren Code schreibst, damit du durch Handeln lernen kannst. Das Buch enthält einfache Beispiele, die die wichtigsten Konzepte im Detail erklären. Die Grafiken in den früheren Kapiteln machen dich damit vertraut, wie die Karten aussehen und wie verschiedene Tools Beziehungen darstellen können. Spätere Kapitel befassen sich mit dem Code und den verschiedenen Plattformen, so dass du Python als Ressource für die Beantwortung geospatialer Fragen nutzen kannst. Wenn du auf der Suche nach Flexibilität bei der Bearbeitung von Daten sowohl in Open-Source- als auch in proprietären Systemen bist, ist Python vielleicht das fehlende Teil des Puzzles. Python ist relativ leicht zu erlernen und verfügt über eine Vielzahl von Bibliotheken zum Pivotieren und Umformen von Tabellen, Zusammenführen von Daten und Erstellen von Diagrammen.

Die Integration von Python in die räumliche Analyse ist der Schwerpunkt dieses Buches. Open-Source-Plattformen wie OpenStreetMap (OSM) ermöglichen es uns, hineinzuzoomen und Attribute hinzuzufügen. OSMnx ist ein Python-Paket, mit dem du räumliche Daten von OSM herunterladen und reale Straßennetze und Strukturen in der Landschaft in einem Jupyter-Notebook modellieren, projizieren, visualisieren und analysieren kannst, unabhängig von einer bestimmten Anwendung oder einem bestimmten Tool.¹ Du kannst mit einer einzigen Codezeile in Python begehbare, befahrbare oder fahrradtaugliche städtische Netze herunterladen und modellieren und sie dann ganz einfach analysieren und visualisieren. Du kannst auch andere Infrastrukturtypen, Einrichtungen und Points of Interest, Gebäudegrundrisse, Höhendaten, Straßenausrichtungen, Geschwindigkeiten und Fahrzeiten herunterladen und damit arbeiten. Kapitel 5 dieses Buches bietet dir die Möglichkeit, etwas tiefer in OSM einzutauchen.

Mithilfe der Prinzipien der räumlichen Datenanalyse kannst du Herausforderungen auf lokaler, regionaler und globaler Ebene betrachten. Dazu gehören Umwelt, Gesundheitswesen, Biologie, Geografie, Wirtschaft, Geschichte, Technik, Kommunalverwaltung, Stadtplanung und Lieferkettenmanagement, um nur einige zu nennen. Selbst Themen, die lokal oder regional erscheinen, überschreiten physische und politische Grenzen, ökologische Regionen, Gemeinden und Wassereinzugsgebiete und haben eine räumliche Komponente. Da Karten eine der ersten Wahrnehmungen sind, die wir von der Datenvisualisierung haben, ist es nur logisch, dass du nach der Abfrage deiner Daten neugierig auf den Standort wirst. In diesem Kapitel lernst du einige der allgemeinen Ziele der räumlichen Datenanalyse kennen und erfährst, wie raumbezogene Informationen unser Denken beeinflussen können.

Daten demokratisieren

Die Zugänglichkeit von Open-Source-Datentools und Massive Open Online Courses (MOOCs) hat eine neue Gruppe von Bürgerwissenschaftlern hervorgebracht. Jetzt, wo die Öffentlichkeit Zugang zu Standortdaten und Geodaten hat, werden viele Menschen unabhängig von ihrer Berufsbezeichnung oder ihrem Studienfach "datenneugierig". Vielleicht bist du ein Vogelbeobachter und interessierst dich für eine bestimmte Vogelart - zum Beispiel den Blaureiher. Du möchtest vielleicht auf räumliche Daten zugreifen, um etwas über seinen Lebensraum zu erfahren. Du könntest Forschungsfragen stellen wie: Wo nisten Blaureiher? Wohin wandern sie? Welche ihrer Lebensräume beherbergen die meisten Arten und wie verändert sich dies im Laufe der Zeit? Du könntest Karten über deine eigenen Sichtungen oder andere interessante Variablen erstellen.

Neben persönlichen oder beruflichen Hobbys untersuchen Geodatenanalysten die Sozioökonomie von Stadtteilen und wie sie sich im Laufe der Zeit geografisch verändern. Bei der Untersuchung von Umweltrassismus geht es darum, zu analysieren, wie die bauliche Infrastruktur die Gesundheitsergebnisse in marginalisierten Gemeinschaften beeinträchtigen oder beeinflussen kann. Wir werden diese Idee etwas später erforschen, wenn wir eine Datenfrage zur Untersuchung erstellen.

Das Map Warper Projekt ist eine Open-Source-Sammlung von historischen Karten und aktuellen Standorten. Die Herausforderung besteht darin, dass ältere Karten aufgrund veralteter Vermessungstechnik viele Fehler enthalten. Das Map Warper Projekt ist ein Projekt zur Kartenkorrektur: Es zielt darauf ab, diese Fehler zu korrigieren, damit sie mit den heutigen präzisen Karten übereinstimmen, indem es nach modernen, passenden Bodenkontrollpunkten sucht und das Bild entsprechend verzerrt. Bei diesen Kontrollpunkten handelt es sich um bekannte Koordinaten, die innerhalb von Gebieten von Interesse liegen und als präzise bekannte Orte genutzt werden. Du kannst entzerrte Karten verwenden, um die Entwicklung verschiedener Städte im Laufe der Zeit zu erforschen oder um dir einen historischen Ort genauer vorzustellen. Wie wirken sich z. B. Investitionen in die Infrastruktur und die industrielle Entwicklung im Laufe der Zeit auf die Stadtteile aus? Abbildung 1-1 zeigt eine entzerrte Karte. Du kannst dir bereits entzerrte Karten ansehen oder die New York Public Library unterstützen, indem du selbst eine Karte entzerrst. Jeder ist herzlich eingeladen, mitzumachen!

Es gibt viele Möglichkeiten für Fachleute in verschiedenen Branchen, Location Intelligence in ihre Analysen einzubeziehen. Location Intelligence sind verwertbare Informationen, die aus der Erkundung von räumlichen Beziehungen gewonnen werden, d.h. aus der Formulierung von Datenfragen und der Bewertung von Hypothesen. Da Open-Source-Tools neue Endnutzer/innen willkommen heißen, brauchen wir ein Lexikon, das für Menschen mit unterschiedlichen Interessen, Ressourcen und Lernhintergründen funktioniert. Ich möchte, dass du in der Lage bist, alle in diesem Buch besprochenen Tools zu erkunden.

Obwohl leistungsstarke, abonnementbasierte Anwendungen und Tools zur Verfügung stehen, sind sie meist als Unternehmenslösungen und nicht für Einzelnutzer/innen gedacht, was den Zugang für alle, die nicht zu einer großen Institution gehören, einschränkt. Nehmen wir zum Beispiel GIS-Software: Es gibt viele Optionen, alle mit Vor- und Nachteilen. Zwei der bekanntesten sind das Aeronautical Reconnaissance Coverage Geographic Information System, jetzt bekannt als ArcGIS, das ich in Kapitel 6 bespreche, und Quantum GIS oder QGIS, das Thema von Kapitel 3. In meiner beruflichen Arbeit verwende ich beide, aber im Unterricht stelle ich QGIS gerne in den Vordergrund, weil es wirklich Open Source ist: Du musst nicht für verschiedene Lizenzstufen bezahlen, um Zugang zu den Tools zu erhalten.

A map of Manhattan from 1870 (top) and a rectified map of contemporary Manhattan (bottom)

Warnung

Ich habe auf die harte Tour gelernt, wie teuer abonnementbasierte Tools sein können. ArcGIS verwendet ein Kreditsystem, und als ich anfing, es zu benutzen, wusste ich nicht, dass der kostenpflichtige Dienst automatisch aktiviert wird, wenn ich eine CSV-Datei mit Standortdaten hochlade. Mach diesen Fehler nicht! QGIS hingegen bietet zwei Optionen - beide sind kostenlos.

Fragen zu Daten stellen

Nationale Volkszählungsbüros sind eine ergiebige Quelle für Daten, vor allem für demografische Daten. Die in Abbildung 1-2 gezeigte Karte der Vereinigten Staaten habe ich in ArcGIS mit Daten der US-Volkszählung erstellt, und zwar mit Ethnie-Variablen auf Bezirksebene aus dem American Community Survey (ACS).² Öffentlich zugängliche Ressourcen wie das US Census Bureau bieten eine Anwendungsprogrammierschnittstelle (API): eine Schnittstelle zur Datenübertragung, über die jeder mit ein paar Zeilen Python-Code demografische Daten abrufen kann. Du kannst genau die Daten abrufen, die du willst, anstatt einen ganzen riesigen Datensatz herunterzuladen.

An ArcGIS map visualizing county-level race variables in the continental US

Die Polygone auf der Karte sind in verschiedenen Farben schattiert, die den in der Volkszählung verwendeten Rassenkategorien entsprechen, und zeigen, wo jede Gruppe die Mehrheit der lokalen Bevölkerung stellt. Auf den ersten Blick erkennst du Cluster von kategorischen Variablen, aber was willst du noch wissen? An dieser Stelle werden Geodaten so wertvoll. Kannst du deine Frage mit den Daten beantworten, die du hast? Vielleicht musst du deine Frage neu formulieren, wenn dir Daten fehlen oder du keinen Zugang zu Ressourcen hast. Was könntest du über diese Cluster herausfinden, wenn du auch andere Merkmale untersuchst?

Du wirst die Möglichkeit haben, nicht-räumliche Daten als zusätzliche Ebene in Kapitel 7 hinzuzufügen, wenn wir die Census Data API verwenden, um die US-Volkszählungsdaten zu untersuchen. Für den Moment gebe ich dir einen Tipp: Der Teufel steckt im Detail - oder sollte ich sagen, in den Ebenen. Ebenen sind Sammlungen von geografischen Daten, die du auf der Grundlage deiner spezifischen Abfrage auswählen kannst. In der Ebene in Abbildung 1-2 sind zum Beispiel Polygone schattiert, die auf Gebieten basieren, in denen eine bestimmte Ethnie die Mehrheit der Bevölkerung stellt.

Dies ist ein guter Ort, um den Ausdruck einzuführen: Die Standardeinstellungen sollten nicht die Endpunkte sein. Mit den Standardeinstellungen solltest du deine Analyse beginnen. Welche Informationen sind in deinen Daten zusammengefasst, die am besten mit zusätzlicher Granularität erforscht werden könnten? Ein tieferes Verständnis von GIS wird es dir ermöglichen, von den Standardeinstellungen abzuweichen und einzigartige und tiefere Einblicke zu gewinnen.

Du wirst herausfinden, wie du deine Variablenauswahl speziell für räumliche und nicht-räumliche Attribute anpassen kannst, um die Fragen, die du stellst, und die Erkenntnisse, die du sammelst, zu verbessern.

Die erste Regel der Geodatenanalyse lautet, dass jede Analyse eine definierte Frage erfordert. Was willst du wissen? Hast du eine Hypothese, die du überprüfen willst? Sobald du deine Forschungsfrage formuliert hast, kannst du nach Daten suchen, die dir helfen, sie zu beantworten.

Wenn ich eine Datenfrage formuliere, beziehe ich mich auf gerne auf Toblers erstes Gesetz der Geografie: "Alles ist mit allem verbunden, aber nahe Dinge sind mehr verbunden als ferne."³ Direkt auf geografische Konzepte angewandt, erstreckt sich das Konzept der "Nähe" von Objekten auf Zeit und Raum, nicht nur auf die Nähe. So können zum Beispiel Häuser am Meer direkt von den Auswirkungen des steigenden Meeresspiegels und verstärkter Stürme betroffen sein, aber die daraus resultierenden Überschwemmungen können eine viel größere Region in Mitleidenschaft ziehen. Du musst lernen, an räumliche Konnektivität zu denken, wenn du über räumliche Konfigurationen und die "Nähe" nachdenkst, die im zusammenhängenden Raum beschrieben wird.

Das bedeutet nicht, dass du dir die Daten herauspickst, um die gewünschten Antworten zu erhalten. Du musst dir alle relevanten Daten ansehen, um eine Hypothese aufzustellen oder eine Erkenntnis zu gewinnen. Wenn du darüber nachdenkst, wie du Ethnie und Rassismus in den USA verstehen kannst, möchtest du vielleicht politische Lücken aufdecken, unerfüllte Gesundheitsbedürfnisse angehen oder Empathie fördern. Ausgehend von deinem Ziel könntest du mit Hilfe von Geodaten untersuchen, wie Ethnie und Ort in Bereichen wie Wohnen, Arbeit, Verkehr und Bildung zusammenhängen, um nur einige zu nennen. Wenn du dich mit den Volkszählungsdaten vertraut machst, verstehst du, was Ethnie alles leisten muss. Das ist die Art von Forschung, die mich dazu gebracht hat, Geodatenanwendungen wie ArcGIS und QGIS in meine Vorträge über Armut, Rassenungerechtigkeit, strukturelle Gesundheitsfaktoren und eine Vielzahl anderer Fragen zu integrieren.

Wenn du dich auf Tabellenkalkulationen oder Tabellen ohne räumliche Daten verlässt, entgehen dir möglicherweise wichtige Erkenntnisse. Nicht-räumliche Daten beschreiben, wie Werte verteilt sind - und du kannst dich auf deskriptive Statistiken verlassen. Aber was ist, wenn du wissen willst, welche Auswirkungen räumliche Beziehungen auf diese Werte haben? Statische Messgrößen wie die Lage einer Straße oder eines bestimmten Ereignisses, aber auch dynamische Messgrößen wie die Ausbreitung einer Infektionskrankheit werden aussagekräftiger, wenn du sie mit räumlichen Informationen kombinierst. Die räumliche Analyse untersucht die Beziehungen zwischen Merkmalen, die innerhalb einer geografischen Grenze identifiziert wurden.

Ein konzeptioneller Rahmen für raumbezogene Datenwissenschaft

Geografische Probleme sind komplex und verändern sich über Raum und Zeit. Beispiele dafür findest du in den aktuellen Schlagzeilen: Ungleichheit zwischen den Rassen, Klimawandel, strukturelle Gesundheitsfaktoren, Strafjustiz, Wasserverschmutzung, nicht nachhaltige landwirtschaftliche Praktiken, Versauerung der Meere, Armut, Gefährdung und Aussterben von Arten und wirtschaftliche Probleme. Wie wirkt sich der Standort einer Person auf ihre Gesundheit, ihr Wohlbefinden oder ihre wirtschaftlichen Möglichkeiten aus? Solche Fragen kannst du mit GIS beantworten, indem du räumliche Muster in Phänomenen wie der Ausbreitungsrate von Krankheiten, der Entfernung von Patienten zum nächsten Krankenhaus und der Lage von Straßen, Gewässern, Bäumen und der Begehbarkeit von Städten entdeckst und darstellst.

Räumliches Denken beinhaltet Überlegungen wie Nähe, Überlappung, Nachbarschaft, Möglichkeiten der Vermessung des geografischen Raums und wie geografische Merkmale und Phänomene miteinander in Beziehung stehen. Es ist Teil der räumlichen Kompetenz, einer Art von Kompetenz, die mit inhaltlichem Wissen beginnt und ein Verständnis für die Systeme der Erde, ihre Interaktion mit dem menschlichen Einflussbereich und die Darstellung des geografischen Raums umfasst. Räumliche Kompetenz ermöglicht es dir, Karten und andere räumliche Werkzeuge zu nutzen, um über räumliche Konzepte nachzudenken und wichtige Entscheidungen zu treffen.⁴ Geometrische Visualisierung ist zum Beispiel eine räumliche Fähigkeit, die das Berechnen von Entfernungen zwischen Merkmalen, das Berechnen von Pufferzonen (z. B. wie weit ein Merkmal von einem anderen entfernt ist) und das Identifizieren von Flächen oder Umfängen umfasst.

Das Aspen Global Change Institute identifiziert sechs Systeme des Planeten: die Atmosphäre, die Kryosphäre, die Hydrosphäre, die Biosphäre, die Geosphäre und die Anthroposphäre (die menschliche Präsenz auf der Erde). Geodaten ermöglichen es uns, die Vernetzung all dieser Systeme zu verstehen, und wir können Big Data - viele Daten - nutzen, um gut formulierte Datenfragen zu beantworten.

Du musst kein Experte werden, um dir wichtige räumliche Fähigkeiten für größere Fragen zu bewahren. Wenn du auf einer grundlegenden Ebene verstehst, wie Dinge in Geodaten und Technologien funktionieren, bist du bereits auf dem Weg, komplexere Ideen zu entwickeln. Du lernst, eine Datenfrage zu formulieren und Schritte zur Entwicklung einer neuen Anwendung oder Lösung zu bestimmen. Für Tools, die mit Python geschrieben wurden, ist der Quellcode verfügbar, und ich möchte dich ermutigen, von diesen und anderen Analysetools zu lernen, sie zu verändern, zu erweitern und mit anderen zu teilen.

Schauen wir uns ein Beispiel an. Die Karte, die du in Abbildung 1-3 siehst, wurde zur Erkundung der wirtschaftlichen Prekarität erstellt.

Risk Index Summer Meals (ArcGIS) targeting expansion of US Department of Agriculture summer meal programs

Die roten Quadrate zeigen die Bevölkerungsgruppen in Washington, D.C. an, in denen sich die durchschnittliche Familie ein paar hundert Dollar für einen unerwarteten Notfall nicht leisten kann. Diese roten Quadrate zeigen die Familien, bei denen das Risiko am größten ist, dass sie ihre Haushaltsausgaben nicht mehr bestreiten können, und größere Quadrate stehen für eine größere Anzahl von Haushalten. Die grünen Quadrate sind Standorte, an denen das Summer Food Service Program (SFSP) im Jahr 2020 kostenlose Mahlzeiten an einkommensschwache Kinder ausgegeben hat, wenn die Schule nicht geöffnet war. Hast du eine Idee, wo das SFSP die Standorte zugewiesen hat?

Wenn du dir diese Schichten von Geodaten zusammen auf der Karte in Abbildung 1-3 ansiehst, kannst du die Relevanz von nicht-räumlichen Daten erkennen. Ohne ein Verständnis der Bevölkerungsmerkmale, wie z. B. der Größe und des Standorts der betroffenen Familien, und ohne zu wissen, ob und wie diese Merkmale den Risikoindex beeinflussen, bist du bei der Interpretation der Tabellendaten eingeschränkt.

Geografische Informationssysteme analysieren Daten und zeigen geografische Informationen in Echtzeit in einer Vielzahl von Branchen an. Obwohl es Ähnlichkeiten zwischen räumlichen und nicht-räumlichen Analysen gibt, werden räumliche Statistiken speziell für die Verwendung mit geografischen Daten entwickelt. Beide werden mit geografischen Merkmalen in Verbindung gebracht, aber räumliche Statistiken befassen sich speziell mit geokodierten geografischen Raumdaten. Das heißt, sie beziehen den Raum (einschließlich Nähe, Fläche, Konnektivität und andere räumliche Beziehungen) direkt in ihre Mathematik ein. Denke zum Beispiel an die Daten, die Flughäfen erzeugen. Es gibt nicht-räumliche Statistiken für Variablen wie die Region, die Nutzung (militärisch oder zivil/öffentlich) und Listen mit pünktlichen Ankünften und Abflügen. Es gibt auch räumliche Komponenten, wie die Höhe der Start- und Landebahn und geografische Koordinaten.

Komplexe Probleme sind räumlich. Wo treten diese Probleme auf und wie können wir planen, um in Zukunft bessere Ergebnisse zu erzielen?

Kartenprojektionen

Unser Komfort beim Betrachten von Karten täuscht über ihre Komplexität hinweg. Die meisten Karten enthalten mehrere Ebenen von Informationen. Wir können interaktive Karten erstellen, die mehrere Datensätze überlagern, und damit experimentieren, wie wir unsere Ergebnisse vermitteln. Aber wir müssen auch Vorsicht walten lassen. Karten mögen vertraut sein, aber Vertrautheit ist nicht gleichbedeutend mit Genauigkeit oder Kompetenz. Projektionen sind ein gutes Beispiel.

Der Planet Erde ist nicht vollkommen kugelförmig. Das macht Sinn, wenn du an die chemische Beschaffenheit des Planeten denkst und daran, dass die Zentrifugalkraft, die durch das Drehen im Weltraum verursacht wird, dazu neigt, die Mitte herauszudrücken, was zu einer abgeflachten Sphäroidform führt. Technisch gesehen ist die Erde ein Ellipsoid: Der Umfang um die Pole ist kürzer als der Umfang um den Äquator, fast so, als wäre der Planet von oben nach unten gequetscht worden. Wenn wir versuchen, die Oberfläche des Planeten abzubilden, um eine zweidimensionale Karte zu erstellen, verwenden wir ein geografisches Koordinatensystem(Abbildung 1-4) mit Längen- und Breitengraden - ein Gitternetz - umdiese unvollkommene Kugel, dieses Koordinatensystem, auf eine flache Oberfläche zu projizieren. Die vereinfachten Projektionen berücksichtigen komplexe Faktoren, z. B. wie sich das Schwerkraftfeld der Erde mit der Topografie verändert. Wir nennen dies das Geoid. Es ist wichtig, sich darüber im Klaren zu sein, dass die ganze Welt nicht auf ein Blatt Papier oder einen Computerbildschirm passt - zumindest nicht in einer sichtbaren, leicht interpretierbaren Weise.

Zu diesen verschiedenen Projektionen gehören die konische, die azimutale und die zylindrische. Und wenn du OpenStreetMap oder Google Maps nutzt, bist du mit dem Web-Mercator-Koordinatensystem vertraut. Jede dieser Projektionen hat Vor- und Nachteile, z. B. Verzerrungen bei Fläche, Entfernung, Richtung und Größe. Es wird dich freuen zu hören, dass wir uns nicht allein mit diesen Kompromissen herumschlagen müssen - die Software erledigt einen Großteil der komplizierten Berechnungen.

Wenn du die Variationen dieser Karten kennenlernst(Abbildung 1-5), kannst du die optimale Projektion für deine Zwecke auswählen. Du wirst immer Kompromisse eingehen müssen, indem du entscheidest, welchen Aspekt du optimierst und bei anderen Aspekten ein wenig Verzerrung in Kauf nimmst. Die beliebte Mercator-Projektion(Abb. 1-6) ist nützlich für die Navigation, verzerrt aber die Gebiete in der Nähe der Pole - was Grönland bekanntlich riesig aussehen lässt. Du kannst sehen, wie unterschiedlich die Darstellungen in den in Abbildung 1-5 gezeigten flächengleichen Projektionen sind, aber Grönland hat in allen Projektionen den richtigen Maßstab. In der Mercator-Projektion in Abbildung 1-6 ist Südamerika zwar achtmal so groß wie Grönland, aber die beiden Länder scheinen ähnlich groß zu sein.

Bei meiner Arbeit im Bereich Bevölkerungsgesundheit ist die Fläche der wichtigste Aspekt. Sie muss bei Projektionen so genau wie möglich eingehalten werden. Wenn ich Prozentsätze oder rohe Zahlen auf einer Karte abbilde, möchte ich so unparteiisch wie möglich sein. Wenn ein kleiner Ort im Vergleich zu anderen Orten zu groß aussieht, gibt es eine inhärente Verzerrung, die meine Interpretation der Karte beeinflusst. Ich werde mein Bestes tun, um die Schwächen und Stärken der Projektion zu betrachten und zu sagen: "Ich werde eine Karte wählen, die die Fläche beibehält." Karten, die die Fläche von beibehalten, werden als flächengleiche Projektionen bezeichnet.

Wenn ich sicherstelle, dass die für meine Visualisierung wichtigsten Messwerte in dem von mir gewählten Koordinatensystem erfasst werden, habe ich den größten Teil des Weges geschafft. Natürlich möchte ich, dass meine Werte so gut wie möglich mit den tatsächlichen Werten in der realen Welt übereinstimmen.

Map Error Scores

Der Grad der Abweichung einer Karte von der Genauigkeit eines Globus (die 0,0 beträgt) wird als Fehler bezeichnet. Er wird normalerweise mit dem Goldberg-Gott-Fehlerwert gemessen,⁵ der sich aus der normierten Summe der Quadrate der sechs Parameter ergibt:

$Σ_{\in} = {(\frac{I}{N_{i}})}^{2} + {(\frac{A}{N_{a}})}^{2} + {(\frac{F}{N_{f}})}^{2} + {(\frac{S}{N_{s}})}^{2} + {(\frac{D}{N_{d}})}^{2} + {(\frac{B}{N_{b}})}^{2}$

Die Normalisierungskonstanten(x = λ, y = φ) sind: Ni = 0,51, Na = 0,41, Nf = 0,64, Ns = 0,60, Nd = 0,449 und Nb = 0,25. I = Isotropie, A = Fläche, F = Beugung, S = Schiefe, D = Abstände und B = Grenzschnitte für einige Standardprojektionen.

Eine niedrigere Punktzahl spiegelt weniger Fehler oder Kompromisse bei der Darstellung der flachen Karte wider und minimiert die Verzerrung von Fläche, Richtung und Entfernung. Als Referenz würde ein Globus den Wert 0,0 haben. Die Mercator-Projektion(Abbildung 1-6) hat einen Fehlerwert von 8,296, während die Winkel-Tripel-Projektion (eines der Beispiele in Abbildung 1-5) einen Wert von 4,563 hat. Die neueste Karte von J. Richard Gott hat die bisher niedrigste Fehlerquote: 0,881.

Vektordaten: Orte als Objekte

Bevor wir tiefer in die Erforschung von Vektordaten in Python einsteigen, muss ich ein paar Konzepte vorstellen, die im Laufe des Buches nützlich sein werden. Wir werden mit Vektordaten arbeiten , also mit Punkten, Linien und Polygonen, um Daten zu übermitteln. Wir werden Python-Skripte und QGIS-Integrationen verwenden, um Datensätze in eine Karte zu laden und die Struktur der Vektordaten zu untersuchen. Ich zeige dir auch, wie du mit verschiedenen Tools Karten mit Farben und Symbolen anpassen kannst, um die Übersichtlichkeit und Genauigkeit zu verbessern.

Abbildung 1-7 ist eine ArcGIS-Darstellung des Central Parks in New York City und der umliegenden Gebäude. Du kannst sehen, dass die Geometrie jedes Merkmals als Punkte, Linien oder Polygone dargestellt wird. Die Geometrie eines Features bestimmt, wie es gerendert wird: als Punkt, Linie oder Polygon. Zusätzliche Informationen zu den Merkmalen können die Art des Bauwerks, das Baujahr, die architektonischen Abmessungen und andere Attribute sein, die du in einer Attributtabelle findest.

ArcGIS rendering of vector data showing building types in New York City, with attribute table

Geografische Systeme können mit vielen Arten von Daten arbeiten. Du kannst eine Vektordatendatei mit der Bezeichnung als Shapefile (mit der Endung .shp) oder Geodatabase (.gdb) sehen. Lidar-Erhebungen (Light Detection and Ranging) werden als Vektordaten erfasst, aber oft in gerasterten Datenformaten erstellt und gespeichert.

Vergleiche die Dateiformate von Textverarbeitungsprogrammen wie Microsoft Word (.docx) mit einer einfachen Textdatei (.txt). Der Inhalt (die Wörter auf der Seite) mag in beiden Dateien derselbe sein, aber die Komplexität und Raffinesse ist in der Textdatei sicherlich geringer. Warum würdest du eine Textdatei wählen, wenn du ein Schriftstück weitergeben möchtest? Was wäre, wenn du möchtest, dass das Dokument von jedem gelesen werden kann, unabhängig von der Software, oder wenn du es einfach transportieren oder in einem kleineren Speicherformat speichern möchtest?

So funktionieren auch die GIS-Dateiformate: Obwohl der Inhalt derselbe ist, unterscheiden sich die GIS-Dateiformate in ihrer Funktionalität. Shapefiles haben keine topologische oder räumliche Ebene, während solche Ebenen bei einer Geodatenbank optional sind. GIS-Dateiformate unterscheiden sich auch in ihrer Einfachheit, Redundanz, Fehlererkennung und Speicherung. Für die geografischen Daten der Volkszählung werden TIGER/Linienauszüge oder Shapefiles verwendet. Sie werden als Set zusammengefasst, das digitale Dateien (Vektorkoordinaten mit der Erweiterung .shp ), einen Index (.shx) und dBase-Attributdaten (.dbf) enthält.

Das bekannteste Koordinatenprojektionssystem sind Längen- und Breitengrade. Diese Koordinaten beschreiben genau, wo sich ein bestimmter Ort auf der Erdoberfläche befindet. Du kannst überall auf der Welt abgesetzt werden, und wenn du deinen Längengrad (X) und Breitengrad (Y) hast, kennst du deinen Standort. Diesen genauen Standort nennt man ein Punktattribut. Ein Punktattribut hat ebenfalls X- und Y-Werte, aber Attribute können quantitative oder qualitative Beschreibungen sein. Das Punktattribut beschreibt das Feature. Optional kann ein Z-Wert verwendet werden, um Werte in drei Dimensionen darzustellen, wobei sich Z auf die Höhe bezieht. Wenn Standortdaten in einem Arbeitsblatt erscheinen, kannst du die Spalten für Breiten- und Längengrad verwenden, um einen Punkt zu finden. Das in Abbildung 1-8 gezeigte Tabellenblatt zur Luftqualität enthält geografische Daten (Breiten- und Längengrad) und nicht-geografische Daten (die Luftqualitätsmessung in der Wertespalte), so dass eine GIS-Anwendung Informationen zu einem bestimmten geografischen Standort hinzufügen kann.

A dataset of air-quality measurements that includes spatial and nonspatial data

Rasterdaten: Räumliche Zusammenhänge verstehen

Vektordaten konzentrieren sich auf das, was an einem bestimmten Ort sichtbar ist. Es gibt bestimmte Grenzen oder Bereiche auf einer Karte, in denen Daten oder Objekte entweder vorhanden oder nicht vorhanden sind. Du würdest nicht erwarten, dass ein Gebäude oder sogar ein polygonales Objekt, das eine Stadt darstellt, an jedem Ort innerhalb einer bestimmten Grenze vorhanden ist.

BeiRasterdaten handelt es sich dagegen um kontinuierliche Daten, die keine spezifischen Grenzen haben, aber in der gesamten Kartenansicht vorhanden sind, wie z. B. Bildmaterial, Oberflächentemperaturen und digitale Höhenangaben. Bei Rasterdaten handelt es sich um Daten, die als gepixelte Bildmatrix dargestellt werden, wie in Abbildung 1-9 gezeigt, und nicht um Punkte, Linien und Polygone wie bei Vektordaten. Jedes Pixel entspricht einem bestimmten geografischen Ort. Keine Sorge, wenn dir das jetzt abstrakt vorkommt: Beide Datentypen werden einfacher zu visualisieren sein, sobald wir mit ihnen arbeiten. Etwas intuitiver ist es, wenn du dir die Höhe der Erdoberfläche, den Niederschlag oder die Oberflächentemperatur ansiehst. Du kannst diese Messwerte an jedem Ort innerhalb deines Untersuchungsgebiets aufzeichnen, unabhängig von deiner Untersuchungsansicht.

San Francisco depicted as a raster (QGIS)

Bisher beschreibe ich einfach die Verteilung von Punkten, Polygonen oder Linien innerhalb unseres Untersuchungsgebiets. Rasterdaten werden als eine Reihe von Werten dargestellt, die in ein Raster von Zellen unterteilt sind. Die Begriffe Zellen und Pixel beschreiben die räumliche Auflösung und werden oft austauschbar verwendet. Die Dimension der Zelle oder des Pixels steht für die Fläche, die abgedeckt wird. Geodatenmodelle nehmen diese abstrakten Darstellungen von realen Objekt- und/oder Feldansichten und erforschen mathematische Zusammenhänge, um Beziehungen zu modellieren oder vorherzusagen.

Der große Unterschied zwischen Fotos und Rasterbildern ist, dass Rasterbilder Daten über die erweiterten Wellenlängenbereiche des Lichts enthalten. Diese erweiterten Daten, die über die roten, grünen und blauen Wellenlängen hinausgehen, ermöglichen es maschinellen Lernmodellen, zwischen einer Vielzahl von Objekten zu unterscheiden. Das liegt daran, dass verschiedene Objekte das Infrarotlicht auf unterschiedliche Weise reflektieren, was zusätzliche Informationen in einem multispektralen Bild liefert. Viele Weltraumbehörden auf der ganzen Welt stellen die Daten ihrer Erdbeobachtungssatelliten frei zur Verfügung. Diese Datensätze sind für Wissenschaftler/innen, Forscher/innen, Regierungen und Unternehmen von großem Wert.

Ein Hügelraster, wie in Abbildung 1-9 zu sehen, nutzt Licht und Schatten, um den 3D-Effekt des betrachteten Bereichs zu erzeugen.

Bei der Betrachtung eines GIS-Ansatzes auf Systemebene müssen mehrere Konzepte gleichzeitig berücksichtigt werden. Die kleineren Komponenten innerhalb eines größeren Systems interagieren dynamisch, um Muster im System zu erkennen. Zur geometrischen Visualisierung gehören zum Beispiel die Berechnung von Entfernungen zwischen Merkmalen, die Berechnung von Pufferbereichen (wie weit ein Merkmal von einem anderen entfernt ist) und die Identifizierung von Flächen oder Umkreisen. Es wird unsere Diskussion vereinfachen, wenn du dir diese Themen als Teile eines Ganzen vorstellst. Wenn du diese einführenden Konzepte verstehst, wird dir das Lernen in den folgenden Kapiteln leichter fallen. Es ist wichtig, dass du mit einem Grundwissen über räumliche Gegebenheiten beginnst.

Bewerten und Auswählen von Datensätzen

Es gibt viele Datensätze, die du in Tutorials zum Erlernen einer neuen Fertigkeit, zum Einarbeiten in eine neue Anwendung oder sogar zum Starten deines eigenen, unabhängigen Geodatenprojekts verwenden kannst. Die Datensätze in diesem Buch wurden geprüft und haben sich in einer Vielzahl von Anwendungen und Arbeitsabläufen bewährt.

Bevor du deinen Datensatz auswählst, musst du deine Optionen bewerten. Die Informationen über einen Datensatz werden Metadaten genannt. Oft gibt es auch eine ergänzende Datendatei, die Attribute wie Feldüberschriften beschreibt. Dies nennt man ein Datenwörterbuch. Du kannst dir ein Beispiel ansehen: das Landsat Data Dictionary, das vom US Geological Survey (USGS) veröffentlicht wird.

Du kannst eine Menge lernen, wenn du dir Metadaten ansiehst. Du kannst dir Metadaten wie das Etikett auf einer Dose Suppe vorstellen: Du liest es, weil du wissen willst, wie die Zutaten lauten und ob die Suppe gut für dich ist. Abbildung 1-10 zeigt ein Beispiel für Metadaten. Zu den wichtigsten Informationen, die du überprüfen solltest, gehören das geografische Gebiet, die aufgelisteten Attribute, die Kartenprojektion, die der Datensatz verwendet, sein Maßstab und ob für die Nutzung eine Gebühr anfällt.

Ich schlage vor, dass du zunächst versuchst, mit den vorgeschlagenen Datenquellen in diesem Buch zurechtzukommen. Wenn du dich sicher fühlst, erkunde Datensätze, die mit deinen Interessen zu tun haben, und schau, was du entdecken kannst.

Zusammenfassung

Das Feld der Geodatenanalyse ist riesig, und Python ist ein umfangreiches Thema, über das schon viel geschrieben wurde. Es ist schwer vorstellbar, dass ein einziges Buch eines dieser Themen, geschweige denn beide, vollständig und verbindlich einführt. Stattdessen ist es mein Ziel, dir wichtige Grundlagen zu erklären und dich mit Open-Source-Tools und Datensätzen bekannt zu machen, die du zur Beantwortung von Geodatenfragen nutzen kannst.

In diesem Kapitel hast du einen Überblick über wichtige Geodatenkonzepte wie Koordinatensysteme, Projektionen und die beiden Haupttypen von Geodaten erhalten: Vektoren und Raster. Du hast auch gelernt, wie man räumlich denkt, und wir haben mit einer Einführung in Datensätze und die Auswahl der Daten, mit denen du arbeiten willst, abgeschlossen. Sei nicht erschrocken, wenn dir das alles sehr viel vorkommt! Im Moment möchte ich nur deine Neugierde wecken, indem ich dir die Möglichkeiten der Arbeit mit Open-Source-Geodaten mit Python zeige.

¹ Boeing, G. 2017. "OSMnx: Neue Methoden zur Erfassung, Konstruktion, Analyse und Visualisierung komplexer Straßennetze". Computers, Environment and Urban Systems 65: 126-139. https://doi.org/10.1016/j.compenvurbsys.2017.05.004.

² Die jährliche ACS hat 2005 die Langform der Volkszählung ersetzt. Sie stellt eine Vielzahl von Fragen, um demografische Veränderungen zu ermitteln und Informationen über lokale Gemeinschaften zu sammeln. Geografische Volkszählungsdaten aus aller Welt stehen auch in der Integrated Public Use Microdata Series (IPUMS) zum Download bereit. Die Integration und Dokumentation von IPUMS macht es einfach, Veränderungen zu untersuchen, vergleichende Forschung zu betreiben, Informationen aus verschiedenen Datentypen zusammenzuführen und Einzelpersonen im Familien- und Gemeinschaftskontext zu analysieren. Die Daten und Dienste sind kostenlos verfügbar.

³ Tobler, W. 1970. "Ein Computerfilm, der das Stadtwachstum in der Region Detroit simuliert". Wirtschaftsgeographie 46 (Beilage): 234–240. https://doi.org/10.2307/143141.

⁴ Um mehr über räumliche Kompetenz zu erfahren, siehe National Research Council. 2006. Learning to Think Spatially. Washington, DC: The National Academies Press. https://oreil.ly/i3olt.

⁵ Gott, J. Richard, III, Goldberg, David M., und Vanderbei, Robert J. 2021. "Flat Maps that Improve on the Winkel Tripel." arXiv preprint arXiv:2102.08176.

Get Python für die Geodatenanalyse now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.

Start your free trial

Python für die Geodatenanalyse by Bonny P. McClain

Kapitel 1. Einführung in die Geospatial Analytics

Daten demokratisieren

Abbildung 1-1. Eine Karte von Manhattan aus dem Jahr 1870 (oben) und eine entzerrte Karte des heutigen Manhattans (unten)

Warnung

Fragen zu Daten stellen

Abbildung 1-2. Eine ArcGIS-Karte zur Visualisierung von Ethnie-Variablen auf Kreisebene in den kontinentalen USA

Ein konzeptioneller Rahmen für raumbezogene Datenwissenschaft

Abbildung 1-3. Risikoindex Sommermahlzeiten (ArcGIS), der auf die Ausweitung der Sommermahlzeitenprogramme des US-Landwirtschaftsministeriums abzielt

Kartenprojektionen

Abbildung 1-4. Geografische Koordinatensysteme

Abbildung 1-5. Einige flächengleiche Projektionen

Abbildung 1-6. Mercator-Projektion

Vektordaten: Orte als Objekte

Abbildung 1-7. ArcGIS-Rendering von Vektordaten mit Gebäudetypen in New York City, mit Attributtabelle

Abbildung 1-8. Ein Datensatz von Luftqualitätsmessungen, der räumliche und nicht-räumliche Daten enthält

Rasterdaten: Räumliche Zusammenhänge verstehen

Abbildung 1-9. San Francisco als Raster dargestellt (QGIS)

Bewerten und Auswählen von Datensätzen

Abbildung 1-10. Beispiel für Metadaten

Zusammenfassung

Don’t leave empty-handed

It’s yours, free.

Check it out now on O’Reilly