Kapitel 6. Arbeiten mit verschiedenen Datentypen
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
In Kapitel 5 wurden die grundlegenden Konzepte und Abstraktionen des Datenrahmens vorgestellt. In diesem Kapitel geht es um die Erstellung von Ausdrücken, die das A und O der strukturierten Operationen von Spark sind. Außerdem gehen wir auf die Arbeit mit verschiedenen Arten von Daten ein, darunter die folgenden:
-
Booleans
-
Zahlen
-
Strings
-
Daten und Zeitstempel
-
Umgang mit Null
-
Komplexe Typen
-
Benutzerdefinierte Funktionen
Wo man nach APIs sucht
Bevor wir mit beginnen, ist es wichtig zu erklären, wo du als Nutzer nach Transformationen suchen solltest. Spark ist ein wachsendes Projekt, und jedes Buch (auch dieses) ist eine Momentaufnahme. Eine unserer Prioritäten in diesem Buch ist es, dir zu zeigen, wo du zum jetzigen Zeitpunkt nach Funktionen zur Transformation deiner Daten suchen solltest. Nachfolgend die wichtigsten Orte, an denen du suchen solltest:
DataFrame(Dataset) Methoden-
ist eigentlich ein kleiner Trick, denn ein Datenrahmen ist nur ein Datensatz mit
RowTypen, also musst du dir dieDatasetMethoden ansehen, die du unter diesem Link findest.
Dataset Untermodulen wie DataFrameStatFunctions und DataFrameNaFunctions haben mehr Methoden, die bestimmte Problemstellungen lösen. DataFrameStatFunctions Der Untermodul DataFrameNaFunctions enthält zum Beispiel eine Vielzahl von statistischen ...