Kapitel 3. Datenwrangling
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
3.0 Einleitung
Data Wrangling ist ein weit gefasster Begriff, der oft informell verwendet wird, um den Prozess der Umwandlung von Rohdaten in ein sauberes, organisiertes und gebrauchsfertiges Format zu beschreiben. Für uns ist Data Wrangling nur ein Schritt in der Vorverarbeitung unserer Daten, aber ein wichtiger Schritt.
Die gebräuchlichste Datenstruktur, um Daten zu "verarbeiten", ist der Datenrahmen, der sowohl intuitiv als auch unglaublich vielseitig sein kann. Datenrahmen sind tabellarisch, d. h. sie basieren auf Zeilen und Spalten, wie du sie aus einer Tabellenkalkulation kennst. Hier ist ein Datenrahmen, der aus Daten über die Passagiere der Titanic erstellt wurde:
# Load library
import
pandas
as
pd
# Create URL
url
=
'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'
# Load data as a dataframe
dataframe
=
pd
.
read_csv
(
url
)
# Show first five rows
dataframe
.
head
(
5
)
Name | PClass | Alter | Sex | Überlebt | SexCode | |
---|---|---|---|---|---|---|
0 | Allen, Miss Elisabeth Walton | 1. | 29.00 | weiblich | 1 | 1 |
1 | Allison, Miss Helen Loraine | 1. | 2.00 | weiblich | 0 | 1 |
2 | Allison, Herr Hudson Joshua Creighton | 1. | 30.00 | männlich | 0 | 0 |
3 | Allison, Mrs. Hudson JC (Bessie Waldo Daniels) | 1. | 25.00 | weiblich | 0 | 1 |
4 | Allison, Meister Hudson Trevor | 1. | 0.92 | männlich | 1 | 0 |
In diesem Datenrahmen gibt es drei wichtige Dinge zu beachten.
Erstens entspricht in ...
Get Maschinelles Lernen mit Python Kochbuch, 2. now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.