Kapitel 3. Datenwrangling

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

3.0 Einleitung

Data Wrangling ist ein weit gefasster Begriff, der oft informell verwendet wird, um den Prozess der Umwandlung von Rohdaten in ein sauberes, organisiertes und gebrauchsfertiges Format zu beschreiben. Für uns ist Data Wrangling nur ein Schritt in der Vorverarbeitung unserer Daten, aber ein wichtiger Schritt.

Die gebräuchlichste Datenstruktur, um Daten zu "verarbeiten", ist der Datenrahmen, der sowohl intuitiv als auch unglaublich vielseitig sein kann. Datenrahmen sind tabellarisch, d. h. sie basieren auf Zeilen und Spalten, wie du sie aus einer Tabellenkalkulation kennst. Hier ist ein Datenrahmen, der aus Daten über die Passagiere der Titanic erstellt wurde:

# Load library
import pandas as pd

# Create URL
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

# Load data as a dataframe
dataframe = pd.read_csv(url)

# Show first five rows
dataframe.head(5)

Name	PClass	Alter	Sex	Überlebt	SexCode
0	Allen, Miss Elisabeth Walton	1.	29.00	weiblich	1	1
1	Allison, Miss Helen Loraine	1.	2.00	weiblich	0	1
2	Allison, Herr Hudson Joshua Creighton	1.	30.00	männlich	0	0
3	Allison, Mrs. Hudson JC (Bessie Waldo Daniels)	1.	25.00	weiblich	0	1
4	Allison, Meister Hudson Trevor	1.	0.92	männlich	1	0

In diesem Datenrahmen gibt es drei wichtige Dinge zu beachten.

Erstens entspricht in ...

Get Maschinelles Lernen mit Python Kochbuch, 2. now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.

Start your free trial

Maschinelles Lernen mit Python Kochbuch, 2. by Kyle Gallatin, Chris Albon

Kapitel 3. Datenwrangling

3.0 Einleitung

Don’t leave empty-handed

It’s yours, free.

Check it out now on O’Reilly