KAPITEL 7

Daten vorverarbeiten

In diesem Kapitel werden übliche Vorverarbeitungsschritte anhand folgender Daten erläutert:

>>> X2 = pd.DataFrame(

... {

... "a": range(5),

... "b": [-100, -50, 0, 200, 1000],

... }

... )

>>> X2

a b

0 0 -100

1 1 -50

2 2 0

3 3 200

4 4 1000

Standardisieren

Manche Algorithmen, etwa SVM, führen zu einem besseren Ergebnis, wenn die Daten standardisiert sind. Jede Spalte sollte einen Mittelwert von 0 und eine Standardabweichung von 1 aufweisen. Sklearn stellt mit der Methode .fit_transform eine Kombination aus .fit und .transform zur Verfügung:

>>> from sklearn import preprocessing

>>> std = preprocessing.StandardScaler()

>>> std.fit_transform(X2)

array([[-1.41421356, -0.75995002],

[-0.70710678, -0.63737744],

[ 0. ...

Get Machine Learning – Die Referenz now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.