KAPITEL 7
Daten vorverarbeiten
In diesem Kapitel werden übliche Vorverarbeitungsschritte anhand folgender Daten erläutert:
>>> X2 = pd.DataFrame(
... {
... "a": range(5),
... "b": [-100, -50, 0, 200, 1000],
... }
... )
>>> X2
a b
0 0 -100
1 1 -50
2 2 0
3 3 200
4 4 1000
Standardisieren
Manche Algorithmen, etwa SVM, führen zu einem besseren Ergebnis, wenn die Daten standardisiert sind. Jede Spalte sollte einen Mittelwert von 0 und eine Standardabweichung von 1 aufweisen. Sklearn stellt mit der Methode .fit_transform eine Kombination aus .fit und .transform zur Verfügung:
>>> from sklearn import preprocessing
>>> std = preprocessing.StandardScaler()
>>> std.fit_transform(X2)
array([[-1.41421356, -0.75995002],
[-0.70710678, -0.63737744],
[ 0. ...
Get Machine Learning – Die Referenz now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.