Kapitel 22. Vektorisierte String-Operationen

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Eine Stärke von Python ist die relativ einfache Handhabung und Manipulation von String-Daten. Pandas baut darauf auf und bietet ein umfassendes Set anvektorisierten String-Operationen, die ein wichtiger Bestandteil des Mungings sind, das bei der Arbeit mit (sprich: beim Bereinigen) von realen Daten erforderlich ist. In diesem Kapitel gehen wir einige der String-Operationen von Pandas durch und verwenden sie dann, um einen sehr unordentlichen Datensatz mit Rezepten aus dem Internet teilweise zu bereinigen.

Einführung in Pandas String-Operationen

In den vorangegangenen Kapiteln haben wir gesehen, wie Werkzeuge wie NumPy und Pandas arithmetische Operationen verallgemeinern, sodass wir einfach und schnell dieselbe Operation für viele Array-Elemente durchführen können. Ein Beispiel:

In [1]: import numpy as np
        x = np.array([2, 3, 5, 7, 11, 13])
        x * 2
Out[1]: array([ 4,  6, 10, 14, 22, 26])

Diese Vektorisierung von Operationen vereinfacht die Syntax für die Bearbeitung von Datenarrays: Wir müssen uns nicht mehr um die Größe oder Form des Arrays kümmern, sondern nur noch darum, welche Operation wir durchführen wollen. Für Arrays mit Strings bietet NumPy keinen so einfachen Zugriff und du musst daher eine ausführlichere Schleifensyntax verwenden:

In [2]: data = ['peter', 'Paul', 'MARY', 'gUIDO']
        [s.capitalize ...

Get Python Data Science Handbook, 2. Auflage now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.