Kapitel 20. Aggregation und Gruppierung

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Ein grundlegender Bestandteil vieler Datenanalyseaufgaben ist die effiziente Zusammenfassung: das Berechnen von Aggregationen wie sum, mean, median,min und max, bei denen eine einzige Zahl Aspekte eines potenziell großen Datensatzes zusammenfasst. In diesem Kapitel werden wir uns mit Aggregationen in Pandas beschäftigen, von einfachen Operationen, wie wir sie von NumPy-Arrays kennen, bis hin zu komplexeren Operationen, die auf dem Konzept von groupby basieren.

Der Einfachheit halber verwenden wir dieselbe display Zauberfunktion, die wir in den vorherigen Kapiteln benutzt haben:

In [1]: import numpy as np
        import pandas as pd

        class display(object):
            """Display HTML representation of multiple objects"""
            template = """<div style="float: left; padding: 10px;">
            <p style='font-family:"Courier New", Courier, monospace'>{0}{1}
            """
            def __init__(self, *args):
                self.args = args

            def _repr_html_(self):
                return '\n'.join(self.template.format(a, eval(a)._repr_html_())
                                 for a in self.args)

            def __repr__(self):
                return '\n\n'.join(a + '\n' + repr(eval(a))
                                   for a in self.args)

Planeten Daten

Hier werden wir den Planets-Datensatz verwenden, der über dasSeaborn-Paket (sieheKapitel 36) verfügbar ist. Er enthält Informationen über Planeten, die Astronomen um andere Sterne entdeckt haben (sogenannte extrasolare Planeten oder kurzExoplaneten ...

Get Python Data Science Handbook, 2. Auflage now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.