Kapitel 20. Aggregation und Gruppierung
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Ein grundlegender Bestandteil vieler Datenanalyseaufgaben ist die effiziente Zusammenfassung: das Berechnen von Aggregationen wie sum
, mean
, median
,min
und max
, bei denen eine einzige Zahl Aspekte eines potenziell großen Datensatzes zusammenfasst. In diesem Kapitel werden wir uns mit Aggregationen in Pandas beschäftigen, von einfachen Operationen, wie wir sie von NumPy-Arrays kennen, bis hin zu komplexeren Operationen, die auf dem Konzept von groupby
basieren.
Der Einfachheit halber verwenden wir dieselbe display
Zauberfunktion, die wir in den vorherigen Kapiteln benutzt haben:
In
[
1
]:
import
numpy
as
np
import
pandas
as
pd
class
display
(
object
):
"""Display HTML representation of multiple objects"""
template
=
"""<div style="float: left; padding: 10px;">
<p style='font-family:"Courier New", Courier, monospace'>
{0}{1}
"""
def
__init__
(
self
,
*
args
):
self
.
args
=
args
def
_repr_html_
(
self
):
return
'
\n
'
.
join
(
self
.
template
.
format
(
a
,
eval
(
a
)
.
_repr_html_
())
for
a
in
self
.
args
)
def
__repr__
(
self
):
return
'
\n\n
'
.
join
(
a
+
'
\n
'
+
repr
(
eval
(
a
))
for
a
in
self
.
args
)
Planeten Daten
Hier werden wir den Planets-Datensatz verwenden, der über dasSeaborn-Paket (sieheKapitel 36) verfügbar ist. Er enthält Informationen über Planeten, die Astronomen um andere Sterne entdeckt haben (sogenannte extrasolare Planeten oder kurzExoplaneten ...
Get Python Data Science Handbook, 2. Auflage now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.