Kapitel 13. Schlussstein: Python für Datenanalyse
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Am Ende von Kapitel 8 hast du dein Wissen über R erweitert, um die Beziehungen im mpg-Datensatz zu untersuchen und zu testen. In diesem Kapitel werden wir dasselbe mit Python tun. Wir haben die gleiche Arbeit in Excel und R durchgeführt, deshalb werde ich mich weniger auf das Warum unserer Analyse konzentrieren, sondern mehr auf das Wie der Durchführung in Python.
Um loszulegen, rufen wir alle notwendigen Module von auf. Einige von ihnen sind neu: Von scipy
importieren wir das Submodul stats
. Dazu verwenden wir das Schlüsselwort from
, um Python mitzuteilen, nach welchem Modul es suchen soll, und dann das übliche Schlüsselwort import
, um ein Untermodul auszuwählen. Wie der Name schon sagt, verwenden wir das Untermodul stats
von scipy
, um unsere statistische Analyse durchzuführen. Wir werden auch das neue Paket namens sklearn
oder scikit-learn verwenden, um unser Modell anhand eines Trainings-/Testsplits zu validieren. Dieses Paket hat sich zu einer wichtigen Ressource für maschinelles Lernen entwickelt und wird auch mit Anaconda installiert.
In
[
1
]:
import
pandas
as
pd
import
seaborn
as
sns
import
matplotlib.pyplot
as
plt
from
scipy
import
stats
from
sklearn
import
linear_model
from
sklearn
import
model_selection
from
sklearn
import
metrics
Mit dem usecols
Argument von read_csv()
können wir festlegen, ...
Get Vorstoß in die Analytik now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.