Kapitel 13. Schlussstein: Python für Datenanalyse

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Am Ende von Kapitel 8 hast du dein Wissen über R erweitert, um die Beziehungen im mpg-Datensatz zu untersuchen und zu testen. In diesem Kapitel werden wir dasselbe mit Python tun. Wir haben die gleiche Arbeit in Excel und R durchgeführt, deshalb werde ich mich weniger auf das Warum unserer Analyse konzentrieren, sondern mehr auf das Wie der Durchführung in Python.

Um loszulegen, rufen wir alle notwendigen Module von auf. Einige von ihnen sind neu: Von scipy importieren wir das Submodul stats. Dazu verwenden wir das Schlüsselwort from, um Python mitzuteilen, nach welchem Modul es suchen soll, und dann das übliche Schlüsselwort import, um ein Untermodul auszuwählen. Wie der Name schon sagt, verwenden wir das Untermodul stats von scipy, um unsere statistische Analyse durchzuführen. Wir werden auch das neue Paket namens sklearn oder scikit-learn verwenden, um unser Modell anhand eines Trainings-/Testsplits zu validieren. Dieses Paket hat sich zu einer wichtigen Ressource für maschinelles Lernen entwickelt und wird auch mit Anaconda installiert.

In [1]: import pandas as pd
        import seaborn as sns
        import matplotlib.pyplot as plt
        from scipy import stats
        from sklearn import linear_model
        from sklearn import model_selection
        from sklearn import metrics

Mit dem usecols Argument von read_csv() können wir festlegen, ...

Get Vorstoß in die Analytik now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.