Capítulo 13. Capstone: Python para el análisis de datos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Al final del Capítulo 8 extendiste lo que aprendiste sobre R para explorar y probar las relaciones en el conjunto de datos mpg. Haremos lo mismo en este capítulo, utilizando Python. Hemos realizado el mismo trabajo en Excel y en R, así que me centraré menos en los porqués de nuestro análisis en favor de los cómos de hacerlo en Python.

Para empezar, vamos a llamar a todos los módulos necesarios de . Algunos de ellos son nuevos: de scipy, importaremos el submódulo stats. Para ello, utilizaremos la palabra clave from para indicar a Python qué módulo debe buscar, y después la palabra clave habitual import para elegir un submódulo. Como su nombre indica, utilizaremos el submódulo stats de scipy para realizar nuestro análisis estadístico. También utilizaremos un nuevo paquete llamado sklearn, o scikit-learn, para validar nuestro modelo en una división de entrenamiento/prueba. Este paquete se ha convertido en un recurso dominante para el aprendizaje automático y también viene instalado con Anaconda.

In [1]: import pandas as pd
        import seaborn as sns
        import matplotlib.pyplot as plt
        from scipy import stats
        from sklearn import linear_model
        from sklearn import model_selection
        from sklearn import metrics

Con el argumento usecols de read_csv() podemos especificar qué columnas leer en el DataFrame:

In [2]: mpg = pd.read_csv ...

Get Avanzar en la Analítica now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.