Capítulo 13. Capstone: Python para el análisis de datos
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Al final del Capítulo 8 extendiste lo que aprendiste sobre R para explorar y probar las relaciones en el conjunto de datos mpg. Haremos lo mismo en este capítulo, utilizando Python. Hemos realizado el mismo trabajo en Excel y en R, así que me centraré menos en los porqués de nuestro análisis en favor de los cómos de hacerlo en Python.
Para empezar, vamos a llamar a todos los módulos necesarios de . Algunos de ellos son nuevos: de scipy
, importaremos el submódulo stats
. Para ello, utilizaremos la palabra clave from
para indicar a Python qué módulo debe buscar, y después la palabra clave habitual import
para elegir un submódulo. Como su nombre indica, utilizaremos el submódulo stats
de scipy
para realizar nuestro análisis estadístico. También utilizaremos un nuevo paquete llamado sklearn
, o scikit-learn, para validar nuestro modelo en una división de entrenamiento/prueba. Este paquete se ha convertido en un recurso dominante para el aprendizaje automático y también viene instalado con Anaconda.
In
[
1
]:
import
pandas
as
pd
import
seaborn
as
sns
import
matplotlib.pyplot
as
plt
from
scipy
import
stats
from
sklearn
import
linear_model
from
sklearn
import
model_selection
from
sklearn
import
metrics
Con el argumento usecols
de read_csv()
podemos especificar qué columnas leer en el DataFrame:
In
[
2
]:
mpg
=
pd
.
read_csv ...
Get Avanzar en la Analítica now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.