Capítulo 3. Paseo por la clasificación: Conjunto de datos Titanic

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Este capítulo recorrerá un problema habitual de clasificación utilizando elconjunto de datos Titanic. En capítulos posteriores se profundizará y ampliará en los pasos habituales que se realizan durante un análisis.

Sugerencia de diseño del proyecto

Una herramienta excelente para realizar análisis exploratorios de datos es Jupyter. Jupyter es un entorno de cuaderno de código abierto compatible con Python y otros lenguajes. Te permite crear celdas de código o contenido Markdown.

Suelo utilizar Jupyter de dos modos. Uno es para el análisis exploratorio de datos y para probar cosas rápidamente. El otro es más un estilo de entregable en el que formateo un informe utilizando celdas Markdown e inserto celdas de código para ilustrar puntos o descubrimientos importantes. Si no tienes cuidado, tus cuadernos pueden necesitar cierta refactorización y la aplicación de prácticas de ingeniería de software (eliminar globales, utilizar funciones y clases, etc.).

El paquete de ciencia de datos cookiecutter sugiere un diseño para crear un análisis que permite reproducirlo fácilmente y compartir el código.

Importaciones

Este ejemplo se basa principalmente en pandas, scikit-learn y Yellowbrick. La biblioteca pandas nos proporciona herramientas para una fácil manipulación de datos. La biblioteca scikit-learn tiene un ...

Get Referencia de bolsillo sobre aprendizaje automático now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.