book

Python para el Análisis de Datos, 3ª Edición

Name: Python para el Análisis de Datos, 3ª Edición
Author: Wes McKinney
ISBN: 9781098181321

by Wes McKinney

September 2024

Intermediate to advanced

582 pages

13h 43m

Spanish

O'Reilly Media, Inc.

Read now

Unlock full access

Prefacio
Convenciones utilizadas en este libroUtilizar ejemplos de códigoAprendizaje en línea O'ReillyCómo contactar con nosotrosAgradecimientosIn Memoriam: John D. Hunter (1968-2012)Agradecimientos por la Tercera Edición (2022)Agradecimientos por la Segunda Edición (2017)Agradecimientos por la Primera Edición (2012)
Preliminares
1.1 ¿De qué trata este libro?¿Qué tipo de datos?1.2 ¿Por qué Python para el Análisis de Datos?Python como pegamentoResolver el problema de las "dos lenguas¿Por qué no Python?1.3 Bibliotecas esenciales de PythonNumPypandasmatplotlibIPython y JupyterSciPyscikit-learnmodelos estadísticosOtros paquetes1.4 Instalación y configuraciónMiniconda en WindowsGNU/LinuxMiniconda en macOSInstalar los paquetes necesariosEntornos de desarrollo integrados y editores de texto1.5 Comunidad y Conferencias1.6 Navegar por este libroEjemplos de códigosDatos para los ejemplosConvenciones de importación
Conceptos básicos del lenguaje Python, IPython y Jupyter Notebooks
2.1 El intérprete de Python2.2 Conceptos básicos de IPythonEjecutar el Shell IPythonEjecutar Jupyter NotebookCompletar pestañaIntrospección2.3 Conceptos básicos del lenguaje PythonSemántica del lenguajeTipos escalaresFlujo de control2.4 Conclusión
Estructuras de datos, funciones y archivos incorporados
3.1 Estructuras de datos y secuenciasTuplaListaDiccionarioConfiguraFunciones de secuencia incorporadasComprensiones de listas, conjuntos y diccionarios3.2 FuncionesEspacios de nombres, ámbito y funciones localesDevolver varios valoresLas funciones son objetosFunciones anónimas (lambda)GeneradoresErrores y manejo de excepciones3.3 Los archivos y el sistema operativoBytes y Unicode con Archivos3.4 Conclusión
Conceptos básicos de NumPy: Matrices y cálculo vectorial
4.1 La matriz NumPy ndarray: Un objeto matriz multidimensionalCrear ndarraysTipos de datos para ndarraysAritmética con matrices NumPyIndexación y segmentación básicasIndexación booleanaIndexación de fantasíaTransponer matrices e intercambiar ejes4.2 Generación de números pseudoaleatorios4.3 Funciones universales: Funciones rápidas de matrices por elementos4.4 Programación orientada a matrices con matricesExpresar la lógica condicional como operaciones de matrizMétodos matemáticos y estadísticosMétodos para matrices booleanasClasificaciónLógica de conjuntos únicos y otros4.5 Entrada y salida de archivos con matrices4.6 Álgebra lineal4.7 Ejemplo: Paseos aleatoriosSimular muchos paseos aleatorios a la vez4.8 Conclusión
Primeros pasos con pandas
5.1 Introducción a las estructuras de datos de pandasSerieMarco de datosObjetos índice5.2 Funcionalidad esencialReindexaciónEliminar entradas de un ejeIndexación, selección y filtradoAritmética y alineación de datosAplicación y asignación de funcionesOrdenar y clasificarÍndices de ejes con etiquetas duplicadas5.3 Resumir y calcular las estadísticas descriptivasCorrelación y covarianzaValores únicos, recuento de valores y afiliación5.4 Conclusión
Carga de datos, almacenamiento y formatos de archivo
6.1 Leer y escribir datos en formato textoLeer archivos de texto por partesEscribir datos en formato de textoTrabajar con otros formatos delimitadosDatos JSONXML y HTML: Raspado web6.2 Formatos de datos binariosLectura de archivos de Microsoft ExcelUtilizar el formato HDF56.3 Interactuar con las API Web6.4 Interactuar con bases de datos6.5 Conclusión
Limpieza y preparación de datos
7.1 Tratamiento de los datos que faltanFiltrar los datos que faltanRellenar los datos que faltan7.2 Transformación de datosEliminar duplicadosTransformar datos mediante una función o una asignaciónSustitución de valoresRenombrar índices de ejesDiscretización y binningDetectar y filtrar valores atípicosPermutación y muestreo aleatorioCálculo de indicadores/variables ficticias7.3 Tipos de datos de extensión7.4 Manipulación de cadenasMétodos de objetos de cadena incorporados en PythonExpresiones regularesFunciones de cadena en pandas7.5 Datos categóricosAntecedentes y motivaciónTipo de extensión categórica en pandasCálculos con categóricosMétodos Categóricos7.6 Conclusión
Gestión de datos: Unir, Combinar y Remodelar
8.1 Indexación jerárquicaReordenar y clasificar nivelesEstadísticas resumidas por nivelIndexar con las columnas de un DataFrame8.2 Combinar y fusionar conjuntos de datosUniones de marcos de datos estilo base de datosFusión en índiceConcatenar a lo largo de un ejeCombinar datos con solapamiento8.3 Remodelar y pivotarRemodelación con indexación jerárquicaPasar del formato "largo" al "anchoPivotar del formato "ancho" al "largo8.4 Conclusión
Trazado y visualización
9.1 Breve introducción a la API de matplotlibCifras y subtramasColores, marcadores y estilos de líneaGarrapatas, etiquetas y leyendasAnotaciones y Dibujo en una SubtramaGuardar parcelas en un archivoConfiguración de matplotlib9.2 Trazar con pandas y seabornParcelas linealesParcelas de barHistogramas y gráficos de densidadGráficos de dispersión o de puntosRejillas de Facetas y Datos Categóricos9.3 Otras herramientas de visualización de Python9.4 Conclusión

Agregación de datos y operaciones de grupo
10.1 Cómo pensar en las operaciones de grupoIterar sobre gruposSeleccionar una columna o subconjunto de columnasAgrupar con diccionarios y seriesAgrupar con funcionesAgrupación por niveles de índice10.2 Agregación de datosAplicación por columnas y funciones múltiplesDevolución de datos agregados sin índices de filas10.3 Aplicar: General dividir-aplicar-combinarSuprimir las claves de grupoAnálisis de cuantiles y de cubosEjemplo: Rellenar valores perdidos con valores específicos de grupoEjemplo: Muestreo aleatorio y permutaciónEjemplo: Media ponderada de grupo y correlaciónEjemplo: Regresión lineal por grupos10.4 Transformadas de grupo y GroupBys "sin envolver"10.5 Tablas Dinámicas y Tabulaciones CruzadasTabulaciones cruzadas: Tabulaciones cruzadas10.6 Conclusión
Series temporales
11.1 Tipos de datos y herramientas de fecha y horaConversión entre cadena y fecha/hora11.2 Conceptos básicos de las series temporalesIndexación, Selección, SubconjuntoSeries temporales con índices duplicados11.3 Rangos de fechas, frecuencias y desplazamientosGenerar intervalos de fechasFrecuencias y desfasesDatos cambiantes (principales y atrasados)11.4 Manejo del huso horarioLocalización y conversión de husos horariosOperaciones con objetos de marca de tiempo que tienen en cuenta el huso horarioOperaciones entre zonas horarias diferentes11.5 Periodos y aritmética de periodosPeríodo Conversión de frecuenciaPeriodos trimestrales FrecuenciasConvertir marcas de tiempo en periodos (y viceversa)Crear un PeriodIndex a partir de matrices11.6 Remuestreo y conversión de frecuenciaMuestreo descendenteSobremuestreo e interpolaciónRemuestreo con periodosRemuestreo temporal agrupado11.7 Funciones de la ventana móvilFunciones ponderadas exponencialmenteFunciones binarias de ventana móvilFunciones de ventana móvil definidas por el usuario11.8 Conclusión
Introducción a las bibliotecas de modelado en Python
12.1 Interfaz entre pandas y el código modelo12.2 Crear descripciones de modelos con PatsyTransformaciones de datos en fórmulas PatsyDatos categóricos y Patsy12.3 Introducción a los modelos estadísticosEstimación de modelos linealesEstimación de Procesos de Series Temporales12.4 Introducción a scikit-learn12.5 Conclusión
Ejemplos de análisis de datos
13.1 Datos Bitly de 1.USA.govContar husos horarios en Python puroContar husos horarios con pandas13.2 Conjunto de datos MovieLens 1MMedir el desacuerdo en la valoración13.3 Nombres de bebés en EE.UU. 1880-2010Analizar las tendencias de los nombres13.4 Base de datos de alimentos del USDA13,5 Base de datos de la Comisión Electoral Federal de 2012Estadísticas de donaciones por ocupación y empleadorImportes de las donacionesEstadísticas de donaciones por Estado13.6 Conclusión
NumPy avanzado
A.1 Internos del objeto ndarrayJerarquía de tipos de datos NumPyA.2 Manipulación avanzada de matricesRemodelación de matricesOrden en C frente a FORTRANConcatenar y dividir matricesElementos repetitivos: embaldosar y repetirEquivalentes de indexación de fantasía: tomar y ponerA.3 DifusiónTransmisión por otros ejesEstablecer valores de matriz mediante difusiónA.4 Uso avanzado de ufuncMétodos de instancia ufuncEscribir nuevas ufuncs en PythonA.5 Matrices estructuradas y de registrosTipos de datos anidados y campos multidimensionales¿Por qué utilizar matrices estructuradas?A.6 Más sobre la clasificaciónOrdenaciones indirectas: argsort y lexsortAlgoritmos de ordenación alternativosOrdenación parcial de matricesnumpy.searchsorted: Encontrar elementos en una matriz ordenadaA.7 Escribir funciones NumPy rápidas con NumbaCreación de objetos numpy.ufunc personalizados con NumbaA.8 Entrada y salida avanzadas de la matrizArchivos mapeados en memoriaHDF5 y otras opciones de almacenamiento en arrayA.9 Consejos de rendimientoLa importancia de la memoria contigua
Más sobre el sistema IPython
B.1 Atajos de teclado del terminalB.2 Acerca de los Comandos MágicosEl comando %runEjecutar código desde el portapapelesB.3 Utilizar el Historial de ComandosBuscar y Reutilizar el Historial de ComandosVariables de entrada y salidaB.4 Interactuar con el Sistema OperativoComandos Shell y aliasSistema de marcadores de directorioB.5 Herramientas de desarrollo de softwareDepurador interactivoCódigo de tiempo: %time y %timeitPerfilado básico: %prun y %run -pPerfilar una función línea por líneaB.6 Consejos para un desarrollo productivo del código utilizando IPythonRecarga de dependencias de módulosConsejos para el diseño del códigoB.7 Funciones avanzadas de IPythonPerfiles y configuraciónB.8 Conclusión
Índice
Sobre el autor

Content preview from Python para el Análisis de Datos, 3ª Edición

Capítulo 1. Preliminares

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

1.1 ¿De qué trata este libro?

Este libro se ocupa de las tuercas y los tornillos de la manipulación, el procesamiento, la limpieza y el crujido de datos en Python. Mi objetivo es ofrecer una guía de las partes del lenguaje de programación Python y su ecosistema de bibliotecas y herramientas orientadas a los datos que te equiparán para convertirte en un analista de datos eficaz. Aunque "análisis de datos" figura en el título del libro,la atención se centra específicamente en la programación, las bibliotecas y las herramientas de Python, y no en la metodología del análisis de datos. Esta es la programación Python que necesitas para el análisis de datos.

Algún tiempo después de que publicara originalmente este libro en 2012, la gente empezó a utilizar el término ciencia de datos como descripción general de todo, desde la simple estadística descriptiva hasta el análisis estadístico más avanzado y el aprendizaje automático. El ecosistema de código abierto de Python para realizar análisis de datos (o ciencia de datos) también se ha ampliado significativamente desde entonces. Ahora hay muchos otros libros que se centran específicamente en estas metodologías más avanzadas. Mi esperanza es que este libro te sirva como preparación adecuada para que puedas pasar a un recurso más específico de tu dominio.

Nota

Algunos podrían caracterizar gran parte del contenido ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Python para el Análisis de Datos Geoespaciales

Publisher Resources

ISBN: 9781098181321

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design