book

Python para el Análisis de Datos, 3ª Edición

by Wes McKinney

September 2024

Intermediate to advanced

582 pages

13h 43m

Spanish

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

Convenciones utilizadas en este libroUtilizar ejemplos de códigoAprendizaje en línea O'ReillyCómo contactar con nosotrosAgradecimientosIn Memoriam: John D. Hunter (1968-2012)Agradecimientos por la Tercera Edición (2022)Agradecimientos por la Segunda Edición (2017)Agradecimientos por la Primera Edición (2012)
1.1 ¿De qué trata este libro?¿Qué tipo de datos?1.2 ¿Por qué Python para el Análisis de Datos?Python como pegamentoResolver el problema de las "dos lenguas¿Por qué no Python?1.3 Bibliotecas esenciales de PythonNumPypandasmatplotlibIPython y JupyterSciPyscikit-learnmodelos estadísticosOtros paquetes1.4 Instalación y configuraciónMiniconda en WindowsGNU/LinuxMiniconda en macOSInstalar los paquetes necesariosEntornos de desarrollo integrados y editores de texto1.5 Comunidad y Conferencias1.6 Navegar por este libroEjemplos de códigosDatos para los ejemplosConvenciones de importación
2.1 El intérprete de Python2.2 Conceptos básicos de IPythonEjecutar el Shell IPythonEjecutar Jupyter NotebookCompletar pestañaIntrospección2.3 Conceptos básicos del lenguaje PythonSemántica del lenguajeTipos escalaresFlujo de control2.4 Conclusión
3.1 Estructuras de datos y secuenciasTuplaListaDiccionarioConfiguraFunciones de secuencia incorporadasComprensiones de listas, conjuntos y diccionarios3.2 FuncionesEspacios de nombres, ámbito y funciones localesDevolver varios valoresLas funciones son objetosFunciones anónimas (lambda)GeneradoresErrores y manejo de excepciones3.3 Los archivos y el sistema operativoBytes y Unicode con Archivos3.4 Conclusión
4.1 La matriz NumPy ndarray: Un objeto matriz multidimensionalCrear ndarraysTipos de datos para ndarraysAritmética con matrices NumPyIndexación y segmentación básicasIndexación booleanaIndexación de fantasíaTransponer matrices e intercambiar ejes4.2 Generación de números pseudoaleatorios4.3 Funciones universales: Funciones rápidas de matrices por elementos4.4 Programación orientada a matrices con matricesExpresar la lógica condicional como operaciones de matrizMétodos matemáticos y estadísticosMétodos para matrices booleanasClasificaciónLógica de conjuntos únicos y otros4.5 Entrada y salida de archivos con matrices4.6 Álgebra lineal4.7 Ejemplo: Paseos aleatoriosSimular muchos paseos aleatorios a la vez4.8 Conclusión
5.1 Introducción a las estructuras de datos de pandasSerieMarco de datosObjetos índice5.2 Funcionalidad esencialReindexaciónEliminar entradas de un ejeIndexación, selección y filtradoAritmética y alineación de datosAplicación y asignación de funcionesOrdenar y clasificarÍndices de ejes con etiquetas duplicadas5.3 Resumir y calcular las estadísticas descriptivasCorrelación y covarianzaValores únicos, recuento de valores y afiliación5.4 Conclusión
6.1 Leer y escribir datos en formato textoLeer archivos de texto por partesEscribir datos en formato de textoTrabajar con otros formatos delimitadosDatos JSONXML y HTML: Raspado web6.2 Formatos de datos binariosLectura de archivos de Microsoft ExcelUtilizar el formato HDF56.3 Interactuar con las API Web6.4 Interactuar con bases de datos6.5 Conclusión
7.1 Tratamiento de los datos que faltanFiltrar los datos que faltanRellenar los datos que faltan7.2 Transformación de datosEliminar duplicadosTransformar datos mediante una función o una asignaciónSustitución de valoresRenombrar índices de ejesDiscretización y binningDetectar y filtrar valores atípicosPermutación y muestreo aleatorioCálculo de indicadores/variables ficticias7.3 Tipos de datos de extensión7.4 Manipulación de cadenasMétodos de objetos de cadena incorporados en PythonExpresiones regularesFunciones de cadena en pandas7.5 Datos categóricosAntecedentes y motivaciónTipo de extensión categórica en pandasCálculos con categóricosMétodos Categóricos7.6 Conclusión
8.1 Indexación jerárquicaReordenar y clasificar nivelesEstadísticas resumidas por nivelIndexar con las columnas de un DataFrame8.2 Combinar y fusionar conjuntos de datosUniones de marcos de datos estilo base de datosFusión en índiceConcatenar a lo largo de un ejeCombinar datos con solapamiento8.3 Remodelar y pivotarRemodelación con indexación jerárquicaPasar del formato "largo" al "anchoPivotar del formato "ancho" al "largo8.4 Conclusión
9.1 Breve introducción a la API de matplotlibCifras y subtramasColores, marcadores y estilos de líneaGarrapatas, etiquetas y leyendasAnotaciones y Dibujo en una SubtramaGuardar parcelas en un archivoConfiguración de matplotlib9.2 Trazar con pandas y seabornParcelas linealesParcelas de barHistogramas y gráficos de densidadGráficos de dispersión o de puntosRejillas de Facetas y Datos Categóricos9.3 Otras herramientas de visualización de Python9.4 Conclusión

10.1 Cómo pensar en las operaciones de grupoIterar sobre gruposSeleccionar una columna o subconjunto de columnasAgrupar con diccionarios y seriesAgrupar con funcionesAgrupación por niveles de índice10.2 Agregación de datosAplicación por columnas y funciones múltiplesDevolución de datos agregados sin índices de filas10.3 Aplicar: General dividir-aplicar-combinarSuprimir las claves de grupoAnálisis de cuantiles y de cubosEjemplo: Rellenar valores perdidos con valores específicos de grupoEjemplo: Muestreo aleatorio y permutaciónEjemplo: Media ponderada de grupo y correlaciónEjemplo: Regresión lineal por grupos10.4 Transformadas de grupo y GroupBys "sin envolver"10.5 Tablas Dinámicas y Tabulaciones CruzadasTabulaciones cruzadas: Tabulaciones cruzadas10.6 Conclusión
11.1 Tipos de datos y herramientas de fecha y horaConversión entre cadena y fecha/hora11.2 Conceptos básicos de las series temporalesIndexación, Selección, SubconjuntoSeries temporales con índices duplicados11.3 Rangos de fechas, frecuencias y desplazamientosGenerar intervalos de fechasFrecuencias y desfasesDatos cambiantes (principales y atrasados)11.4 Manejo del huso horarioLocalización y conversión de husos horariosOperaciones con objetos de marca de tiempo que tienen en cuenta el huso horarioOperaciones entre zonas horarias diferentes11.5 Periodos y aritmética de periodosPeríodo Conversión de frecuenciaPeriodos trimestrales FrecuenciasConvertir marcas de tiempo en periodos (y viceversa)Crear un PeriodIndex a partir de matrices11.6 Remuestreo y conversión de frecuenciaMuestreo descendenteSobremuestreo e interpolaciónRemuestreo con periodosRemuestreo temporal agrupado11.7 Funciones de la ventana móvilFunciones ponderadas exponencialmenteFunciones binarias de ventana móvilFunciones de ventana móvil definidas por el usuario11.8 Conclusión
12.1 Interfaz entre pandas y el código modelo12.2 Crear descripciones de modelos con PatsyTransformaciones de datos en fórmulas PatsyDatos categóricos y Patsy12.3 Introducción a los modelos estadísticosEstimación de modelos linealesEstimación de Procesos de Series Temporales12.4 Introducción a scikit-learn12.5 Conclusión
13.1 Datos Bitly de 1.USA.govContar husos horarios en Python puroContar husos horarios con pandas13.2 Conjunto de datos MovieLens 1MMedir el desacuerdo en la valoración13.3 Nombres de bebés en EE.UU. 1880-2010Analizar las tendencias de los nombres13.4 Base de datos de alimentos del USDA13,5 Base de datos de la Comisión Electoral Federal de 2012Estadísticas de donaciones por ocupación y empleadorImportes de las donacionesEstadísticas de donaciones por Estado13.6 Conclusión
A.1 Internos del objeto ndarrayJerarquía de tipos de datos NumPyA.2 Manipulación avanzada de matricesRemodelación de matricesOrden en C frente a FORTRANConcatenar y dividir matricesElementos repetitivos: embaldosar y repetirEquivalentes de indexación de fantasía: tomar y ponerA.3 DifusiónTransmisión por otros ejesEstablecer valores de matriz mediante difusiónA.4 Uso avanzado de ufuncMétodos de instancia ufuncEscribir nuevas ufuncs en PythonA.5 Matrices estructuradas y de registrosTipos de datos anidados y campos multidimensionales¿Por qué utilizar matrices estructuradas?A.6 Más sobre la clasificaciónOrdenaciones indirectas: argsort y lexsortAlgoritmos de ordenación alternativosOrdenación parcial de matricesnumpy.searchsorted: Encontrar elementos en una matriz ordenadaA.7 Escribir funciones NumPy rápidas con NumbaCreación de objetos numpy.ufunc personalizados con NumbaA.8 Entrada y salida avanzadas de la matrizArchivos mapeados en memoriaHDF5 y otras opciones de almacenamiento en arrayA.9 Consejos de rendimientoLa importancia de la memoria contigua
B.1 Atajos de teclado del terminalB.2 Acerca de los Comandos MágicosEl comando %runEjecutar código desde el portapapelesB.3 Utilizar el Historial de ComandosBuscar y Reutilizar el Historial de ComandosVariables de entrada y salidaB.4 Interactuar con el Sistema OperativoComandos Shell y aliasSistema de marcadores de directorioB.5 Herramientas de desarrollo de softwareDepurador interactivoCódigo de tiempo: %time y %timeitPerfilado básico: %prun y %run -pPerfilar una función línea por líneaB.6 Consejos para un desarrollo productivo del código utilizando IPythonRecarga de dependencias de módulosConsejos para el diseño del códigoB.7 Funciones avanzadas de IPythonPerfiles y configuraciónB.8 Conclusión

Content preview from Python para el Análisis de Datos, 3ª Edición

Capítulo 7. Limpieza y preparación de datos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Durante la realización de análisis y modelización de datos, se dedica una cantidad significativa de tiempo a la preparación de los datos: carga, limpieza, transformación y reordenación. A menudo se dice que estas tareas ocupan el 80% o más del tiempo de un analista. A veces, la forma en que se almacenan los datos en archivos o bases de datos no tiene el formato adecuado para una tarea concreta. Muchos investigadores optan por hacer un procesamiento ad hoc de los datos de una forma a otra utilizando un lenguaje de programación de propósito general, como Python, Perl, R o Java, o herramientas de procesamiento de texto de Unix como sed o awk. Afortunadamente, pandas, junto con las características incorporadas del lenguaje Python, te proporciona un conjunto de herramientas de alto nivel, flexibles y rápidas, que te permitirán manipular los datos para darles la forma adecuada.

Si identificas un tipo de manipulación de datos que no aparece en este libro ni en ninguna otra parte de la biblioteca pandas, no dudes en compartir tu caso de uso en una de las listas de correo de Python o en el sitio GitHub de pandas. De hecho, gran parte del diseño y la implementación de pandas han sido impulsados por las necesidades de las aplicaciones del mundo real.

En este capítulo hablo de herramientas para datos que faltan, datos duplicados, manipulación ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

Python para el Análisis de Datos Geoespaciales

Publisher Resources

ISBN: 9781098181321Supplemental Content

Python para el Análisis de Datos, 3ª Edición

by Wes McKinney

Capítulo 7. Limpieza y preparación de datos

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

You might also like

Python para el Análisis de Datos Geoespaciales

Tramitación práctica de datos y calidad de datos en Python

Planos para el análisis de textos con Python

Python de alto rendimiento, 2ª edición

Publisher Resources

Capítulo 7. Limpieza y preparación de datos

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

You might also like

Python para el Análisis de Datos Geoespaciales

Tramitación práctica de datos y calidad de datos en Python

Planos para el análisis de textos con Python

Python de alto rendimiento, 2ª edición

Publisher Resources

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.